Zaufanie to liczba. Jak inżynier WorkOS zbudował od zera dwa systemy ewaluacji agentów AI
Nick Nisi z WorkOS pokazuje, jak testować niedeterministyczne narzędzia oparte o LLM. Dwa systemy evals, fixtury jak realne stany, diff z gita, retry oraz grading po wyniku zamiast po ścieżce.









