𝗦𝗰𝗼𝗿𝗶𝗻𝗴 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀: 𝗗𝗲𝘁𝗲𝗿𝗺𝗶𝗻𝗶𝘀𝘁𝗶𝗰 𝗠𝗲𝘁𝗿𝗶𝗰𝘀 + 𝗮𝗻 𝗟𝗟𝗠 𝗝𝘂𝗱𝗴𝗲
You run many small AI agents. You have agents for backend, frontend, mobile, and devops. Each agent has one job.
When you have many agents, you face a problem. You do not know if they are good. You do not know if a prompt edit makes them better or worse. Saying "it looks fine" does not work at scale.
I built a framework to solve this. It uses numbers to measure performance and improves prompts automatically.
The Strategy
Measure what you can measure with math first. Use an LLM judge only when you must. Deterministic metrics are fast and free. An LLM judge is slow and costs money.
How the system works:
• The harness runs each agent as a separate process. • It feeds a task to the agent. • It captures the output. • It scores the result against expected data.
The agent only needs to read from stdin and write to stdout. It can be Python or a shell script. The harness does not care.
Five core metrics to track:
- Accuracy: Does the output match the goal?
- Fuzzy score: How similar is the text to the target?
- Timeout rate: How often does the agent fail to finish?
- Safety violations: Does the output match unsafe patterns?
- Reproducibility variance: Does the agent give the same answer every time?
If an agent is correct but inconsistent, it is a bug.
The LLM Judge
Some things are hard to measure with math. You need to know if an agent stayed in its role or followed constraints.
For these cases, an LLM judge reviews the work. It receives a rubric and the agent output. It returns a structured verdict. I validate this verdict against a JSON schema so it does not break the report.
The judge does more than just grade. It must suggest fixes. A critique like "this is weak" is useless. A critique like "add a JSON block to the prompt" is actionable.
The Improvement Loop
Failures go into a file. This file feeds an automated loop. The system looks at the weakest part of a prompt and tries to fix it. It keeps a pool of good candidates. It writes the best versions back to the code.
A single score is a snapshot. Use history to track trends. This tells you if you are getting better over time.
Build your foundation on deterministic metrics. Use the judge as a scalpel, not a hammer.
Оцінювання AI-агентів: детерміновані метрики проти LLM-судді
Оцінювання AI-агентів — це складне завдання. На відміну від традиційного програмного забезпечення, де вихідні дані є передбачуваними, AI-агенти генерують неструктуровані та часто непередбачувані відповіді. Це робить вибір правильної стратегії оцінювання критично важливим для розробників.
У цій статті ми розглянемо два основні підходи до оцінювання: детерміновані метрики та використання LLM як судді (LLM-as-a-Judge), а також обговоримо, коли і який підхід варто використовувати.
Детерміновані метрики
Детерміновані метрики — це методи оцінювання, що базуються на чітких, математичних або логічних правилах. Вони порівнюють вихідні дані агента з очікуваним результатом (ground truth) за допомогою жорстких критеріїв.
Приклади детермінованих метрик:
- Exact Match (Точне співпадіння): Перевіряє, чи є відповідь агента ідентичною до еталонної відповіді.
- Regex (Регулярні вирази): Використовується для перевірки відповідності певним шаблонам (наприклад, чи містить відповідь email або номер телефону).
- JSON Schema Validation (Валідація JSON-схеми): Перевіряє, чи відповідає структура вихідних даних визначеному формату JSON.
- Code Execution (Виконання коду): Якщо агент має писати код, ми можемо запустити його та перевірити, чи він проходить тести.
Переваги:
- Швидкість: Вони працюють миттєво.
- Низька вартість: Не потребують викликів API дорогих моделей.
- Повторюваність: При однакових вхідних даних ви завжди отримаєте однаковий результат.
Недоліки:
- Відсутність гнучкості: Вони не здатні оцінити семантичну правильність. Якщо агент відповів правильно, але іншими словами, детермінована метрика може позначити це як помилку.
- Крихкість: Невеликі зміни у форматі можуть призвести до хибних результатів.
LLM-as-a-Judge (LLM як суддя)
Підхід LLM-as-a-Judge передбачає використання потужної мовної моделі (наприклад, GPT-4o) для оцінки якості відповідей іншої, можливо, менш потужної моделі або агента. Суддя отримує промпт, відповідь агента та (опціонально) еталонну відповідь, після чого виставляє оцінку або надає обґрунтування.
Переваги:
- Семантичне розуміння: LLM може зрозуміти контекст і суть відповіді, навіть якщо вона не збігається дослівно з еталоном.
- Нюансоване оцінювання: Можна оцінювати такі аспекти, як тон, стиль, корисність або логіка міркувань.
- Здатність до пояснення: Суддя може надати детальний фідбек, чому відповідь була поганою.
Недоліки:
- Вартість: Виклики складних моделей коштують дорого.
- Швидкість: Оцінювання займає більше часу.
- Упередженість (Bias): LLM-судді схильні до певних типів упередженості:
- Position Bias (Упередженість позиції): Суддя може надавати перевагу першій або другій відповіді при порівнянні.
- Verbosity Bias (Упередженість довжини): Суддя може вважати довші відповіді кращими, навіть якщо вони містять зайву інформацію.
- Self-preference Bias (Упередженість до власних відповідей): Моделі часто надають вищі оцінки стилю, який є схожим на їхній власний.
Порівняльна таблиця
| Характеристика | Детерміновані метрики | LLM-as-a-Judge |
|---|---|---|
| Швидкість | Дуже висока | Низька |
| Вартість | Дуже низька | Висока |
| Гнучкість | Низька | Висока |
| Семантична точність | Низька | Висока |
| Повторюваність | Висока | Середня/Низька |
Гібридний підхід: Найкраще з обох світів
Найкраща стратегія оцінювання — це поєднання обох методів.
- Використовуйте детерміновані метрики для перевірки структури та формату. Якщо ваш агент має повертати JSON, спочатку перевірте його валідність за допомогою JSON Schema.
- Використовуйте LLM-суддю для оцінки якості та змісту. Після того, як формат перевірено, залучайте LLM для оцінки того, наскільки відповідь була корисною, точною та логічною.
Цей багаторівневий підхід дозволяє швидко відсіяти очевидні помилки форматування та зосередити ресурси LLM на складніших аспектах оцінювання.
Висновок
Не існує універсальної методики оцінювання AI-агентів. Детерміновані метрики ідеально підходять для перевірки формату та точності, тоді як LLM-суддя є незамінним для оцінки нюансів та семантики. Створюючи надійну систему оцінювання, прагніть до гібридного підходу, який забезпечить як швидкість, так і глибину аналізу.