Как предотвратить ошибочную маркировку выводов ИИ как фактов

Агенты для ИИ-исследований часто смешивают факты с предположениями. На веб-странице может быть указана рыночная стоимость. Затем агент делает вывод, что рынок быстро растет. В итоговом тексте оба утверждения выглядят одинаково. Такое смешение данных и мнений опасно.

Это нельзя исправить улучшением промптов. Промпты вероятностны. Под давлением модель начнет гадать.

Решение должно быть структурным. Перенесите процесс принятия решений из LLM в ваш код.

Разделите работу на две части:

LLM делает:

  • Извлекает утверждения со страницы.
  • Резюмирует текст.

Детерминированный код делает:

  • Оценивает утверждения.
  • Перепроверяет источники.
  • Маркирует утверждения как FACT (ФАКТ) или INFERENCE (ВЫВОД).
  • Определяет актуальность данных.

Утверждение получает метку FACT только в том случае, если оно соответствует строгим правилам. Например, оно должно исходить из двух независимых источников или одного официального API. Все остальное становится INFERENCE.

Используйте следующий конвейер:

  1. PLAN (ПЛАНИРОВАНИЕ): Разбейте вопрос на подзапросы.
  2. HARVEST (СБОР): Получите данные из нескольких источников.
  3. NORMALIZE (НОРМАЛИЗАЦИЯ): Используйте LLM для извлечения структурированных утверждений. Это единственный этап, на котором используется LLM.
  4. CORROBORATE (ПОДТВЕРЖДЕНИЕ): Сгруппируйте утверждения и подсчитайте количество независимых источников.
  5. SCORE (ОЦЕНКА): Примените правила для присвоения меток.
  6. RENDER (ОТОБРАЖЕНИЕ): Покажите факты, выводы и недостающую информацию.

Независимость — это ключ к успеху. Один блог, цитирующий другой блог, — это не два источника. Для подтверждения факта вам нужны разные домены или официальный API.

Следуйте этим правилам для создания надежного агента:

  • Используйте эскалацию: сначала попробуйте веб-поиск. Переходите к новостным агрегаторам или академическому поиску только в том случае, если первый шаг не удался.
  • Отслеживайте актуальность: помечайте старые данные как устаревшие. Не позволяйте старым фактам выдаваться за текущие.
  • Выявляйте пробелы: перечисляйте то, что не удалось найти. «Тихий» пробел — это провал.
  • Обеспечьте воспроизводимость: один и тот же запрос должен всегда выдавать одни и те же метки. Если метки меняются, значит, оценку данных проводит LLM. Замените этот вызов LLM на функцию.

Этот метод позволяет модели делать то, что она умеет лучше всего: читать и извлекать информацию. Он не дает модели самой решать, что является истиной.

Source: https://dev.to/hexisteme/how-to-make-an-ai-research-agent-label-facts-vs-inferences-a-deterministic-provenance-pipeline-5dfn

Optional learning community: https://t.me/GyaanSetuAi