𝗜 𝗕𝘂𝗶𝗹𝘁 𝗮 𝗖𝗼𝗱𝗲 𝗤&𝗔 𝗕𝗼𝘁 𝗪𝗶𝘁𝗵 𝗥𝗔𝗚: 𝗪𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝗲𝗱 𝗮𝗻𝗱 𝗪𝗵𝗮𝘁 𝗙𝗮𝗶𝗹𝗲𝗱

Translated for your language. Читать оригинал.

AI-assisted draft.

GyaanSetu Editorialвчера2мин чтения

Я создал бота для вопросов и ответов по коду с использованием RAG: что сработало, а что нет

Наши разработчики тратили дни на поиск в Slack и старой документации, чтобы разобраться в наших микросервисах. Я решил создать чат-бота, который отвечал бы на эти вопросы с помощью RAG.

На этом пути я совершил много ошибок. Вот чему я научился.

Неудачи

Я пытался поместить всю документацию в один промпт. Это приводило к превышению лимита токенов, вызывало галлюцинации и обходилось слишком дорого.
Я использовал базовый индекс TF-IDF. Он не справлялся, когда пользователи использовали синонимы или другие термины.
Я пробовал простые чанки по 500 символов. Результаты были случайными, так как чанки часто обрывались на середине предложения.

Решение

Я перестал относиться к LLM как к поисковой системе. Я превратил её в «движок для чтения» специализированного поискового индекса.

Вот пайплайн, который сработал:

Разбить документацию на чанки по 300 токенов с перекрытием (overlap) в 50 токенов.
Преобразовать каждый чанк в вектор (embedding).
Сохранить векторы в индексе поиска по сходству.
При запросе находить 5 наиболее похожих чанков.
Передавать в LLM только эти чанки для генерации ответа.

Это изменение снизило количество галлюцинаций на 80% и сократило расходы до менее чем $0,01 за запрос.

Ключевые выводы

Размер чанка имеет решающее значение. 150 токенов — слишком мало контекста. 1000 токенов — слишком много шума. 300 токенов — золотая середина.
Перекрытие (overlap) обязательно. Оно предотвращает потерю контекста между чанками.
Используйте небольшие модели для скорости. Маленькая модель эмбеддингов отлично подошла для наших внутренних нужд.
Тестируйте поиск (retrieval). Не полагайтесь на ручные проверки. Создайте тестовый набор для измерения точности.

RAG — это не магия. Это инженерная задача. Если ваши чанки плохие, ваш поиск будет плохим. Если поиск плохой, ответы будут плохими.

Теперь мы правильно отвечаем на 80% вопросов по онбордингу. Это гораздо быстрее, чем ждать ответа от человека в Slack.

А как вы создаете ИИ-ассистентов для своей документации?

Источник: https://dev.to/__c1b9e06dc90a7e0a676b/i-built-a-code-qa-bot-with-rag-what-worked-and-what-failed-2717

Дополнительное обучающее сообщество: https://t.me/GyaanSetuAi

𝗜 𝗕𝘂𝗶𝗹𝘁 𝗮 𝗖𝗼𝗱𝗲 𝗤&𝗔 𝗕𝗼𝘁 𝗪𝗶𝘁𝗵 𝗥𝗔𝗚: 𝗪𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝗲𝗱 𝗮𝗻𝗱 𝗪𝗵𝗮𝘁 𝗙𝗮𝗶𝗹𝗲𝗱

Продолжить чтение

𝗜 𝗦𝗽𝗲𝗻𝘁 $𝟱𝟬𝟬 𝗼𝗻 𝗥𝗔𝗚 𝗜𝗻𝗳𝗿𝗮𝘀𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲 𝗕𝗲𝗳𝗼𝗿𝗲 𝗙𝗶𝘅𝗶𝗻𝗴 𝗧𝗵𝗲𝘀𝗲 𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀

𝗜 𝗦𝗽𝗲𝗻𝘁 \$𝟱𝟬𝟬 𝗼𝗻 𝗥𝗔𝗚 𝗜𝗻𝗳𝗿𝗮𝘀𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲 𝗕𝗲𝗳𝗼𝗿𝗲 𝗠𝗮𝗸𝗶𝗻𝗴 𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀

Почему ваша RAG-система галлюцинирует

Почему мое RAG-приложение постоянно галлюцинировало и как я это исправил

I Built RAG From Scratch in Python to Understand It