I Built RAG From Scratch in Python to Understand It

Translated for your language. Ler o original.

AI-assisted draft.

GyaanSetu Editorialhá 3 horas2min de leitura

I Built RAG From Scratch in Python to Understand It

𝗘𝘂 𝗖𝗼𝗻𝘀𝘁𝗿𝘂í 𝗥𝗔𝗚 𝗱𝗼 𝗭𝗲𝗿𝗼 𝗲𝗺 𝗣𝘆𝘁𝗵𝗼𝗻 𝗽𝗮𝗿𝗮 𝗘𝗻𝘁𝗲𝗻𝗱ê-𝗹𝗼

Usei LangChain em produção por seis meses. Eu não conseguia explicar como funcionava. Não sabia por que escolhia métricas específicas ou como o texto se tornava vetores. A biblioteca escondia a lógica.

Para resolver isso, deletei o framework. Escrevi um pipeline de RAG do zero usando 500 linhas de Python puro.

Aqui está o que aprendi ao construir a stack manualmente.

O Problema com as Caixas Pretas Quando você usa bibliotecas de alto nível, você perde o controle. Vi modelos alucinarem fatos ou fornecerem citações erradas. Eu não conseguia dizer se o erro estava no chunker, no modelo de embedding ou no prompt.

Quando você constrói por conta própria, cada camada é inspecionável. Você pode imprimir os chunks exatos enviados para o LLM. Você pode ver exatamente onde uma frase é quebrada.

As Cinco Camadas do RAG RAG não é um único algoritmo. São cinco processos diferentes empilhados:

Chunking: Decidir como dividir o texto.
Embedding: Transformar texto em matemática.
Retrieval: Encontrar as partes certas.
Prompt Construction: Dizer ao modelo como se comportar.
Generation: Obter a resposta final.

Lições da Construção

Chunking é a etapa mais importante A maioria dos tutoriais pula isso. Se você não usar overlap, perderá o contexto nos limites. Usei uma janela deslizante (sliding window) com overlap em nível de caractere. Isso garante que o modelo veja a conexão entre dois chunks.
Métricas de distância importam Passei horas depurando resultados de busca ruins. O problema não era o dado. Era a métrica. O ChromaDB usa a distância L2 por padrão. Para busca semântica, você precisa de Cosine similarity. Uma linha de código mudou tudo.
Prompts precisam de restrições Um LLM é um completador, não um oráculo. Se você fizer uma pergunta vaga, ele inventará uma resposta. Aprendi a usar um template de recusa estrito. Eu disse ao modelo: "Se o contexto não contiver a resposta, diga que não sabe". Isso reduziu as alucinações de 40% para 5%.
Processe suas requisições em lotes Enviar uma requisição HTTP por chunk é lento. Enviá-las em lotes (batches) é muito mais rápido. Isso permite que o modelo local faça o pipeline do trabalho.
Teste de baixo para cima Não escreva testes no final. Teste seu chunker primeiro. Depois teste seu embedder. Depois teste seu store. Se você testar por último, testará os bugs em vez da lógica.

Se você sente que não entende verdadeiramente sua stack de IA, construa-a você mesmo. O código não é o objetivo. O raciocínio é o objetivo.

Source: https://dev.to/avinash_zala_1c6f5e7c4af9/i-built-rag-from-scratch-in-python-to-understand-it-heres-what-i-learned-33kf

Optional learning community: https://t.me/GyaanSetuAi

I Built RAG From Scratch in Python to Understand It

Continuar lendo

𝗙𝗿𝗼𝗺 𝗜 𝗨𝗻𝗱𝗲𝗿𝘀𝘁𝗼𝗼𝗱 𝗡𝗼𝘁𝗵𝗶𝗻𝗴 𝘁𝗼 𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗮 𝗥𝗔𝗚 𝗔𝗽𝗽

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗮 𝗥𝗔𝗚 𝗣𝗶𝗽𝗲𝗹𝗶𝗻𝗲 𝗙𝗿𝗼𝗺 𝗦𝗰𝗿𝗮𝘁𝗰𝗵

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗔 𝗥𝗔𝗚 𝗙𝗿𝗼𝗺 𝗦𝗰𝗿𝗮𝘁𝗰𝗵

𝗜 𝗕𝘂𝗶𝗹𝘁 𝗮 𝗖𝗼𝗱𝗲 𝗤&𝗔 𝗕𝗼𝘁 𝗪𝗶𝘁𝗵 𝗥𝗔𝗚: 𝗪𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝗲𝗱 𝗮𝗻𝗱 𝗪𝗵𝗮𝘁 𝗙𝗮𝗶𝗹𝗲𝗱

𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗥𝗔𝗚 𝗦𝘆𝘀𝘁𝗲𝗺 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗲𝘀