𝗣𝗵𝗮𝘀𝗲 𝟭: 𝗜𝗻𝗴𝗲𝘀𝘁ã𝗼 𝗱𝗲 𝗗𝗼𝗰𝘂𝗺𝗲𝗻𝘁𝗼𝘀
A maioria dos sistemas RAG falha antes mesmo de começar.
Você acha que construir um sistema RAG é simples. Um usuário faz o upload de um PDF, você cria embeddings e obtém respostas.
Isso é um erro.
Entre o botão de upload e o banco de dados vetorial, existem 15 etapas críticas. Se você pular uma, seu sistema dará respostas erradas ou desperdiçará seu dinheiro.
Aqui está o roteiro de nível de produção para ingestão de documentos:
• File Hashing: Nunca faça o hash do nome do arquivo. Faça o hash do conteúdo real do arquivo. Isso impede que seu sistema processe o mesmo arquivo duas vezes se alguém o renomear.
• Smart Parsing: Use a ferramenta certa para o trabalho.
- Texto simples: pdf-parse (Gratuito)
- Conteúdo misto: Unstructured (Equilibrado)
- Tabelas/layouts complexos: LlamaParse (Alta qualidade)
- Formulários empresariais: Azure Document Intelligence (Melhor para digitalizações)
• Text Cleaning: Remova o lixo. Cabeçalhos, rodapés, marcas d'água e números de página criam ruído. Se você fizer o embedding de "Confidencial" em todas as páginas, sua IA pensará que cada resposta é um segredo.
• Metadata Extraction: Adicione contexto como departamento, seção ou versão. Isso ajuda seu sistema a encontrar o documento correto sem precisar pesquisar tudo.
• Smart Chunking: Esta é a parte mais importante.
- Tamanho: Mire em 1000 a 1500 tokens.
- Sobreposição (Overlap): Use 200 tokens de sobreposição para manter o contexto.
- Limites: Nunca quebre uma frase no meio.
• Chunk Hashing and Deduplication: Faça o hash de cada chunk. Quando um arquivo mudar, compare os novos hashes com os antigos.
• Incremental Ingestion: Não faça o re-embedding de tudo. Se um documento de 1000 páginas mudar apenas uma página, faça o embedding apenas daquele novo chunk. Isso economiza uma quantidade enorme de dinheiro em custos de API.
A diferença entre um projeto de hobby e um sistema de produção é o trabalho que você faz antes da etapa de embedding.
Um sistema ingênuo faz o re-embedding de tudo todas as vezes. Um sistema inteligente processa apenas o que mudou.
Pare de construir uma sopa. Construa um alicerce.
Fonte: https://dev.to/surajrkhonde/phase-1-document-ingestion-the-hidden-complexity-before-embeddings-4d32
Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi
