𝗣𝗵𝗮𝘀𝗲 𝟭: 𝗜𝗻𝗴𝗲𝘀𝘁ã𝗼 𝗱𝗲 𝗗𝗼𝗰𝘂𝗺𝗲𝗻𝘁𝗼𝘀

A maioria dos sistemas RAG falha antes mesmo de começar.

Você acha que construir um sistema RAG é simples. Um usuário faz o upload de um PDF, você cria embeddings e obtém respostas.

Isso é um erro.

Entre o botão de upload e o banco de dados vetorial, existem 15 etapas críticas. Se você pular uma, seu sistema dará respostas erradas ou desperdiçará seu dinheiro.

Aqui está o roteiro de nível de produção para ingestão de documentos:

• File Hashing: Nunca faça o hash do nome do arquivo. Faça o hash do conteúdo real do arquivo. Isso impede que seu sistema processe o mesmo arquivo duas vezes se alguém o renomear.

• Smart Parsing: Use a ferramenta certa para o trabalho.

  • Texto simples: pdf-parse (Gratuito)
  • Conteúdo misto: Unstructured (Equilibrado)
  • Tabelas/layouts complexos: LlamaParse (Alta qualidade)
  • Formulários empresariais: Azure Document Intelligence (Melhor para digitalizações)

• Text Cleaning: Remova o lixo. Cabeçalhos, rodapés, marcas d'água e números de página criam ruído. Se você fizer o embedding de "Confidencial" em todas as páginas, sua IA pensará que cada resposta é um segredo.

• Metadata Extraction: Adicione contexto como departamento, seção ou versão. Isso ajuda seu sistema a encontrar o documento correto sem precisar pesquisar tudo.

• Smart Chunking: Esta é a parte mais importante.

  • Tamanho: Mire em 1000 a 1500 tokens.
  • Sobreposição (Overlap): Use 200 tokens de sobreposição para manter o contexto.
  • Limites: Nunca quebre uma frase no meio.

• Chunk Hashing and Deduplication: Faça o hash de cada chunk. Quando um arquivo mudar, compare os novos hashes com os antigos.

• Incremental Ingestion: Não faça o re-embedding de tudo. Se um documento de 1000 páginas mudar apenas uma página, faça o embedding apenas daquele novo chunk. Isso economiza uma quantidade enorme de dinheiro em custos de API.

A diferença entre um projeto de hobby e um sistema de produção é o trabalho que você faz antes da etapa de embedding.

Um sistema ingênuo faz o re-embedding de tudo todas as vezes. Um sistema inteligente processa apenas o que mudou.

Pare de construir uma sopa. Construa um alicerce.

Fonte: https://dev.to/surajrkhonde/phase-1-document-ingestion-the-hidden-complexity-before-embeddings-4d32

Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi