Domando Documentos Longos com LLMs

Eu construí um sistema para responder perguntas de PDFs técnicos de 100 páginas.

Scripts simples falharam. Lutei contra limites de tokens e custos altos por semanas.

Minha primeira tentativa usou o GPT-4 com o texto completo. Isso funcionou para 10 páginas. Com 100 páginas, atingi o limite de tokens. O modelo esqueceu detalhes no meio. Os custos eram muito altos.

Eu tentei estes métodos:

  • Chunking básico: O modelo escolhia as seções erradas. Ele perdia o contexto.
  • Map-reduce: Eu perdia detalhes específicos.
  • Janelas deslizantes (sliding windows): Isso era muito lento e caro.

Eu imito a forma como os humanos leem. Nós passamos o olho pelo sumário. Depois, lemos seções específicas.

Aqui está o novo fluxo de trabalho:

  • Crie uma hierarquia. Use um LLM para fazer um resumo curto para cada chunk.
  • Armazene os resumos e o texto completo em um banco de dados vetorial.
  • Use busca híbrida. Combine palavras-chave e busca semântica.
  • Recupere os 3 principais resumos primeiro.
  • Busque o texto completo para esses resumos.
  • Passe este contexto para o LLM.

Os resultados:

  • Os custos caíram 70%.
  • Termos técnicos agora estão precisos.
  • A precisão melhorou.

Dicas para sua configuração:

  • Use GPT-3.5 para resumos.
  • Use GPT-4 para a resposta final.
  • Construa um conjunto de dados de teste logo no início.
  • Coloque todo o conteúdo no prompt para documentos com menos de 20 páginas.

Fonte: https://dev.to/__c1b9e06dc90a7e0a676b/how-i-finally-tamed-long-document-analysis-with-llms-it-wasnt-simple-chunking-5ed3