Domando Documentos Longos com LLMs
Eu construí um sistema para responder perguntas de PDFs técnicos de 100 páginas.
Scripts simples falharam. Lutei contra limites de tokens e custos altos por semanas.
Minha primeira tentativa usou o GPT-4 com o texto completo. Isso funcionou para 10 páginas. Com 100 páginas, atingi o limite de tokens. O modelo esqueceu detalhes no meio. Os custos eram muito altos.
Eu tentei estes métodos:
- Chunking básico: O modelo escolhia as seções erradas. Ele perdia o contexto.
- Map-reduce: Eu perdia detalhes específicos.
- Janelas deslizantes (sliding windows): Isso era muito lento e caro.
Eu imito a forma como os humanos leem. Nós passamos o olho pelo sumário. Depois, lemos seções específicas.
Aqui está o novo fluxo de trabalho:
- Crie uma hierarquia. Use um LLM para fazer um resumo curto para cada chunk.
- Armazene os resumos e o texto completo em um banco de dados vetorial.
- Use busca híbrida. Combine palavras-chave e busca semântica.
- Recupere os 3 principais resumos primeiro.
- Busque o texto completo para esses resumos.
- Passe este contexto para o LLM.
Os resultados:
- Os custos caíram 70%.
- Termos técnicos agora estão precisos.
- A precisão melhorou.
Dicas para sua configuração:
- Use GPT-3.5 para resumos.
- Use GPT-4 para a resposta final.
- Construa um conjunto de dados de teste logo no início.
- Coloque todo o conteúdo no prompt para documentos com menos de 20 páginas.