𝗗𝗼𝗺𝗮𝗻𝗱𝗼 𝗱𝗼𝗰𝘂𝗺𝗲𝗻𝘁𝗼𝘀 𝗹𝗮𝗿𝗴𝗼𝘀 𝗰𝗼𝗻 𝗟𝗟𝗠𝘀

Construí un sistema para responder preguntas de PDFs técnicos de 100 páginas.

Los scripts simples fallaron. Luché contra los límites de tokens y los altos costos durante semanas.

Mi primer intento utilizó GPT-4 con el texto completo. Esto funcionó para 10 páginas. A las 100 páginas, alcancé el límite de tokens. El modelo olvidaba detalles en la parte media. Los costos eran demasiado altos.

Probé estos métodos:

  • Fragmentación básica (chunking): El modelo seleccionaba las secciones incorrectas. Perdía el contexto.
  • Map-reduce: Perdí detalles específicos.
  • Ventanas deslizantes (sliding windows): Esto era demasiado lento y costoso.

Imito cómo leen los humanos. Echamos un vistazo al índice. Luego leemos secciones específicas.

Aquí está el nuevo flujo de trabajo:

  • Crear una jerarquía. Usar un LLM para hacer un resumen corto de cada fragmento (chunk).
  • Almacenar los resúmenes y el texto completo en una base de datos vectorial.
  • Usar búsqueda híbrida. Combinar palabras clave y búsqueda semántica.
  • Recuperar primero los 3 mejores resúmenes.
  • Obtener el texto completo de esos resúmenes.
  • Pasar este contexto al LLM.

Los resultados:

  • Los costos bajaron un 70%.
  • Los términos técnicos ahora son precisos.
  • La precisión mejoró.

Consejos para tu configuración:

  • Usa GPT-3.5 para los resúmenes.
  • Usa GPT-4 para la respuesta final.
  • Crea un conjunto de datos de prueba desde el principio.
  • Incluye todo el contenido en el prompt para documentos de menos de 20 páginas.

Fuente: https://dev.to/__c1b9e06dc90a7e0a676b/how-i-finally-tamed-long-document-analysis-with-llms-it-wasnt-simple-chunking-5ed3