𝗗𝗼𝗺𝗮𝗻𝗱𝗼 𝗱𝗼𝗰𝘂𝗺𝗲𝗻𝘁𝗼𝘀 𝗹𝗮𝗿𝗴𝗼𝘀 𝗰𝗼𝗻 𝗟𝗟𝗠𝘀
Construí un sistema para responder preguntas de PDFs técnicos de 100 páginas.
Los scripts simples fallaron. Luché contra los límites de tokens y los altos costos durante semanas.
Mi primer intento utilizó GPT-4 con el texto completo. Esto funcionó para 10 páginas. A las 100 páginas, alcancé el límite de tokens. El modelo olvidaba detalles en la parte media. Los costos eran demasiado altos.
Probé estos métodos:
- Fragmentación básica (chunking): El modelo seleccionaba las secciones incorrectas. Perdía el contexto.
- Map-reduce: Perdí detalles específicos.
- Ventanas deslizantes (sliding windows): Esto era demasiado lento y costoso.
Imito cómo leen los humanos. Echamos un vistazo al índice. Luego leemos secciones específicas.
Aquí está el nuevo flujo de trabajo:
- Crear una jerarquía. Usar un LLM para hacer un resumen corto de cada fragmento (chunk).
- Almacenar los resúmenes y el texto completo en una base de datos vectorial.
- Usar búsqueda híbrida. Combinar palabras clave y búsqueda semántica.
- Recuperar primero los 3 mejores resúmenes.
- Obtener el texto completo de esos resúmenes.
- Pasar este contexto al LLM.
Los resultados:
- Los costos bajaron un 70%.
- Los términos técnicos ahora son precisos.
- La precisión mejoró.
Consejos para tu configuración:
- Usa GPT-3.5 para los resúmenes.
- Usa GPT-4 para la respuesta final.
- Crea un conjunto de datos de prueba desde el principio.
- Incluye todo el contenido en el prompt para documentos de menos de 20 páginas.