Het temmen van lange documentanalyse met LLM's

Ik moest vragen beantwoorden op basis van PDF's van 100 pagina's. Een simpel script faalde. Ik heb wekenlang gevochten met tokenlimieten en hoge kosten.

Eerst probeerde ik de volledige tekst. Het model vergat details in het midden. De kosten liepen op tot 50 cent per aanroep.

Daarna probeerde ik deze methoden:

  • Vaste chunks: Het model koos de verkeerde delen.
  • Map-reduce: Samenvattingen verloren de details.
  • Sliding window: Het was te traag.

Ik besloot na te bootsen hoe mensen lezen. Mensen scannen eerst. Daarna lezen ze.

Dit is mijn proces:

  • Maak een hiërarchie van chunks aan.
  • Schrijf een korte samenvatting voor elke chunk.
  • Sla zowel de samenvattingen als de ruwe tekst op in een vectordatabase.
  • Gebruik hybrid search om de beste samenvattingen te vinden.
  • Haal de ruwe tekst op vanuit die samenvattingen.
  • Gebruik een strikte prompt om hallucinaties te voorkomen.

Dit veranderde de resultaten:

  • De kosten daalden met 70 procent.
  • De nauwkeurigheid ging omhoog.
  • Technische termen bleven intact.

Mijn tips voor jou:

  • Gebruik goedkope modellen voor samenvattingen.
  • Gebruik GPT-4 voor het uiteindelijke antwoord.
  • Bouw in de eerste week een testdataset.
  • Sla dit over voor documenten van minder dan 20 pagina's.

Wat is jouw setup voor lange documenten?

Bron: https://dev.to/__c1b9e06dc90a7e0a676b/how-i-finally-tamed-long-document-analysis-with-llms-it-wasnt-simple-chunking-5ed3 Optionele leercommunity: https://t.me/GyaanSetuAi