𝗧𝗮𝗺𝗶𝗻𝗴 𝗟𝗼𝗻𝗴 𝗗𝗼𝗰𝘂𝗺𝗲𝗻𝘁 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀 𝘄𝗶𝘁𝗵 𝗟𝗟𝗠𝘀

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial3 weken geleden1min read

Het temmen van lange documentanalyse met LLM's

Ik moest vragen beantwoorden op basis van PDF's van 100 pagina's. Een simpel script faalde. Ik heb wekenlang gevochten met tokenlimieten en hoge kosten.

Eerst probeerde ik de volledige tekst. Het model vergat details in het midden. De kosten liepen op tot 50 cent per aanroep.

Daarna probeerde ik deze methoden:

Vaste chunks: Het model koos de verkeerde delen.
Map-reduce: Samenvattingen verloren de details.
Sliding window: Het was te traag.

Ik besloot na te bootsen hoe mensen lezen. Mensen scannen eerst. Daarna lezen ze.

Dit is mijn proces:

Maak een hiërarchie van chunks aan.
Schrijf een korte samenvatting voor elke chunk.
Sla zowel de samenvattingen als de ruwe tekst op in een vectordatabase.
Gebruik hybrid search om de beste samenvattingen te vinden.
Haal de ruwe tekst op vanuit die samenvattingen.
Gebruik een strikte prompt om hallucinaties te voorkomen.

Dit veranderde de resultaten:

De kosten daalden met 70 procent.
De nauwkeurigheid ging omhoog.
Technische termen bleven intact.

Mijn tips voor jou:

Gebruik goedkope modellen voor samenvattingen.
Gebruik GPT-4 voor het uiteindelijke antwoord.
Bouw in de eerste week een testdataset.
Sla dit over voor documenten van minder dan 20 pagina's.

Wat is jouw setup voor lange documenten?

Bron: https://dev.to/__c1b9e06dc90a7e0a676b/how-i-finally-tamed-long-document-analysis-with-llms-it-wasnt-simple-chunking-5ed3 Optionele leercommunity: https://t.me/GyaanSetuAi

𝗧𝗮𝗺𝗶𝗻𝗴 𝗟𝗼𝗻𝗴 𝗗𝗼𝗰𝘂𝗺𝗲𝗻𝘁 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀 𝘄𝗶𝘁𝗵 𝗟𝗟𝗠𝘀

Continue reading

𝗧𝗮𝗺𝗶𝗻𝗴 𝗟𝗼𝗻𝗴 𝗗𝗼𝗰𝘂𝗺𝗲𝗻𝘁𝘀 𝘄𝗶𝘁𝗵 𝗟𝗟𝗠𝘀

𝗧𝘂𝗿𝗻 𝗬𝗼𝘂𝗿 𝗣𝗹𝗮𝗻𝘀 𝗜𝗻𝘁𝗼 𝗗𝗮𝘁𝗮

Kostenoptimalisatie voor LLM-systemen

𝗜 𝗕𝘂𝗶𝗹𝘁 𝗮 𝗖𝗼𝗱𝗲 𝗤&𝗔 𝗕𝗼𝘁 𝗪𝗶𝘁𝗵 𝗥𝗔𝗚: 𝗪𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝗲𝗱 𝗮𝗻𝗱 𝗪𝗵𝗮𝘁 𝗙𝗮𝗶𝗹𝗲𝗱

𝗠𝘆 𝗔𝗜 𝗜𝗻𝘁𝗲𝗴𝗿𝗮𝘁𝗶𝗼𝗻 𝗖𝗼𝘀𝘁 𝗧𝗼𝗼 𝗠𝘂𝗰𝗵 𝗨𝗻𝘁𝗶𝗹 𝗜 𝗖𝗵𝗮𝗻𝗴𝗲𝗱 𝗠𝘆 𝗔𝗽𝗽𝗿𝗼𝗮𝗰𝗵