Ik bouwde een RAG-app en vroeg hem welke auto ik leuk vind. Hij wist het niet.

Translated for your language. Read the original.

AI-assisted draft.

Ik bouwde een RAG-app en vroeg hem welke auto ik leuk vind. Hij wist het niet.

In this article

Ik heb een RAG-app gebouwd, en toen ik vroeg welke auto ik leuk vind, wist hij het niet.

Ik ben een document-chattool genaamd Kenning aan het bouwen. Deze maakt gebruik van RAG (Retrieval-Augmented Generation) zodat gebruikers vragen kunnen stellen over geüploade bestanden.

Ik heb de volledige pipeline vanaf nul opgebouwd met:

Java 21 en Spring Boot
Spring AI
PostgreSQL met pgvector
Ollama (draaiend op llama3.2:3b en nomic-embed-text)
Docker Compose

De pipeline werkt als volgt: Bestand uploaden → Tekst extraheren → Tekst in chunks verdelen → Chunks omzetten naar vectoren → Opslaan in pgvector → Zoeken naar vergelijkbare chunks → Chunks + vraag naar het model sturen → Antwoord met bronnen ontvangen.

Het systeem werkte, maar ik liep tegen twee verschillende fouten aan. Ze leken op elkaar, maar de oorzaken waren verschillend.

Fout 1: Het model was in de war.

Ik vroeg: "Welk embedding-model gebruikt dit project?" Het document gaf het antwoord expliciet aan. Het model haalde de juiste tekst op. Toch antwoordde het met dat het het niet wist, terwijl het in de volgende zin de juiste modelnaam wel herhaalde.

Mijn theorie: Het 3B-model is te klein. Het haalde de juiste gegevens op, maar kon geen zelfverzekerd antwoord geven. Een groter model zou dit waarschijnlijk oplossen.

Fout 2: Het model vond niets.

Ik vroeg: "Van welk automerk houd ik?" In het document stond dat ik van BMW houd. Maar het systeem gaf nul resultaten terug. De similarity score was te laag om mijn drempelwaarde te halen.

Mijn theorie: Chunk-dilutie (verwatering). Mijn testdocument was kort. Het mengde veel onderwerpen zoals Spring AI, OAuth2 en mijn voorkeur voor auto's in één chunk. De vector voor die chunk raakte verdund over al die onderwerpen. Een specifieke vraag over auto's verloor zijn kracht tegenover een brede chunk. Een betere chunking-strategie zou dit oplossen.

Geleerde lessen:

Kleine modellen hebben beperkingen in hun redeneervermogen.
Naïeve chunking beïnvloedt de nauwkeurigheid van de retrieval.
Het debuggen van het "waarom" is belangrijker dan alleen het oplossen van de fout.

De architectuur is solide. Het is traag en soms onjuist, maar de loop is compleet.

Source: https://dev.to/mido-dev/i-built-a-rag-app-then-asked-it-what-car-i-like-it-didnt-know-583n

Optional learning community: https://t.me/GyaanSetuAi

Ik bouwde een RAG-app en vroeg hem welke auto ik leuk vind. Hij wist het niet.

Ik heb een RAG-app gebouwd, en toen ik vroeg welke auto ik leuk vind, wist hij het niet.

Fout 1: Het model was in de war.

Fout 2: Het model vond niets.

Geleerde lessen:

Continue reading

𝗛𝗼𝘄 𝗝𝗮𝗽𝗮𝗻𝗲𝘀𝗲 𝗟𝗮𝗯𝘀 𝗕𝘂𝗶𝗹𝗱 𝗕𝗲𝘁𝘁𝗲𝗿 𝗥𝗔𝗚 𝗦𝘆𝘀𝘁𝗲𝗺𝘀

𝗜 𝗦𝗽𝗲𝗻𝘁 $𝟱𝟬𝟬 𝗼𝗻 𝗥𝗔𝗚 𝗜𝗻𝗳𝗿𝗮𝘀𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲 𝗕𝗲𝗳𝗼𝗿𝗲 𝗙𝗶𝘅𝗶𝗻𝗴 𝗧𝗵𝗲𝘀𝗲 𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀

Ik gaf $500 uit aan RAG-infrastructuur voordat ik 7 fouten maakte

𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗥𝗔𝗚 𝗦𝘆𝘀𝘁𝗲𝗺 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗲𝘀