𝗧𝗮𝗺𝗶𝗻𝗴 𝗟𝗼𝗻𝗴 𝗗𝗼𝗰𝘂𝗺𝗲𝗻𝘁𝘀 𝘄𝗶𝘁𝗵 𝗟𝗟𝗠𝘀

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial3 અઠવાડિયા પહેલાં1min read

𝗟𝗟𝗠𝘀 સાથે લાંબા દસ્તાવેજો પર નિયંત્રણ મેળવવું

મેં 100 પાનાના ટેકનિકલ PDF માંથી પ્રશ્નોના જવાબ આપવા માટે એક સિસ્ટમ બનાવી છે.

સાદા સ્ક્રિપ્ટ્સ નિષ્ફળ રહ્યા. હું અઠવાડિયા સુધી ટોકન મર્યાદાઓ અને ઊંચા ખર્ચ સામે લડતો રહ્યો.

મારા પ્રથમ પ્રયાસમાં મેં આખા ટેક્સ્ટ સાથે GPT-4 નો ઉપયોગ કર્યો હતો. આ 10 પાના માટે કામ કરી ગયું. પરંતુ 100 પાના પર પહોંચતા, હું ટોકન મર્યાદા (token cap) પર પહોંચી ગયો. મોડેલ વચ્ચેની વિગતો ભૂલી ગયું. ખર્ચ ખૂબ વધારે હતો.

મેં આ પદ્ધતિઓ અજમાવી:

Basic chunking: મોડેલે ખોટા વિભાગો પસંદ કર્યા. તે સંદર્ભ (context) ચૂકી ગયું.
Map-reduce: મેં ચોક્કસ વિગતો ગુમાવી દીધી.
Sliding windows: આ ખૂબ જ ધીમું અને મોંઘું હતું.

હું માણસો કેવી રીતે વાંચે છે તેનું અનુકરણ કરું છું. આપણે અનુક્રમણિકા (table of contents) પર નજર કરીએ છીએ. પછી આપણે ચોક્કસ વિભાગો વાંચીએ છીએ.

અહીં નવો વર્કફ્લો (workflow) છે:

એક હાયરાર્કી (hierarchy) બનાવો. દરેક ચંક (chunk) માટે ટૂંકો સારાંશ બનાવવા માટે LLM નો ઉપયોગ કરો.
સારાંશ અને આખો ટેક્સ્ટ vector database માં સ્ટોર કરો.
Hybrid search નો ઉપયોગ કરો. Keywords અને semantic search ને જોડો.
પહેલા ટોચના 3 સારાંશ મેળવો.
તે સારાંશ માટેનો આખો ટેક્સ્ટ મેળવો.
આ સંદર્ભ (context) LLM ને આપો.

પરિણામો:

ખર્ચમાં 70% નો ઘટાડો થયો.
ટેકનિકલ શબ્દો હવે સચોટ છે.
ચોકસાઈમાં સુધારો થયો.

તમારા સેટઅપ માટે ટિપ્સ:

સારાંશ માટે GPT-3.5 નો ઉપયોગ કરો.
અંતિમ જવાબ માટે GPT-4 નો ઉપયોગ કરો.
વહેલી તકે ટેસ્ટ ડેટાસેટ બનાવો.
20 પાનાથી ઓછા દસ્તાવેજો માટે પ્રોમ્પ્ટમાં બધું જ સમાવી લો (stuff the prompt).

સ્ત્રોત: https://dev.to/__c1b9e06dc90a7e0a676b/how-i-finally-tamed-long-document-analysis-with-llms-it-wasnt-simple-chunking-5ed3

𝗧𝗮𝗺𝗶𝗻𝗴 𝗟𝗼𝗻𝗴 𝗗𝗼𝗰𝘂𝗺𝗲𝗻𝘁𝘀 𝘄𝗶𝘁𝗵 𝗟𝗟𝗠𝘀

Continue reading

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗔𝗻 𝗜𝗻𝘁𝗲𝗿𝗻𝗮𝗹 𝗔𝗜 𝗖𝗵𝗮𝘁𝗯𝗼𝘁: 𝗟𝗲𝘀𝘀𝗼𝗻𝘀 𝗟𝗲𝗮𝗿𝗻𝗲𝗱

𝗧𝗮𝗺𝗶𝗻𝗴 𝗟𝗼𝗻𝗴 𝗗𝗼𝗰𝘂𝗺𝗲𝗻𝘁 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀 𝘄𝗶𝘁𝗵 𝗟𝗟𝗠𝘀

કાર્યક્ષમ LLM સર્વિંગ તરફ

𝗜 𝗦𝗽𝗲𝗻𝘁 $𝟱𝟬𝟬 𝗼𝗻 𝗥𝗔𝗚 𝗜𝗻𝗳𝗿𝗮𝘀𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲 𝗕𝗲𝗳𝗼𝗿𝗲 𝗙𝗶𝘅𝗶𝗻𝗴 𝗧𝗵𝗲𝘀𝗲 𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀

𝗜 𝗦𝗽𝗲𝗻𝘁 \$𝟱𝟬𝟬 𝗼𝗻 𝗥𝗔𝗚 𝗜𝗻𝗳𝗿𝗮𝘀𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲 𝗕𝗲𝗳𝗼𝗿𝗲 𝗠𝗮𝗸𝗶𝗻𝗴 𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀