𝗧𝗮𝗺𝗶𝗻𝗴 𝗟𝗼𝗻𝗴 𝗗𝗼𝗰𝘂𝗺𝗲𝗻𝘁 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀 𝘄𝗶𝘁𝗵 𝗟𝗟𝗠𝘀

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial3 వారాల క్రితం1min read

LLMలతో సుదీర్ఘ డాక్యుమెంట్ విశ్లేషణను నియంత్రించడం

నేను 100 పేజీల PDFల నుండి ప్రశ్నలకు సమాధానాలు చెప్పాల్సి వచ్చింది. ఒక సాధారణ స్క్రిప్ట్ విఫలమైంది. నేను వారాల తరబడి టోకెన్ పరిమితులు (token limits) మరియు అధిక ఖర్చులతో పోరాడాను.

మొదట, నేను పూర్తి వచనాన్ని (full text) ప్రయత్నించాను. మోడల్ మధ్యలో ఉన్న వివరాలను మర్చిపోయింది. ఒక్కో కాల్‌కు ఖర్చు 50 సెంట్లు అయ్యింది.

ఆ తర్వాత నేను ఈ పద్ధతులను ప్రయత్నించాను:

Fixed chunks: మోడల్ తప్పు భాగాలను ఎంచుకుంది.
Map-reduce: సారాంశాలు (summaries) వివరాలను కోల్పోయాయి.
Sliding window: ఇది చాలా నెమ్మదిగా ఉంది.

మనుషులు ఎలా చదువుతారో అలాగే చేయాలని నేను నిర్ణయించుకున్నాను. మనుషులు మొదట పైపైన చూస్తారు (skim). ఆ తర్వాత చదువుతారు.

నా ప్రక్రియ ఇక్కడ ఉంది:

చంక్స్‌కు (chunks) ఒక క్రమానుగత శ్రేణిని (hierarchy) సృష్టించడం.
ప్రతి చంక్‌కు ఒక చిన్న సారాంశాన్ని రాయడం.
సారాంశాలు మరియు ముడి వచనం (raw text) రెండింటినీ వెక్టర్ డేటాబేస్‌లో నిల్వ చేయడం.
ఉత్తమ సారాంశాలను కనుగొనడానికి హైబ్రిడ్ సెర్చ్ (hybrid search) ఉపయోగించడం.
ఆ సారాంశాల నుండి ముడి వచనాన్ని పొందడం.
హాలూసినేషన్స్ (hallucinations) నివారించడానికి కఠినమైన ప్రాంప్ట్‌ను ఉపయోగించడం.

ఇది ఫలితాలను మార్చింది:

ఖర్చులు 70 శాతం తగ్గాయి.
ఖచ్చితత్వం (accuracy) పెరిగింది.
సాంకేతిక పదాలు (technical terms) యథాతథంగా ఉన్నాయి.

మీ కోసం నా చిట్కాలు:

సారాంశాల కోసం తక్కువ ఖర్చుతో కూడిన మోడళ్లను ఉపయోగించండి.
తుది సమాధానం కోసం GPT-4ని ఉపయోగించండి.
మొదటి వారంలోనే ఒక టెస్ట్ డేటాసెట్‌ను రూపొందించండి.
20 పేజీల కంటే తక్కువ ఉన్న డాక్యుమెంట్ల కోసం దీనిని వదిలేయండి.

సుదీర్ఘ డాక్యుమెంట్ల కోసం మీ సెటప్ ఏమిటి?

Source: https://dev.to/__c1b9e06dc90a7e0a676b/how-i-finally-tamed-long-document-analysis-with-llms-it-wasnt-simple-chunking-5ed3 Optional learning community: https://t.me/GyaanSetuAi

𝗧𝗮𝗺𝗶𝗻𝗴 𝗟𝗼𝗻𝗴 𝗗𝗼𝗰𝘂𝗺𝗲𝗻𝘁 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀 𝘄𝗶𝘁𝗵 𝗟𝗟𝗠𝘀

Continue reading

LLMలతో సుదీర్ఘ పత్రాలను నియంత్రించడం

మీ ప్రణాళికలను డేటాగా మార్చండి

LLM సిస్టమ్స్ కోసం ఖర్చు ఆప్టిమైజేషన్

𝗜 𝗕𝘂𝗶𝗹𝘁 𝗮 𝗖𝗼𝗱𝗲 𝗤&𝗔 𝗕𝗼𝘁 𝗪𝗶𝘁𝗵 𝗥𝗔𝗚: 𝗪𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝗲𝗱 𝗮𝗻𝗱 𝗪𝗵𝗮𝘁 𝗙𝗮𝗶𝗹𝗲𝗱

𝗠𝘆 𝗔𝗜 𝗜𝗻𝘁𝗲𝗴𝗿𝗮𝘁𝗶𝗼𝗻 𝗖𝗼𝘀𝘁 𝗧𝗼𝗼 𝗠𝘂𝗰𝗵 𝗨𝗻𝘁𝗶𝗹 𝗜 𝗖𝗵𝗮𝗻𝗴𝗲𝗱 𝗠𝘆 𝗔𝗽𝗽𝗿𝗼𝗮𝗰𝗵