LLMలతో సుదీర్ఘ డాక్యుమెంట్ విశ్లేషణను నియంత్రించడం
నేను 100 పేజీల PDFల నుండి ప్రశ్నలకు సమాధానాలు చెప్పాల్సి వచ్చింది. ఒక సాధారణ స్క్రిప్ట్ విఫలమైంది. నేను వారాల తరబడి టోకెన్ పరిమితులు (token limits) మరియు అధిక ఖర్చులతో పోరాడాను.
మొదట, నేను పూర్తి వచనాన్ని (full text) ప్రయత్నించాను. మోడల్ మధ్యలో ఉన్న వివరాలను మర్చిపోయింది. ఒక్కో కాల్కు ఖర్చు 50 సెంట్లు అయ్యింది.
ఆ తర్వాత నేను ఈ పద్ధతులను ప్రయత్నించాను:
- Fixed chunks: మోడల్ తప్పు భాగాలను ఎంచుకుంది.
- Map-reduce: సారాంశాలు (summaries) వివరాలను కోల్పోయాయి.
- Sliding window: ఇది చాలా నెమ్మదిగా ఉంది.
మనుషులు ఎలా చదువుతారో అలాగే చేయాలని నేను నిర్ణయించుకున్నాను. మనుషులు మొదట పైపైన చూస్తారు (skim). ఆ తర్వాత చదువుతారు.
నా ప్రక్రియ ఇక్కడ ఉంది:
- చంక్స్కు (chunks) ఒక క్రమానుగత శ్రేణిని (hierarchy) సృష్టించడం.
- ప్రతి చంక్కు ఒక చిన్న సారాంశాన్ని రాయడం.
- సారాంశాలు మరియు ముడి వచనం (raw text) రెండింటినీ వెక్టర్ డేటాబేస్లో నిల్వ చేయడం.
- ఉత్తమ సారాంశాలను కనుగొనడానికి హైబ్రిడ్ సెర్చ్ (hybrid search) ఉపయోగించడం.
- ఆ సారాంశాల నుండి ముడి వచనాన్ని పొందడం.
- హాలూసినేషన్స్ (hallucinations) నివారించడానికి కఠినమైన ప్రాంప్ట్ను ఉపయోగించడం.
ఇది ఫలితాలను మార్చింది:
- ఖర్చులు 70 శాతం తగ్గాయి.
- ఖచ్చితత్వం (accuracy) పెరిగింది.
- సాంకేతిక పదాలు (technical terms) యథాతథంగా ఉన్నాయి.
మీ కోసం నా చిట్కాలు:
- సారాంశాల కోసం తక్కువ ఖర్చుతో కూడిన మోడళ్లను ఉపయోగించండి.
- తుది సమాధానం కోసం GPT-4ని ఉపయోగించండి.
- మొదటి వారంలోనే ఒక టెస్ట్ డేటాసెట్ను రూపొందించండి.
- 20 పేజీల కంటే తక్కువ ఉన్న డాక్యుమెంట్ల కోసం దీనిని వదిలేయండి.
సుదీర్ఘ డాక్యుమెంట్ల కోసం మీ సెటప్ ఏమిటి?
Source: https://dev.to/__c1b9e06dc90a7e0a676b/how-i-finally-tamed-long-document-analysis-with-llms-it-wasnt-simple-chunking-5ed3 Optional learning community: https://t.me/GyaanSetuAi