LLMs ਨਾਲ ਲੰਬੇ ਦਸਤਾਵੇਜ਼ਾਂ ਦੇ ਵਿਸ਼ਲੇਸ਼ਣ ਨੂੰ ਕਾਬੂ ਕਰਨਾ
ਮੈਨੂੰ 100 ਪੰਨਿਆਂ ਵਾਲੀਆਂ PDF ਤੋਂ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਦੇਣ ਦੀ ਲੋੜ ਸੀ। ਇੱਕ ਸਧਾਰਨ ਸਕ੍ਰਿਪਟ ਫੇਲ੍ਹ ਹੋ ਗਈ। ਮੈਂ ਹਫ਼ਤਿਆਂ ਤੱਕ ਟੋਕਨ ਸੀਮਾਵਾਂ (token limits) ਅਤੇ ਉੱਚ ਲਾਗਤਾਂ ਨਾਲ ਲੜਦਾ ਰਿਹਾ।
ਪਹਿਲਾਂ, ਮੈਂ ਪੂਰੇ ਟੈਕਸਟ ਦੀ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ। ਮਾਡਲ ਵਿਚਕਾਰਲੇ ਵੇਰਵੇ ਭੁੱਲ ਗਿਆ। ਲਾਗਤ ਪ੍ਰਤੀ ਕਾਲ 50 ਸੈਂਟ ਤੱਕ ਪਹੁੰਚ ਗਈ।
ਫਿਰ ਮੈਂ ਇਹਨਾਂ ਤਰੀਕਿਆਂ ਦੀ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ:
- Fixed chunks: ਮਾਡਲ ਨੇ ਗਲਤ ਹਿੱਸੇ ਚੁਣ ਲਏ।
- Map-reduce: ਸਾਰਾਂਸ਼ਾਂ (summaries) ਵਿੱਚੋਂ ਵੇਰਵੇ ਗੁੰਮ ਹੋ ਗਏ।
- Sliding window: ਇਹ ਬਹੁਤ ਹੌਲੀ ਸੀ।
ਮੈਂ ਇਹ ਨਕਲ ਕਰਨ ਦਾ ਫੈਸਲਾ ਕੀਤਾ ਕਿ ਇਨਸਾਨ ਕਿਵੇਂ ਪੜ੍ਹਦੇ ਹਨ। ਇਨਸਾਨ ਪਹਿਲਾਂ ਉੱਪਰ-ਉੱਪਰੋਂ ਪੜ੍ਹਦੇ ਹਨ (skim)। ਫਿਰ ਉਹ ਡੂੰਘਾਈ ਨਾਲ ਪੜ੍ਹਦੇ ਹਨ।
ਇੱਥੇ ਮੇਰੀ ਪ੍ਰਕਿਰਿਆ ਹੈ:
- ਚੰਕਸ (chunks) ਦੀ ਇੱਕ ਲੜੀ (hierarchy) ਬਣਾਓ।
- ਹਰੇਕ ਚੰਕ ਲਈ ਇੱਕ ਛੋਟਾ ਸਾਰਾਂਸ਼ ਲਿਖੋ।
- ਸਾਰਾਂਸ਼ਾਂ ਅਤੇ ਰਅਅ ਟੈਕਸਟ (raw text) ਦੋਵਾਂ ਨੂੰ ਵੈਕਟਰ ਡੇਟਾਬੇਸ (vector database) ਵਿੱਚ ਸਟੋਰ ਕਰੋ।
- ਸਭ ਤੋਂ ਵਧੀਆ ਸਾਰਾਂਸ਼ ਲੱਭਣ ਲਈ ਹਾਈਬ੍ਰਿਡ ਸਰਚ (hybrid search) ਦੀ ਵਰਤੋਂ ਕਰੋ।
- ਉਹਨਾਂ ਸਾਰਾਂਸ਼ਾਂ ਤੋਂ ਰਅਅ ਟੈਕਸਟ ਪ੍ਰਾਪਤ ਕਰੋ।
- Hallucinations ਨੂੰ ਰੋਕਣ ਲਈ ਇੱਕ ਸਖ਼ਤ ਪ੍ਰੋਂਪਟ (prompt) ਦੀ ਵਰਤੋਂ ਕਰੋ।
ਇਸ ਨਾਲ ਨਤੀਜੇ ਬਦਲ ਗਏ:
- ਲਾਗਤ ਵਿੱਚ 70 ਫੀਸਦੀ ਦੀ ਕਮੀ ਆਈ।
- ਸ਼ੁੱਧਤਾ (accuracy) ਵਧ ਗਈ।
- ਤਕਨੀਕੀ ਸ਼ਬਦ ਬਰਕਰਾਰ ਰਹੇ।
ਤੁਹਾਡੇ ਲਈ ਮੇਰੀਆਂ ਟਿਪਸ:
- ਸਾਰਾਂਸ਼ਾਂ ਲਈ ਸਸਤੇ ਮਾਡਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰੋ।
- ਅੰਤਿਮ ਜਵਾਬ ਲਈ GPT-4 ਦੀ ਵਰਤੋਂ ਕਰੋ।
- ਪਹਿਲੇ ਹਫ਼ਤੇ ਵਿੱਚ ਇੱਕ ਟੈਸਟ ਡੇਟਾਸੈੱਟ ਬਣਾਓ।
- 20 ਪੰਨਿਆਂ ਤੋਂ ਘੱਟ ਵਾਲੇ ਦਸਤਾਵੇਜ਼ਾਂ ਲਈ ਇਸ ਨੂੰ ਛੱਡ ਦਿਓ।
ਲੰਬੇ ਦਸਤਾਵੇਜ਼ਾਂ ਲਈ ਤੁਹਾਡਾ ਸੈੱਟਅੱਪ ਕੀ ਹੈ?
Source: https://dev.to/__c1b9e06dc90a7e0a676b/how-i-finally-tamed-long-document-analysis-with-llms-it-wasnt-simple-chunking-5ed3 Optional learning community: https://t.me/GyaanSetuAi