𝗧𝗮𝗺𝗶𝗻𝗴 𝗟𝗼𝗻𝗴 𝗗𝗼𝗰𝘂𝗺𝗲𝗻𝘁 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀 𝘄𝗶𝘁𝗵 𝗟𝗟𝗠𝘀

Translated for your language. Read the original.

AI-assisted draft.

LLMs ਨਾਲ ਲੰਬੇ ਦਸਤਾਵੇਜ਼ਾਂ ਦੇ ਵਿਸ਼ਲੇਸ਼ਣ ਨੂੰ ਕਾਬੂ ਕਰਨਾ

ਮੈਨੂੰ 100 ਪੰਨਿਆਂ ਵਾਲੀਆਂ PDF ਤੋਂ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਦੇਣ ਦੀ ਲੋੜ ਸੀ। ਇੱਕ ਸਧਾਰਨ ਸਕ੍ਰਿਪਟ ਫੇਲ੍ਹ ਹੋ ਗਈ। ਮੈਂ ਹਫ਼ਤਿਆਂ ਤੱਕ ਟੋਕਨ ਸੀਮਾਵਾਂ (token limits) ਅਤੇ ਉੱਚ ਲਾਗਤਾਂ ਨਾਲ ਲੜਦਾ ਰਿਹਾ।

ਪਹਿਲਾਂ, ਮੈਂ ਪੂਰੇ ਟੈਕਸਟ ਦੀ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ। ਮਾਡਲ ਵਿਚਕਾਰਲੇ ਵੇਰਵੇ ਭੁੱਲ ਗਿਆ। ਲਾਗਤ ਪ੍ਰਤੀ ਕਾਲ 50 ਸੈਂਟ ਤੱਕ ਪਹੁੰਚ ਗਈ।

ਫਿਰ ਮੈਂ ਇਹਨਾਂ ਤਰੀਕਿਆਂ ਦੀ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ:

Fixed chunks: ਮਾਡਲ ਨੇ ਗਲਤ ਹਿੱਸੇ ਚੁਣ ਲਏ।
Map-reduce: ਸਾਰਾਂਸ਼ਾਂ (summaries) ਵਿੱਚੋਂ ਵੇਰਵੇ ਗੁੰਮ ਹੋ ਗਏ।
Sliding window: ਇਹ ਬਹੁਤ ਹੌਲੀ ਸੀ।

ਮੈਂ ਇਹ ਨਕਲ ਕਰਨ ਦਾ ਫੈਸਲਾ ਕੀਤਾ ਕਿ ਇਨਸਾਨ ਕਿਵੇਂ ਪੜ੍ਹਦੇ ਹਨ। ਇਨਸਾਨ ਪਹਿਲਾਂ ਉੱਪਰ-ਉੱਪਰੋਂ ਪੜ੍ਹਦੇ ਹਨ (skim)। ਫਿਰ ਉਹ ਡੂੰਘਾਈ ਨਾਲ ਪੜ੍ਹਦੇ ਹਨ।

ਇੱਥੇ ਮੇਰੀ ਪ੍ਰਕਿਰਿਆ ਹੈ:

ਚੰਕਸ (chunks) ਦੀ ਇੱਕ ਲੜੀ (hierarchy) ਬਣਾਓ।
ਹਰੇਕ ਚੰਕ ਲਈ ਇੱਕ ਛੋਟਾ ਸਾਰਾਂਸ਼ ਲਿਖੋ।
ਸਾਰਾਂਸ਼ਾਂ ਅਤੇ ਰਅਅ ਟੈਕਸਟ (raw text) ਦੋਵਾਂ ਨੂੰ ਵੈਕਟਰ ਡੇਟਾਬੇਸ (vector database) ਵਿੱਚ ਸਟੋਰ ਕਰੋ।
ਸਭ ਤੋਂ ਵਧੀਆ ਸਾਰਾਂਸ਼ ਲੱਭਣ ਲਈ ਹਾਈਬ੍ਰਿਡ ਸਰਚ (hybrid search) ਦੀ ਵਰਤੋਂ ਕਰੋ।
ਉਹਨਾਂ ਸਾਰਾਂਸ਼ਾਂ ਤੋਂ ਰਅਅ ਟੈਕਸਟ ਪ੍ਰਾਪਤ ਕਰੋ।
Hallucinations ਨੂੰ ਰੋਕਣ ਲਈ ਇੱਕ ਸਖ਼ਤ ਪ੍ਰੋਂਪਟ (prompt) ਦੀ ਵਰਤੋਂ ਕਰੋ।

ਇਸ ਨਾਲ ਨਤੀਜੇ ਬਦਲ ਗਏ:

ਲਾਗਤ ਵਿੱਚ 70 ਫੀਸਦੀ ਦੀ ਕਮੀ ਆਈ।
ਸ਼ੁੱਧਤਾ (accuracy) ਵਧ ਗਈ।
ਤਕਨੀਕੀ ਸ਼ਬਦ ਬਰਕਰਾਰ ਰਹੇ।

ਤੁਹਾਡੇ ਲਈ ਮੇਰੀਆਂ ਟਿਪਸ:

ਸਾਰਾਂਸ਼ਾਂ ਲਈ ਸਸਤੇ ਮਾਡਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰੋ।
ਅੰਤਿਮ ਜਵਾਬ ਲਈ GPT-4 ਦੀ ਵਰਤੋਂ ਕਰੋ।
ਪਹਿਲੇ ਹਫ਼ਤੇ ਵਿੱਚ ਇੱਕ ਟੈਸਟ ਡੇਟਾਸੈੱਟ ਬਣਾਓ।
20 ਪੰਨਿਆਂ ਤੋਂ ਘੱਟ ਵਾਲੇ ਦਸਤਾਵੇਜ਼ਾਂ ਲਈ ਇਸ ਨੂੰ ਛੱਡ ਦਿਓ।

ਲੰਬੇ ਦਸਤਾਵੇਜ਼ਾਂ ਲਈ ਤੁਹਾਡਾ ਸੈੱਟਅੱਪ ਕੀ ਹੈ?

Source: https://dev.to/__c1b9e06dc90a7e0a676b/how-i-finally-tamed-long-document-analysis-with-llms-it-wasnt-simple-chunking-5ed3 Optional learning community: https://t.me/GyaanSetuAi

𝗧𝗮𝗺𝗶𝗻𝗴 𝗟𝗼𝗻𝗴 𝗗𝗼𝗰𝘂𝗺𝗲𝗻𝘁 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀 𝘄𝗶𝘁𝗵 𝗟𝗟𝗠𝘀

Continue reading

𝗧𝗮𝗺𝗶𝗻𝗴 𝗟𝗼𝗻𝗴 𝗗𝗼𝗰𝘂𝗺𝗲𝗻𝘁𝘀 𝘄𝗶𝘁𝗵 𝗟𝗟𝗠𝘀

𝗖𝗼𝘀𝘁 𝗢𝗽𝘁𝗶𝗺𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗳𝗼𝗿 𝗟𝗟𝗠 𝗦𝘆𝘀𝘁𝗲𝗺𝘀

𝗜 𝗦𝗽𝗲𝗻𝘁 $𝟱𝟬𝟬 𝗼𝗻 𝗥𝗔𝗚 𝗜𝗻𝗳𝗿𝗮𝘀𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲 𝗕𝗲𝗳𝗼𝗿𝗲 𝗙𝗶𝘅𝗶𝗻𝗴 𝗧𝗵𝗲𝘀𝗲 𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀

𝗜 𝗕𝘂𝗶𝗹𝘁 𝗮 𝗖𝗼𝗱𝗲 𝗤&𝗔 𝗕𝗼𝘁 𝗪𝗶𝘁𝗵 𝗥𝗔𝗚: 𝗪𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝗲𝗱 𝗮𝗻𝗱 𝗪𝗵𝗮𝘁 𝗙𝗮𝗶𝗹𝗲𝗱

𝗠𝘆 𝗔𝗜 𝗜𝗻𝘁𝗲𝗴𝗿𝗮𝘁𝗶𝗼𝗻 𝗖𝗼𝘀𝘁 𝗧𝗼𝗼 𝗠𝘂𝗰𝗵 𝗨𝗻𝘁𝗶𝗹 𝗜 𝗖𝗵𝗮𝗻𝗴𝗲𝗱 𝗠𝘆 𝗔𝗽𝗽𝗿𝗼𝗮𝗰𝗵