𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗬𝗼𝘂𝗿 𝗖𝘂𝘀𝘁𝗼𝗺 𝗘𝘅𝘁𝗿𝗮𝗰𝘁𝗶𝗼𝗻 𝗣𝗶𝗽𝗲𝗹𝗶𝗻𝗲

ਸਿਸਟਮੈਟਿਕ ਰਿਵਿਊਜ਼ (Systematic reviews) ਲਈ ਸਕ੍ਰੀਨਿੰਗ ਅਤੇ ਡਾਟਾ ਕੱਢਣ ਲਈ ਕਈ ਘੰਟਿਆਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਇਹ ਖੋਜਕਰਤਾਵਾਂ ਨੂੰ ਉਹਨਾਂ ਦੇ ਮਨਪਸੰਦ ਕੰਮ ਤੋਂ ਦੂਰ ਕਰ ਦਿੰਦਾ ਹੈ। ਵਾਰ-ਵਾਰ ਹੋਣ ਵਾਲੇ ਕੰਮਾਂ ਨੂੰ ਆਟੋਮੇਟ ਕਰਨ ਨਾਲ ਤੁਸੀਂ ਆਪਣੇ ਮਿਆਰਾਂ ਨੂੰ ਉੱਚਾ ਰੱਖਦੇ ਹੋਏ ਸਿੰਥੇਸਿਸ (synthesis) 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰ ਸਕਦੇ ਹੋ।

ਇੱਕ ਭਰੋਸੇਯੋਗ ਐਕਸਟ੍ਰੈਕਸ਼ਨ ਪਾਈਪਲਾਈਨ ਸਪਸ਼ਟ ਪਰਿਭਾਸ਼ਾਵਾਂ ਨਾਲ ਸ਼ੁਰੂ ਹੁੰਦੀ ਹੈ। ਤੁਹਾਨੂੰ ਹਰ ਉਸ ਡਾਟਾ ਪੁਆਇੰਟ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ ਜਿਸਦੀ ਤੁਹਾਨੂੰ ਲੋੜ ਹੈ, ਜਿਵੇਂ ਕਿ ਸਟੱਡੀ ਡਿਜ਼ਾਈਨ ਜਾਂ ਸੈਂਪਲ ਸਾਈਜ਼। ਤੁਹਾਨੂੰ ਇੱਕ ਮੈਨੂਅਲੀ ਐਨੋਟੇਟਡ (manually annotated) 'ਗੋਲਡ ਸੈੱਟ' (gold set) ਦੀ ਵੀ ਲੋੜ ਹੈ। ਇਹ ਸੈੱਟ ਤੁਹਾਡੇ ਪੇਪਰਾਂ ਵਿੱਚ ਡਾਟਾ ਦਿਖਾਈ ਦੇਣ ਦੇ ਵੱਖ-ਵੱਖ ਤਰੀਕਿਆਂ ਨੂੰ ਕੈਪਚਰ ਕਰਦਾ ਹੈ। ਇਹਨਾਂ ਵੇਰੀਏਬਲਜ਼ (variables) ਨੂੰ ਜਲਦੀ ਸੈੱਟ ਕਰਕੇ, ਤੁਸੀਂ ਮਨੁੱਖੀ ਫੈਸਲੇ ਅਤੇ ਮਸ਼ੀਨ ਲੌਜਿਕ ਵਿਚਕਾਰ ਇੱਕ ਲਿੰਕ ਬਣਾਉਂਦੇ ਹੋ। ਇਸ ਨਾਲ ਤੁਹਾਡੇ ਨਤੀਜਿਆਂ ਨੂੰ ਮਾਪਣਾ ਅਤੇ ਆਪਣੇ ਕੋਡ ਨੂੰ ਸੁਧਾਰਨਾ ਆਸਾਨ ਹੋ ਜਾਂਦਾ ਹੈ।

ਕਲਪਨਾ ਕਰੋ ਕਿ ਤੁਹਾਨੂੰ ਹਰ ਮਨੋਵਿਗਿਆਨ (psychology) ਦੇ ਪੇਪਰ ਵਿੱਚ ਸਟੈਟਿਸਟੀਕਲ ਮਾਡਲ ਨੂੰ ਕੈਪਚਰ ਕਰਨ ਦੀ ਲੋੜ ਹੈ। ਤੁਸੀਂ ਵੇਰੀਏਬਲ ਨੂੰ ਰਿਜ਼ਲਟ ਸੈਕਸ਼ਨ ਵਿੱਚ ਦਰਜ ਟੈਸਟ ਦੇ ਨਾਮ ਵਜੋਂ ਪਰਿਭਾਸ਼ਿਤ ਕਰਦੇ ਹੋ। ਫਿਰ ਤੁਸੀਂ 15 PDFs ਨੂੰ ਐਨੋਟੇਟ ਕਰਦੇ ਹੋ ਜੋ ਵੱਖ-ਵੱਖ ਫਾਰਮੈਟ ਦਿਖਾਉਂਦੇ ਹਨ। ਇਹ ਗੋਲਡ ਸੈੱਟ ਤੁਹਾਡੇ ਐਕਸਟ੍ਰੈਕਸ਼ਨ ਫੰਕਸ਼ਨ ਦੀ ਜਾਂਚ ਕਰਨ ਲਈ ਬੈਂਚਮਾਰਕ ਵਜੋਂ ਕੰਮ ਕਰਦਾ ਹੈ।

ਆਪਣੀ ਪਾਈਪਲਾਈਨ ਬਣਾਉਣ ਲਈ ਇਹਨਾਂ ਤਿੰਨ ਕਦਮਾਂ ਦੀ ਪਾਲਣਾ ਕਰੋ:

  • ਨਮੂਨਾ ਟੈਕਸਟ ਇਕੱਠੇ ਕਰੋ ਅਤੇ ਐਨੋਟੇਟ ਕਰੋ। 10 ਤੋਂ 20 PDFs ਇਕੱਠੇ ਕਰੋ ਜੋ ਵੱਖ-ਵੱਖ ਜਰਨਲ ਅਤੇ ਫਾਰਮੈਟ ਦਿਖਾਉਂਦੇ ਹਨ। ਹਰੇਕ ਵੇਰੀਏਬਲ ਨੂੰ ਮੈਨੂਅਲੀ ਇੱਕ ਸਪ੍ਰੈਡਸ਼ੀਟ ਵਿੱਚ ਕੱਢੋ। ਇਹ ਸਿਖਲਾਈ (training) ਲਈ ਤੁਹਾਡਾ ਗੋਲਡ ਸੈੱਟ ਬਣ ਜਾਵੇਗਾ।

  • ਐਕਸਟ੍ਰੈਕਸ਼ਨ ਫੰਕਸ਼ਨ ਬਣਾਓ ਅਤੇ ਉਹਨਾਂ ਨੂੰ ਸੁਧਾਰੋ। ਹਰ ਵੇਰੀਏਬਲ ਲਈ ਇੱਕ Python ਫੰਕਸ਼ਨ ਲਿਖੋ। ਪਾਰਸ ਕੀਤੇ ਟੈਕਸਟ (parsed text) ਤੋਂ ਜਾਣਕਾਰੀ ਕੱਢਣ ਲਈ ਲੌਜਿਕ ਦੀ ਵਰਤੋਂ ਕਰੋ। ਸਹੀ ਹੋਣ ਦੀ ਜਾਂਚ ਕਰਨ ਲਈ ਇਹਨਾਂ ਫੰਕਸ਼ਨਾਂ ਨੂੰ ਆਪਣੇ ਗੋਲਡ ਸੈੱਟ 'ਤੇ ਚਲਾਓ। ਜਦੋਂ ਕੋਡ ਫੇਲ ਹੋ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਗੁੰਝਲਦਾਰ ਲੌਜਿਕ ਫਲੋਅ ਨੂੰ ਡੀਬੱਗ ਕਰਨ ਲਈ PythonTutor ਦੀ ਵਰਤੋਂ ਕਰੋ। ਇਹ ਤੁਹਾਨੂੰ ਇਹ ਦੇਖਣ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ ਕਿ ਵੇਰੀਏਬਲ ਕਿਵੇਂ ਬਦਲਦੇ ਹਨ ਤਾਂ ਜੋ ਤੁਸੀਂ ਆਪਣੇ ਨਿਯਮਾਂ ਨੂੰ ਠੀਕ ਕਰ ਸਕੋ।

  • ਫਲੈਗਿੰਗ ਲੌਜਿਕ (flagging logic) ਜੋੜੋ ਅਤੇ ਇਸ ਨੂੰ ਵਧਾਓ। ਹਰੇਕ ਐਕਸਟ੍ਰੈਕਸ਼ਨ ਨਾਲ ਇੱਕ ਕਾਨਫੀਡੈਂਸ ਸਕੋਰ (confidence score) ਜੋੜੋ। ਇਹ ਤੁਹਾਡੇ ਰਿਵਿਊ ਲਈ ਅਨਿਸ਼ਚਿਤ ਮਾਮਲਿਆਂ ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਹੈ। ਇਹ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ ਕਿ ਪਾਈਪਲਾਈਨ ਸਹੀ ਰਹੇ, ਸਮੇਂ-ਸਮੇਂ 'ਤੇ ਆਪਣੇ ਡਾਟਾ ਦੇ ਇੱਕ ਰੈਂਡਮ ਸੈਂਪਲ ਦੀ ਜਾਂਚ ਕਰੋ। ਇੱਕ ਵਾਰ ਸਥਿਰ ਹੋਣ ਤੋਂ ਬਾਅਦ, ਆਪਣਾ ਡੇਟਾਸੈੱਟ ਬਣਾਉਣ ਲਈ ਸਾਰੇ PDFs 'ਤੇ ਆਪਣੇ ਫੰਕਸ਼ਨ ਚਲਾਓ।

ਇੱਕ ਸਫਲ ਆਟੋਮੇਸ਼ਨ ਲਈ ਤਿੰਨ ਕਾਰਵਾਈਆਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਹਰੇਕ ਵੇਰੀਏਬਲ ਨੂੰ ਸਪਸ਼ਟ ਨਿਯਮਾਂ ਨਾਲ ਪਰਿਭਾਸ਼ਿਤ ਕਰੋ। ਆਪਣੀ ਸੱਚਾਈ (truth) ਨੂੰ ਅਧਾਰ ਦੇਣ ਲਈ ਇੱਕ ਗੋਲਡ ਸੈੱਟ ਬਣਾਓ। ਲੌਜਿਕ ਦੀਆਂ ਗਲਤੀਆਂ ਨੂੰ ਸੁਧਾਰਨ ਲਈ PythonTutor ਵਰਗੇ ਟੂਲਸ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਆਪਣੇ ਫੰਕਸ਼ਨ ਬਣਾਓ ਅਤੇ ਉਹਨਾਂ ਨੂੰ ਸੁਧਾਰੋ। ਅਨਿਸ਼ਚਿਤ ਨਤੀਜਿਆਂ ਨੂੰ ਫਲੈਗ ਕਰੋ ਅਤੇ ਉਹਨਾਂ ਦੀ ਨਿਯਮਤ ਜਾਂਚ ਕਰੋ। ਇਹ ਇੱਕ ਭਾਰੀ ਮੈਨੂਅਲ ਕੰਮ ਨੂੰ ਇੱਕ ਤੇਜ਼, ਦੁਹਰਾਉਣਯੋਗ ਵਰਕਫਲੋ (workflow) ਵਿੱਚ ਬਦਲ ਦਿੰਦਾ ਹੈ।

Source: https://dev.to/ken_deng_ai/building-your-custom-extraction-pipeline-a-step-by-step-python-tutorial-4kl3

Optional learning community: https://t.me/GyaanSetuAi