ಪರ್ಷಿಯನ್ ಸಿಂಥೆಟಿಕ್ ಡೇಟಾ ಪೈಪ್‌ಲೈನ್ ವಿನ್ಯಾಸಗೊಳಿಸುವುದು

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial3 ಗಂಟೆಗಳ ಹಿಂದೆ2min read

ಪರ್ಷಿಯನ್ ಸಿಂಥೆಟಿಕ್ ಡೇಟಾ ಪೈಪ್‌ಲೈನ್ ವಿನ್ಯಾಸಗೊಳಿಸುವುದು

LLMಗಳನ್ನು ತರಬೇತುಗೊಳಿಸುವುದು ಈಗ ಕೇವಲ ಮಾಡೆಲ್‌ಗಳನ್ನು ಸ್ಕೇಲ್ ಮಾಡುವುದಲ್ಲ. ಇದು ಡೇಟಾ ಗುಣಮಟ್ಟವನ್ನು ಹೆಚ್ಚಿಸುವುದರ ಬಗ್ಗೆಯಾಗಿದೆ.

ಹೆಚ್ಚಿನ ಪರ್ಷಿಯನ್ ಡೇಟಾ ಸೆಟ್‌ಗಳಲ್ಲಿ ರಚನೆಯ ಕೊರತೆಯಿದೆ. ಇದರಿಂದಾಗಿ ಮಾಡೆಲ್‌ಗಳು ಸೂಚನೆಗಳನ್ನು ಪಾಲಿಸುವಲ್ಲಿ ವಿಫಲವಾಗುತ್ತವೆ. ಸಮಸ್ಯೆ ಮಾಡೆಲ್ ಗಾತ್ರದಲ್ಲಲ್ಲ, ಬದಲಾಗಿ ಡೇಟಾ ಕೊರತೆಯಲ್ಲಿ உள்ளது.

ಇದನ್ನು ಪರಿಹರಿಸಲು ನಾನು ಒಂದು ಪೈಪ್‌ಲೈನ್ ಅನ್ನು ನಿರ್ಮಿಸಿದ್ದೇನೆ. ಇದು ಟಾಪಿಕ್ ಗ್ರಾಫ್‌ಗಳಿಂದ QLoRA fine tuning ವರೆಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ.

ಪೈಪ್‌ಲೈನ್ ಪ್ರಕ್ರಿಯೆ (The Pipeline Process):

ಟಾಪಿಕ್ ಟ್ರೀ ರಚನೆ (Topic Tree creation)
LLM ಜನರೇಷನ್ (LLM Generation)
ಡ್ಯೂಪ್ಲಿಕೇಶನ್ ತೆಗೆದುಹಾಕುವುದು (Deduplication)
ಗುಣಮಟ್ಟದ ಸ್ಕೋರಿಂಗ್ (Quality Scoring)
ಡೇಟಾಸೆಟ್ ಎಕ್ಸ್‌ಪೋರ್ಟ್ (Dataset Export)
QLoRA Fine Tuning
ಮೌಲ್ಯಮಾಪನ (Evaluation)

ಮೂಲ ವಿನ್ಯಾಸದ ನಿಯಮಗಳು (Core Design Rules):

ಸಮತೋಲಿತ ವ್ಯಾಪ್ತಿಯನ್ನು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಲು 51 ಡೊಮೇನ್‌ಗಳು.
ಪುನರಾವರ್ತಿತ ವಿಚಾರಗಳನ್ನು ತೆಗೆದುಹಾಕಲು ಸೆಮ್ಯಾಂಟಿಕ್ ಡ್ಯೂಪ್ಲಿಕೇಶನ್.
ಪೂರ್ವಾಗ್ರಹವನ್ನು (bias) ಕಡಿಮೆ ಮಾಡಲು GPT ಮಾಡೆಲ್‌ಗಳನ್ನು ಬಳಸಿ ಮಲ್ಟಿ-ಮಾಡಲ್ ಜನರೇಷನ್.
ಅಂತಿಮ fine tuning ಗಾಗಿ Qwen2.5 3B Instruct.

ಡೇಟಾ ಎಂಜಿನ್ ಹೇಗೆ ಕೆಲಸ ಮಾಡುತ್ತದೆ: ವೈವಿಧ್ಯತೆಯನ್ನು ಸೃಷ್ಟಿಸಲು ನಾನು ಹಲವಾರು ಮಾಡೆಲ್‌ಗಳನ್ನು ಬಳಸುತ್ತೇನೆ. GPT ಮಾಡೆಲ್‌ಗಳು ತರ್ಕ (reasoning) ಮತ್ತು ವೈವಿಧ್ಯತೆಯನ್ನು ಒದಗಿಸುತ್ತವೆ. ಇದು ವೆಚ್ಚವನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ ಮತ್ತು ವೈವಿಧ್ಯತೆಯನ್ನು ಹೆಚ್ಚಿಸುತ್ತದೆ.

ಡೇಟಾವನ್ನು ಶುದ್ಧೀಕರಿಸಲು ನಾನು ಸೆಮ್ಯಾಂಟಿಕ್ ಫಿಲ್ಟರಿಂಗ್ ಬಳಸುತ್ತೇನೆ. ಎರಡು ಸೂಚನೆಗಳು 0.75 ಕ್ಕಿಂತ ಹೆಚ್ಚಿನ ಸಾಮ್ಯತಾ ಸ್ಕೋರ್ ಹೊಂದಿದ್ದರೆ, ನಾನು ಒಂದನ್ನು ತೆಗೆದುಹಾಕುತ್ತೇನೆ. ಇದು ಮಾಡೆಲ್ ಒಂದೇ ರೀತಿಯ ಮಾದರಿಗಳ ಮೇಲೆ ಓವರ್‌ಫಿಟ್ಟಿಂಗ್ (overfitting) ಮಾಡುವುದನ್ನು ತಡೆಯುತ್ತದೆ.

ಗುಣಮಟ್ಟವನ್ನು ಅಳೆಯಲು ನಾನು LLM ಅನ್ನು ಜಡ್ಜ್ (judge) ಆಗಿ ಬಳಸುತ್ತೇನೆ. ಇದು ಈ ಕೆಳಗಿನವುಗಳನ್ನು ಪರಿಶೀಲಿಸುತ್ತದೆ:

ಸರಾಗತೆ (Fluency)
ಪ್ರಸ್ತುತತೆ (Relevance)
ಪರಿಪೂರ್ಣತೆ (Completeness)

3.5 ಅಥವಾ ಅದಕ್ಕಿಂತ ಹೆಚ್ಚಿನ ಸ್ಕೋರ್ ಹೊಂದಿರುವ ಡೇಟಾ ಮಾತ್ರ ಸೆಟ್‌ನಲ್ಲಿ ಉಳಿಯುತ್ತದೆ.

Fine Tuning ಫಲಿತಾಂಶಗಳು: ನಾನು Google Colab ಮೂಲಕ Qwen2.5 3B Instruct ಮಾಡೆಲ್ ಮೇಲೆ QLoRA ಅನ್ನು ಬಳಸಿದೆ. QLoRA ಪೂರ್ಣ ತೂಕಗಳಿಗಿಂತ (weights) ಸಣ್ಣ ಅಡಾಪ್ಟರ್‌ಗಳನ್ನು (adapters) ತರಬೇತುಗೊಳಿಸುತ್ತದೆ. ಇದು ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಎತ್ತಿಹಿಡಿಯುತ್ತಲೇ ಮೆಮೊರಿಯನ್ನು ಉಳಿಸುತ್ತದೆ.

ಫಲಿತಾಂಶಗಳು ದೊಡ್ಡ ವ್ಯತ್ಯಾಸವನ್ನು ತೋರಿಸುತ್ತವೆ:

ಮೂಲ ಮಾಡೆಲ್ (base model) ಆಗಾಗ್ಗೆ ಅರೇಬಿಕ್‌ಗೆ ಬದಲಾಗುತ್ತದೆ.
Fine tuned ಮಾಡೆಲ್ ಸರಾಗವಾದ ಮತ್ತು ಸ್ಥಿರವಾದ ಪರ್ಷಿಯನ್ ಅನ್ನು ಮಾತನಾಡುತ್ತದೆ.

ಮುಖ್ಯ ಪಾಠ ಸ್ಪಷ್ಟವಾಗಿದೆ: ಮಾಡೆಲ್ ಸ್ಕೇಲಿಂಗ್‌ಗಿಂತ ಡೇಟಾ ಎಂಜಿನಿಯರಿಂಗ್ ಹೆಚ್ಚು ಮುಖ್ಯವಾಗಿದೆ. ಡೇಟಾ ಗುಣಮಟ್ಟವೇ ಪ್ರಾಥಮಿಕ ಅಡಚಣೆಯಾಗಿದೆ (bottleneck).

ಪ್ರಮುಖ ಒಳನೋಟಗಳು (Key Insights):

ಶುದ್ಧ ಡೇಟಾಕ್ಕಾಗಿ ಡ್ಯುಯಲ್ ಫಿಲ್ಟರಿಂಗ್ ಅಗತ್ಯವಿದೆ.
ಫ್ರೀ ಪ್ರಾಂಪ್ಟ್‌ಗಳಿಗಿಂತ ರಚನಾತ್ಮಕ ಟಾಪಿಕ್ ಗ್ರಾಫ್‌ಗಳು ಉತ್ತಮವಾಗಿ ಕೆಲಸ ಮಾಡುತ್ತವೆ.
LLM ಜಡ್ಜ್ ವ್ಯವಸ್ಥೆಯ ಒಂದು ಪ್ರಮುಖ ಭಾಗವಾಗಿದೆ.

ಈ ವ್ಯವಸ್ಥೆಯು ಕಡಿಮೆ ಸಂಪನ್ಮೂಲವಿರುವ (low resource) LLM ಅಲೈನ್‌ಮೆಂಟ್‌ಗಾಗಿ ಸಂಪೂರ್ಣ ಎಂಜಿನ್ ಆಗಿದೆ.

Source: https://dev.to/mohammadheydari/designing-a-synthetic-data-pipeline-for-persian-llm-fine-tuning-from-topic-graphs-to-qlora-5cg5

Optional learning community: https://t.me/GyaanSetuAi

ಪರ್ಷಿಯನ್ ಸಿಂಥೆಟಿಕ್ ಡೇಟಾ ಪೈಪ್‌ಲೈನ್ ವಿನ್ಯಾಸಗೊಳಿಸುವುದು

ಪರ್ಷಿಯನ್ ಸಿಂಥೆಟಿಕ್ ಡೇಟಾ ಪೈಪ್‌ಲೈನ್ ವಿನ್ಯಾಸಗೊಳಿಸುವುದು

Continue reading

𝗣𝗿𝗼𝗺𝗽𝘁 𝗘𝗻𝗴𝗶𝗻𝗲𝗲𝗿𝗶𝗻𝗴 𝗳𝗼𝗿 𝗦𝘆𝗻𝘁𝗵𝗲𝘁𝗶𝗰 𝗗𝗮𝘁𝗮

𝗟𝗟𝗠 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗶𝗻𝗴 𝟮𝟬𝟮𝟲: 𝗧𝗵𝗲 𝗨𝗹𝘁𝗶𝗺𝗮𝘁𝗲 𝗚𝘂𝗶𝗱𝗲

LLM ಪ್ರಾಂಪ್ಟಿಂಗ್‌ನಲ್ಲಿ ಪರಿಣತಿ ಪಡೆಯುವುದು: ಒಬ್ಬ ಡೆವಲಪರ್‌ನ ಮಾರ್ಗದರ್ಶಿ