ಪರ್ಷಿಯನ್ ಸಿಂಥೆಟಿಕ್ ಡೇಟಾ ಪೈಪ್‌ಲೈನ್ ವಿನ್ಯಾಸಗೊಳಿಸುವುದು

LLMಗಳನ್ನು ತರಬೇತುಗೊಳಿಸುವುದು ಈಗ ಕೇವಲ ಮಾಡೆಲ್‌ಗಳನ್ನು ಸ್ಕೇಲ್ ಮಾಡುವುದಲ್ಲ. ಇದು ಡೇಟಾ ಗುಣಮಟ್ಟವನ್ನು ಹೆಚ್ಚಿಸುವುದರ ಬಗ್ಗೆಯಾಗಿದೆ.

ಹೆಚ್ಚಿನ ಪರ್ಷಿಯನ್ ಡೇಟಾ ಸೆಟ್‌ಗಳಲ್ಲಿ ರಚನೆಯ ಕೊರತೆಯಿದೆ. ಇದರಿಂದಾಗಿ ಮಾಡೆಲ್‌ಗಳು ಸೂಚನೆಗಳನ್ನು ಪಾಲಿಸುವಲ್ಲಿ ವಿಫಲವಾಗುತ್ತವೆ. ಸಮಸ್ಯೆ ಮಾಡೆಲ್ ಗಾತ್ರದಲ್ಲಲ್ಲ, ಬದಲಾಗಿ ಡೇಟಾ ಕೊರತೆಯಲ್ಲಿ உள்ளது.

ಇದನ್ನು ಪರಿಹರಿಸಲು ನಾನು ಒಂದು ಪೈಪ್‌ಲೈನ್ ಅನ್ನು ನಿರ್ಮಿಸಿದ್ದೇನೆ. ಇದು ಟಾಪಿಕ್ ಗ್ರಾಫ್‌ಗಳಿಂದ QLoRA fine tuning ವರೆಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ.

ಪೈಪ್‌ಲೈನ್ ಪ್ರಕ್ರಿಯೆ (The Pipeline Process):

  • ಟಾಪಿಕ್ ಟ್ರೀ ರಚನೆ (Topic Tree creation)
  • LLM ಜನರೇಷನ್ (LLM Generation)
  • ಡ್ಯೂಪ್ಲಿಕೇಶನ್ ತೆಗೆದುಹಾಕುವುದು (Deduplication)
  • ಗುಣಮಟ್ಟದ ಸ್ಕೋರಿಂಗ್ (Quality Scoring)
  • ಡೇಟಾಸೆಟ್ ಎಕ್ಸ್‌ಪೋರ್ಟ್ (Dataset Export)
  • QLoRA Fine Tuning
  • ಮೌಲ್ಯಮಾಪನ (Evaluation)

ಮೂಲ ವಿನ್ಯಾಸದ ನಿಯಮಗಳು (Core Design Rules):

  • ಸಮತೋಲಿತ ವ್ಯಾಪ್ತಿಯನ್ನು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಲು 51 ಡೊಮೇನ್‌ಗಳು.
  • ಪುನರಾವರ್ತಿತ ವಿಚಾರಗಳನ್ನು ತೆಗೆದುಹಾಕಲು ಸೆಮ್ಯಾಂಟಿಕ್ ಡ್ಯೂಪ್ಲಿಕೇಶನ್.
  • ಪೂರ್ವಾಗ್ರಹವನ್ನು (bias) ಕಡಿಮೆ ಮಾಡಲು GPT ಮಾಡೆಲ್‌ಗಳನ್ನು ಬಳಸಿ ಮಲ್ಟಿ-ಮಾಡಲ್ ಜನರೇಷನ್.
  • ಅಂತಿಮ fine tuning ಗಾಗಿ Qwen2.5 3B Instruct.

ಡೇಟಾ ಎಂಜಿನ್ ಹೇಗೆ ಕೆಲಸ ಮಾಡುತ್ತದೆ: ವೈವಿಧ್ಯತೆಯನ್ನು ಸೃಷ್ಟಿಸಲು ನಾನು ಹಲವಾರು ಮಾಡೆಲ್‌ಗಳನ್ನು ಬಳಸುತ್ತೇನೆ. GPT ಮಾಡೆಲ್‌ಗಳು ತರ್ಕ (reasoning) ಮತ್ತು ವೈವಿಧ್ಯತೆಯನ್ನು ಒದಗಿಸುತ್ತವೆ. ಇದು ವೆಚ್ಚವನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ ಮತ್ತು ವೈವಿಧ್ಯತೆಯನ್ನು ಹೆಚ್ಚಿಸುತ್ತದೆ.

ಡೇಟಾವನ್ನು ಶುದ್ಧೀಕರಿಸಲು ನಾನು ಸೆಮ್ಯಾಂಟಿಕ್ ಫಿಲ್ಟರಿಂಗ್ ಬಳಸುತ್ತೇನೆ. ಎರಡು ಸೂಚನೆಗಳು 0.75 ಕ್ಕಿಂತ ಹೆಚ್ಚಿನ ಸಾಮ್ಯತಾ ಸ್ಕೋರ್ ಹೊಂದಿದ್ದರೆ, ನಾನು ಒಂದನ್ನು ತೆಗೆದುಹಾಕುತ್ತೇನೆ. ಇದು ಮಾಡೆಲ್ ಒಂದೇ ರೀತಿಯ ಮಾದರಿಗಳ ಮೇಲೆ ಓವರ್‌ಫಿಟ್ಟಿಂಗ್ (overfitting) ಮಾಡುವುದನ್ನು ತಡೆಯುತ್ತದೆ.

ಗುಣಮಟ್ಟವನ್ನು ಅಳೆಯಲು ನಾನು LLM ಅನ್ನು ಜಡ್ಜ್ (judge) ಆಗಿ ಬಳಸುತ್ತೇನೆ. ಇದು ಈ ಕೆಳಗಿನವುಗಳನ್ನು ಪರಿಶೀಲಿಸುತ್ತದೆ:

  • ಸರಾಗತೆ (Fluency)
  • ಪ್ರಸ್ತುತತೆ (Relevance)
  • ಪರಿಪೂರ್ಣತೆ (Completeness)

3.5 ಅಥವಾ ಅದಕ್ಕಿಂತ ಹೆಚ್ಚಿನ ಸ್ಕೋರ್ ಹೊಂದಿರುವ ಡೇಟಾ ಮಾತ್ರ ಸೆಟ್‌ನಲ್ಲಿ ಉಳಿಯುತ್ತದೆ.

Fine Tuning ಫಲಿತಾಂಶಗಳು: ನಾನು Google Colab ಮೂಲಕ Qwen2.5 3B Instruct ಮಾಡೆಲ್ ಮೇಲೆ QLoRA ಅನ್ನು ಬಳಸಿದೆ. QLoRA ಪೂರ್ಣ ತೂಕಗಳಿಗಿಂತ (weights) ಸಣ್ಣ ಅಡಾಪ್ಟರ್‌ಗಳನ್ನು (adapters) ತರಬೇತುಗೊಳಿಸುತ್ತದೆ. ಇದು ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಎತ್ತಿಹಿಡಿಯುತ್ತಲೇ ಮೆಮೊರಿಯನ್ನು ಉಳಿಸುತ್ತದೆ.

ಫಲಿತಾಂಶಗಳು ದೊಡ್ಡ ವ್ಯತ್ಯಾಸವನ್ನು ತೋರಿಸುತ್ತವೆ:

  • ಮೂಲ ಮಾಡೆಲ್ (base model) ಆಗಾಗ್ಗೆ ಅರೇಬಿಕ್‌ಗೆ ಬದಲಾಗುತ್ತದೆ.
  • Fine tuned ಮಾಡೆಲ್ ಸರಾಗವಾದ ಮತ್ತು ಸ್ಥಿರವಾದ ಪರ್ಷಿಯನ್ ಅನ್ನು ಮಾತನಾಡುತ್ತದೆ.

ಮುಖ್ಯ ಪಾಠ ಸ್ಪಷ್ಟವಾಗಿದೆ: ಮಾಡೆಲ್ ಸ್ಕೇಲಿಂಗ್‌ಗಿಂತ ಡೇಟಾ ಎಂಜಿನಿಯರಿಂಗ್ ಹೆಚ್ಚು ಮುಖ್ಯವಾಗಿದೆ. ಡೇಟಾ ಗುಣಮಟ್ಟವೇ ಪ್ರಾಥಮಿಕ ಅಡಚಣೆಯಾಗಿದೆ (bottleneck).

ಪ್ರಮುಖ ಒಳನೋಟಗಳು (Key Insights):

  • ಶುದ್ಧ ಡೇಟಾಕ್ಕಾಗಿ ಡ್ಯುಯಲ್ ಫಿಲ್ಟರಿಂಗ್ ಅಗತ್ಯವಿದೆ.
  • ಫ್ರೀ ಪ್ರಾಂಪ್ಟ್‌ಗಳಿಗಿಂತ ರಚನಾತ್ಮಕ ಟಾಪಿಕ್ ಗ್ರಾಫ್‌ಗಳು ಉತ್ತಮವಾಗಿ ಕೆಲಸ ಮಾಡುತ್ತವೆ.
  • LLM ಜಡ್ಜ್ ವ್ಯವಸ್ಥೆಯ ಒಂದು ಪ್ರಮುಖ ಭಾಗವಾಗಿದೆ.

ಈ ವ್ಯವಸ್ಥೆಯು ಕಡಿಮೆ ಸಂಪನ್ಮೂಲವಿರುವ (low resource) LLM ಅಲೈನ್‌ಮೆಂಟ್‌ಗಾಗಿ ಸಂಪೂರ್ಣ ಎಂಜಿನ್ ಆಗಿದೆ.

Source: https://dev.to/mohammadheydari/designing-a-synthetic-data-pipeline-for-persian-llm-fine-tuning-from-topic-graphs-to-qlora-5cg5

Optional learning community: https://t.me/GyaanSetuAi