Mereka Bentuk Saluran Data Sintetik Parsi

Translated for your language. Read the original.

AI-assisted draft.

Melatih LLM bukan lagi tentang penskalaan model. Ia adalah tentang penskalaan kualiti data.

Kebanyakan set data Parsi kurang berstruktur. Ini menyebabkan model gagal mengikut arahan. Masalahnya adalah kekurangan data, bukan saiz model.

Saya telah membina satu saluran (pipeline) untuk menyelesaikan masalah ini. Ia bermula daripada graf topik sehingga ke penalaan halus (fine-tuning) QLoRA.

Proses Saluran (Pipeline):

Penciptaan Pokok Topik
Penjanaan LLM
Penghapusan Duplikasi
Pemarkahan Kualiti
Eksport Set Data
Penalaan Halus QLoRA
Penilaian

Peraturan Reka Bentuk Teras:

51 domain untuk memastikan liputan yang seimbang.
Penghapusan duplikasi semantik untuk membuang idea yang berulang.
Penjanaan pelbagai model menggunakan model GPT untuk mengurangkan bias.
Qwen2.5 3B Instruct untuk penalaan halus terakhir.

Cara Enjin Data Berfungsi: Saya menggunakan pelbagai model untuk mencipta kepelbagaian. Model GPT menyediakan penaakulan dan variasi. Ini memastikan kos kekal rendah dan kepelbagaian kekal tinggi.

Saya menggunakan penapisan semantik untuk membersihkan data. Jika dua arahan mempunyai skor kesamaan melebihi 0.75, saya akan membuang salah satunya. Ini menghalang model daripada mengalami overfitting pada corak yang sama.

Saya menggunakan LLM sebagai hakim untuk memberi skor kualiti. Ia menyemak:

Kelancaran
Relevansi
Kelengkapan

Hanya data dengan skor 3.5 atau lebih tinggi akan dikekalkan dalam set tersebut.

Keputusan Penalaan Halus: Saya menggunakan QLoRA pada model Qwen2.5 3B Instruct melalui Google Colab. QLoRA melatih 'adapter' kecil dan bukannya pemberat (weights) penuh. Ini menjimatkan memori sambil mengekalkan prestasi yang tinggi.

Keputusan menunjukkan perbezaan yang besar:

Model asas sering bertukar ke bahasa Arab.
Model yang telah ditala halus bercakap dalam bahasa Parsi yang lancar dan konsisten.

Pengajaran utamanya jelas: Kejuruteraan data lebih penting daripada penskalaan model. Kualiti data adalah kekangan (bottleneck) utama.

Wawasan Utama:

Penapisan dwi-peringkat adalah perlu untuk data yang bersih.
Graf topik berstruktur berfungsi lebih baik daripada prompt bebas.
Hakim LLM adalah bahagian penting dalam sistem ini.

Sistem ini adalah enjin lengkap untuk penjajaran (alignment) LLM sumber rendah.

Sumber: https://dev.to/mohammadheydari/designing-a-synthetic-data-pipeline-for-persian-llm-fine-tuning-from-topic-graphs-to-qlora-5cg5

Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi

Mereka Bentuk Saluran Data Sintetik Parsi

Continue reading

Kejuruteraan Prompt untuk Data Sintetik

𝗟𝗟𝗠 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗶𝗻𝗴 𝟮𝟬𝟮𝟲: 𝗧𝗵𝗲 𝗨𝗹𝘁𝗶𝗺𝗮𝘁𝗲 𝗚𝘂𝗶𝗱𝗲

𝗠𝗮𝘀𝘁𝗲𝗿𝗶𝗻𝗴 𝗟𝗟𝗠 𝗣𝗿𝗼𝗺𝗽𝘁𝗶𝗻𝗴: 𝗔 𝗗𝗲𝘃𝗲𝗹𝗼𝗽𝗲𝗿'𝘀 𝗚𝘂𝗶𝗱𝗲