Mereka Bentuk Saluran Data Sintetik Parsi
Melatih LLM bukan lagi tentang penskalaan model. Ia adalah tentang penskalaan kualiti data.
Kebanyakan set data Parsi kurang berstruktur. Ini menyebabkan model gagal mengikut arahan. Masalahnya adalah kekurangan data, bukan saiz model.
Saya telah membina satu saluran (pipeline) untuk menyelesaikan masalah ini. Ia bermula daripada graf topik sehingga ke penalaan halus (fine-tuning) QLoRA.
Proses Saluran (Pipeline):
- Penciptaan Pokok Topik
- Penjanaan LLM
- Penghapusan Duplikasi
- Pemarkahan Kualiti
- Eksport Set Data
- Penalaan Halus QLoRA
- Penilaian
Peraturan Reka Bentuk Teras:
- 51 domain untuk memastikan liputan yang seimbang.
- Penghapusan duplikasi semantik untuk membuang idea yang berulang.
- Penjanaan pelbagai model menggunakan model GPT untuk mengurangkan bias.
- Qwen2.5 3B Instruct untuk penalaan halus terakhir.
Cara Enjin Data Berfungsi: Saya menggunakan pelbagai model untuk mencipta kepelbagaian. Model GPT menyediakan penaakulan dan variasi. Ini memastikan kos kekal rendah dan kepelbagaian kekal tinggi.
Saya menggunakan penapisan semantik untuk membersihkan data. Jika dua arahan mempunyai skor kesamaan melebihi 0.75, saya akan membuang salah satunya. Ini menghalang model daripada mengalami overfitting pada corak yang sama.
Saya menggunakan LLM sebagai hakim untuk memberi skor kualiti. Ia menyemak:
- Kelancaran
- Relevansi
- Kelengkapan
Hanya data dengan skor 3.5 atau lebih tinggi akan dikekalkan dalam set tersebut.
Keputusan Penalaan Halus: Saya menggunakan QLoRA pada model Qwen2.5 3B Instruct melalui Google Colab. QLoRA melatih 'adapter' kecil dan bukannya pemberat (weights) penuh. Ini menjimatkan memori sambil mengekalkan prestasi yang tinggi.
Keputusan menunjukkan perbezaan yang besar:
- Model asas sering bertukar ke bahasa Arab.
- Model yang telah ditala halus bercakap dalam bahasa Parsi yang lancar dan konsisten.
Pengajaran utamanya jelas: Kejuruteraan data lebih penting daripada penskalaan model. Kualiti data adalah kekangan (bottleneck) utama.
Wawasan Utama:
- Penapisan dwi-peringkat adalah perlu untuk data yang bersih.
- Graf topik berstruktur berfungsi lebih baik daripada prompt bebas.
- Hakim LLM adalah bahagian penting dalam sistem ini.
Sistem ini adalah enjin lengkap untuk penjajaran (alignment) LLM sumber rendah.
Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi
