𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗩𝗲𝗰𝘁𝗼𝗿 𝗥𝗲𝘁𝗿𝗶𝗲𝘃𝗮𝗹: 𝗠𝗼𝗱𝗲𝗹𝘀 𝘁𝗼 𝗗𝘂𝗮𝗹 𝗩𝗮𝗹𝗶𝗱𝗮𝘁𝗶𝗼𝗻

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial4 hari yang lalu2min read

𝗣𝗲𝗻𝗴𝗮𝗺𝗯𝗶𝗹𝗮𝗻 𝗩𝗲𝗸𝘁𝗼𝗿 𝗦𝗽𝗲𝘀𝗶𝗳𝗶𝗸-𝗗𝗼𝗺𝗮𝗶𝗻: 𝗗𝗮𝗿𝗶 𝗠𝗼𝗱𝗲𝗹 𝗸𝗲 𝗩𝗮𝗹𝗶𝗱𝗮𝘀𝗶 𝗚𝗮𝗻𝗱𝗮

Model embedding tujuan umum sering kali gagal pada teks khusus.

Dalam proyek ESG terbaru saya, penggunaan model ada-002 dari OpenAI menyebabkan dua masalah utama:

18% konten relevan tidak pernah ditemukan.
12% hasil salah. Sebagai contoh, pencarian untuk "Scope 1 emissions" justru mengembalikan "Scope 3 emissions."

Masalahnya bukan pada ambang batas kemiripan (similarity threshold). Masalahnya adalah pergeseran semantik (semantic drift). Model umum tidak memahami perbedaan halus dalam domain khusus seperti teks ESG, hukum, atau medis.

Berikut adalah solusi tiga lapis untuk memperbaikinya.

𝟭. 𝗦𝗲𝗹𝗲𝗸𝘀𝗶 𝗠𝗼𝗱𝗲𝗹 Kami menguji empat model. Meskipun melakukan self-hosting BGE-M3 tampak lebih murah, biayanya sebenarnya 6x lebih mahal karena biaya server GPU dan waktu pengembangan.

Kami memilih text-embedding-3-large karena:

Mencapai recall sebesar 91%.
Tetap stabil dengan teks panjang.
Menawarkan ROI terbaik.

𝟮. 𝗠𝗶𝘁𝗶𝗴𝗮𝘀𝗶 𝗣𝗲𝗿𝗴𝗲𝘀𝗲𝗿𝗮𝗻 𝗦𝗲𝗺𝗮𝗻𝘁𝗶𝗸 Bahkan model terbaik pun sering tertukar antara "low-carbon" dengan "zero-carbon." Saya menerapkan strategi augmentasi tiga langkah:

Kamus Domain: Pemetaan 500+ istilah dengan definisi dan aturan "berbeda dari".
Petunjuk Prompt: Menyuntikkan konteks kamus ke dalam model selama proses encoding.
Reranking Pasca-pengambilan: Meningkatkan skor untuk sinonim dan mengurangi skor untuk istilah yang tidak terkait.

Ini mengurangi tingkat false positive kami dari 12% menjadi 3%.

𝟯. 𝗩𝗮𝗹𝗶𝗱𝗮𝘀𝗶 𝗚𝗮𝗻𝗱𝗮 Kemiripan vektor mengukur jarak matematis, bukan relevansi bisnis. Untuk memastikan akurasi, saya menambahkan sistem pemeriksaan ganda:

Lapisan 1: Pencocokan kata kunci yang ketat (keyword hard match). Hasil harus mengandung istilah inti yang diperlukan.
Lapisan 2: Validasi silang semantik LLM. Sebuah LLM memeriksa apakah potongan teks (chunk) tersebut benar-benar menjawab kueri.
Lapisan 3: Pemeriksaan acak manual (manual spot-checks). Peninjauan bulanan untuk mencegah penurunan performa sistem.

Ini meningkatkan akurasi dari 70% menjadi 94%.

𝗧𝗮𝗸𝗲𝗮𝘄𝗮𝘆 Jika data Anda menggunakan jargon khusus, jangan hanya mengandalkan pencarian vektor tunggal. Anda memerlukan kamus, petunjuk domain, dan lapisan validasi ganda untuk beralih dari kemiripan matematis ke relevansi bisnis.

Sumber: https://dev.to/jamesli/part-3-vector-retrieval-in-domain-specific-terminology-scenarios-from-model-selection-to-dual-3485

Komunitas belajar opsional: https://t.me/GyaanSetuAi

𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗩𝗲𝗰𝘁𝗼𝗿 𝗥𝗲𝘁𝗿𝗶𝗲𝘃𝗮𝗹: 𝗠𝗼𝗱𝗲𝗹𝘀 𝘁𝗼 𝗗𝘂𝗮𝗹 𝗩𝗮𝗹𝗶𝗱𝗮𝘁𝗶𝗼𝗻

Continue reading

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

𝗛𝘆𝗯𝗿𝗶𝗱 𝗥𝗲𝘁𝗿𝗶𝗲𝘃𝗮𝗹 𝗮𝗻𝗱 𝗔𝗴𝗲𝗻𝘁 𝗢𝗯𝘀𝗲𝗿𝘃𝗮𝗯𝗶𝗹𝗶𝘁𝘆

LLM Spesifik Domain Mengubah Generasi Kode AI

𝗘𝗻𝘁𝗶𝘁𝘆 𝗟𝗶𝗳𝗲 𝗖𝘆𝗰𝗹𝗲 𝗮𝗻𝗱 𝗖𝗹𝗲𝗮𝗻 𝗗𝗮𝘁𝗮

𝗞𝗻𝗼𝘄𝗹𝗲𝗱𝗴𝗲 𝗚𝘂𝗶𝗱𝗲𝗱 𝗧𝗲𝘅𝘁 𝗥𝗲𝘁𝗿𝗶𝗲𝘃𝗮𝗹 𝗳𝗼𝗿 𝗢𝗽𝗲𝗻 𝗗𝗼𝗺𝗮𝗶𝗻 𝗤𝘂𝗲𝘀𝘁𝗶𝗼𝗻 𝗔𝗻𝘀𝘄𝗲𝗿𝗶