𝗣𝗲𝗻𝗴𝗮𝗺𝗯𝗶𝗹𝗮𝗻 𝗩𝗲𝗸𝘁𝗼𝗿 𝗦𝗽𝗲𝘀𝗶𝗳𝗶𝗸-𝗗𝗼𝗺𝗮𝗶𝗻: 𝗗𝗮𝗿𝗶 𝗠𝗼𝗱𝗲𝗹 𝗸𝗲 𝗩𝗮𝗹𝗶𝗱𝗮𝘀𝗶 𝗚𝗮𝗻𝗱𝗮
Model embedding tujuan umum sering kali gagal pada teks khusus.
Dalam proyek ESG terbaru saya, penggunaan model ada-002 dari OpenAI menyebabkan dua masalah utama:
- 18% konten relevan tidak pernah ditemukan.
- 12% hasil salah. Sebagai contoh, pencarian untuk "Scope 1 emissions" justru mengembalikan "Scope 3 emissions."
Masalahnya bukan pada ambang batas kemiripan (similarity threshold). Masalahnya adalah pergeseran semantik (semantic drift). Model umum tidak memahami perbedaan halus dalam domain khusus seperti teks ESG, hukum, atau medis.
Berikut adalah solusi tiga lapis untuk memperbaikinya.
𝟭. 𝗦𝗲𝗹𝗲𝗸𝘀𝗶 𝗠𝗼𝗱𝗲𝗹 Kami menguji empat model. Meskipun melakukan self-hosting BGE-M3 tampak lebih murah, biayanya sebenarnya 6x lebih mahal karena biaya server GPU dan waktu pengembangan.
Kami memilih text-embedding-3-large karena:
- Mencapai recall sebesar 91%.
- Tetap stabil dengan teks panjang.
- Menawarkan ROI terbaik.
𝟮. 𝗠𝗶𝘁𝗶𝗴𝗮𝘀𝗶 𝗣𝗲𝗿𝗴𝗲𝘀𝗲𝗿𝗮𝗻 𝗦𝗲𝗺𝗮𝗻𝘁𝗶𝗸 Bahkan model terbaik pun sering tertukar antara "low-carbon" dengan "zero-carbon." Saya menerapkan strategi augmentasi tiga langkah:
- Kamus Domain: Pemetaan 500+ istilah dengan definisi dan aturan "berbeda dari".
- Petunjuk Prompt: Menyuntikkan konteks kamus ke dalam model selama proses encoding.
- Reranking Pasca-pengambilan: Meningkatkan skor untuk sinonim dan mengurangi skor untuk istilah yang tidak terkait.
Ini mengurangi tingkat false positive kami dari 12% menjadi 3%.
𝟯. 𝗩𝗮𝗹𝗶𝗱𝗮𝘀𝗶 𝗚𝗮𝗻𝗱𝗮 Kemiripan vektor mengukur jarak matematis, bukan relevansi bisnis. Untuk memastikan akurasi, saya menambahkan sistem pemeriksaan ganda:
- Lapisan 1: Pencocokan kata kunci yang ketat (keyword hard match). Hasil harus mengandung istilah inti yang diperlukan.
- Lapisan 2: Validasi silang semantik LLM. Sebuah LLM memeriksa apakah potongan teks (chunk) tersebut benar-benar menjawab kueri.
- Lapisan 3: Pemeriksaan acak manual (manual spot-checks). Peninjauan bulanan untuk mencegah penurunan performa sistem.
Ini meningkatkan akurasi dari 70% menjadi 94%.
𝗧𝗮𝗸𝗲𝗮𝘄𝗮𝘆 Jika data Anda menggunakan jargon khusus, jangan hanya mengandalkan pencarian vektor tunggal. Anda memerlukan kamus, petunjuk domain, dan lapisan validasi ganda untuk beralih dari kemiripan matematis ke relevansi bisnis.
Komunitas belajar opsional: https://t.me/GyaanSetuAi