Mengapa Model AI Frontier Gagal dalam Ujian Triage Kewangan

Walaupun LLM besar seperti GPT-4 dan Claude mendominasi penanda aras umum, ia bergelut untuk meniru pertimbangan bernuansa yang diperlukan dalam persekitaran kewangan berisiko tinggi. Laporan baharu daripada AIA Labs milik Bridgewater dan Thinking Machines Lab mendedahkan bahawa model paling canggih di dunia sekalipun gagal memenuhi ambang ketepatan yang diperlukan untuk aliran kerja pelaburan profesional.

Jurang Antara Kecerdasan Umum dan Pertimbangan Kewangan

Cabaran utama dalam kewangan bukan sekadar membaca data; ia adalah aliran "triage" yang berterusan—memutuskan maklumat mana yang benar-benar penting. Penyelidik mentakrifkan enam tugas kritikal berdasarkan rutin harian pelabur, seperti menentukan sama ada dokumen bank pusat menandakan peralihan dalam kadar faedah atau sama ada tajuk berita relevan dengan eksekutif tertentu.

Dalam ujian ini, model frontier seperti Gemini, Claude, dan varian GPT hanya mencapai sekitar 50% ketepatan apabila menggunakan arahan (prompting) asas. Walaupun penyelidik menggunakan arahan yang ditulis oleh pakar dan sistem penilaian tiga peringkat yang canggih—mengategorikan maklumat sebagai "relevan dan menarik," "relevan tetapi tidak menarik," atau "tidak relevan"—ketepatan hanya meningkat ke tahap pertengahan 70-an. Ini tidak mencapai ambang ketepatan 80% yang diperlukan untuk penggunaan automatik yang boleh dipercayai dalam tetapan dana lindung nilai (hedge fund).

Penalaan Halus (Fine-Tuning) Model Open-Weight: Lonjakan Kecekapan

Kajian ini menunjukkan bahawa jalan menuju AI gred profesional tidak semestinya melalui model proprietari yang lebih besar dan lebih mahal, tetapi melalui penalaan halus model open-weight menggunakan kepakaran proprietari. Thinking Machines Lab, yang diasaskan oleh bekas CTO OpenAI Mira Murati, menggunakan platform Tinker miliknya untuk melatih model berasaskan Qwen3-235B.

Keputusannya sangat ketara. Model yang telah ditala halus itu mencapai ketepatan 84.7%, mengatasi model frontier terbaik yang diuji (78.2%) sambil menelan kos operasi hampir 14 kali ganda lebih rendah. Ini menonjolkan realiti ekonomi yang kritikal: model yang lebih baharu dan lebih besar seperti GPT-5.4 menawarkan pulangan yang semakin berkurangan, sering kali menelan kos yang jauh lebih tinggi untuk penambahbaikan ketepatan yang hanya marginal.

Kuasa Data Proprietari dan Maklum Balas Manusia

Satu rumusan teknikal utama daripada perkembangan ini ialah metodologi yang digunakan untuk menskalakan kepakaran manusia. Daripada meminta pelabur yang mahal untuk melabel setiap dokumen, pasukan tersebut menggunakan gelung "ketidaksetujuan" (disagreement loop) yang bijak. Model tersebut terlebih dahulu belajar daripada label awal; apabila penilaian model tidak bersetuju dengan label asal, kes khusus tersebut ditandakan untuk semakan manusia. Ini memastikan masa pelabur yang bernilai tinggi hanya digunakan untuk membetulkan ralat sebenar, sekali gus mewujudkan set data berkualiti tinggi untuk penalaan halus.

Pendekatan ini menyelesaikan masalah "parit data" (data moat). Walaupun makmal besar telah mengikis (scrape) sebahagian besar internet awam, mereka kekurangan akses kepada pertimbangan peribadi dan bernuansa yang dimiliki oleh profesional kewangan. Dengan menggunakan model open-weight, syarikat boleh menyimpan data proprietari, pemberat (weights), dan kelebihan daya saing mereka sepenuhnya di dalam syarikat (in-house).

Rumusan Utama

  • Had Frontier: LLM tujuan umum bergelut dengan triage kewangan khusus, sering kali gagal memenuhi ambang ketepatan 80% yang diperlukan untuk kegunaan profesional.
  • Kecekapan melalui Model Open-Weight: Model yang ditala halus, seperti yang berasaskan Qwen3-235B, boleh mengatasi gergasi proprietari pada sebahagian kecil kos operasi.
  • Nilai Data Peribadi: Keuntungan AI yang paling ketara kini terletak pada data korporat proprietari yang "tidak dikikis" dan pertimbangan khusus pakar manusia.