Tại sao các mô hình AI tiên phong thất bại trong các bài kiểm tra phân loại tài chính

Translated for your language. Read the original.

AI-assisted draft.

In this article

Tại sao các mô hình AI tiên phong thất bại trong các bài kiểm tra phân loại tài chính

Mặc dù các LLM khổng lồ như GPT-4 và Claude thống trị các bảng xếp hạng tổng quát, chúng đang gặp khó khăn trong việc tái hiện khả năng phán đoán sắc bén cần thiết trong các môi trường tài chính có rủi ro cao. Một báo cáo mới từ AIA Labs của Bridgewater và Thinking Machines Lab tiết lộ rằng ngay cả những mô hình tiên tiến nhất thế giới cũng không đạt được ngưỡng độ chính xác cần thiết cho các quy trình đầu tư chuyên nghiệp.

Khoảng cách giữa Trí tuệ Tổng quát và Phán đoán Tài chính

Thách thức cốt lõi trong tài chính không chỉ là đọc dữ liệu; đó là dòng chảy liên tục của việc "phân loại" (triage)—quyết định thông tin nào thực sự quan trọng. Các nhà nghiên cứu đã xác định sáu nhiệm vụ quan trọng dựa trên thói quen hàng ngày của một nhà đầu tư, chẳng hạn như xác định xem một tài liệu của ngân hàng trung ương có báo hiệu sự thay đổi lãi suất hay không, hoặc một tiêu đề tin tức có liên quan đến một giám đốc điều hành cụ thể hay không.

Trong các bài kiểm tra này, các mô hình tiên phong như Gemini, Claude và các biến thể GPT chỉ đạt độ chính xác khoảng 50% khi sử dụng các câu lệnh (prompting) cơ bản. Ngay cả khi các nhà nghiên cứu áp dụng các hướng dẫn do chuyên gia viết và hệ thống xếp hạng ba cấp tinh vi—phân loại thông tin thành "liên quan và thú vị", "liên quan nhưng không thú vị", hoặc "không liên quan"—độ chính xác cũng chỉ tăng lên mức giữa 70%. Con số này vẫn thấp hơn ngưỡng độ chính xác 80% cần thiết để triển khai tự động một cách đáng tin cậy trong bối cảnh quỹ đầu cơ.

Tinh chỉnh các mô hình trọng số mở: Bước đột phá về hiệu quả

Nghiên cứu chứng minh rằng con đường dẫn đến AI cấp độ chuyên nghiệp không nhất thiết phải thông qua các mô hình độc quyền lớn hơn và đắt tiền hơn, mà thông qua việc tinh chỉnh (fine-tuning) các mô hình trọng số mở dựa trên chuyên môn độc quyền. Thinking Machines Lab, được thành lập bởi cựu CTO của OpenAI Mira Murati, đã sử dụng nền tảng Tinker của mình để huấn luyện một mô hình dựa trên Qwen3-235B.

Kết quả thật rõ rệt. Mô hình được tinh chỉnh đạt độ chính xác 84,7%, vượt qua mô hình tiên phong tốt nhất được thử nghiệm (78,2%) trong khi chi phí vận hành thấp hơn gần 14 lần. Điều này làm nổi bật một thực tế kinh tế quan trọng: các mô hình mới hơn, lớn hơn như GPT-5.4 mang lại hiệu suất giảm dần, thường tốn kém hơn đáng kể nhưng chỉ mang lại những cải thiện không đáng kể về độ chính xác.

Sức mạnh của Dữ liệu Độc quyền và Phản hồi từ Con người

Một bài học kỹ thuật then chốt từ sự phát triển này là phương pháp được sử dụng để mở rộng chuyên môn của con người. Thay vì để các nhà đầu tư đắt giá phải dán nhãn cho mọi tài liệu, nhóm nghiên cứu đã sử dụng một "vòng lặp bất đồng" (disagreement loop) thông minh. Đầu tiên, một mô hình sẽ học từ các nhãn ban đầu; khi đánh giá của mô hình mâu thuẫn với nhãn gốc, trường hợp cụ thể đó sẽ được gắn cờ để con người xem xét. Điều này đảm bảo rằng thời gian quý báu của nhà đầu tư chỉ được dành để sửa các lỗi thực sự, từ đó tạo ra một tập dữ liệu chất lượng cao để tinh chỉnh.

Cách tiếp cận này giải quyết vấn đề "hào ngăn dữ liệu" (data moat). Trong khi các phòng thí nghiệm lớn đã thu thập phần lớn dữ liệu từ internet công cộng, họ thiếu khả năng tiếp cận với những phán đoán riêng tư và sắc bén nằm trong đầu của các chuyên gia tài chính. Bằng cách sử dụng các mô hình trọng số mở, các công ty có thể giữ dữ liệu độc quyền, các trọng số và lợi thế cạnh tranh của họ hoàn toàn trong nội bộ.

Các điểm chính cần lưu ý

Hạn chế của các mô hình tiên phong: Các LLM đa năng gặp khó khăn với việc phân loại tài chính chuyên biệt, thường không đạt được ngưỡng độ chính xác 80% cần thiết cho mục đích sử dụng chuyên nghiệp.
Hiệu quả thông qua các mô hình trọng số mở: Các mô hình được tinh chỉnh, chẳng hạn như các mô hình dựa trên Qwen3-235B, có thể vượt qua các "gã khổng lồ" độc quyền với một phần nhỏ chi phí vận hành.
Giá trị của dữ liệu riêng tư: Những bước tiến AI đáng kể nhất hiện nay nằm ở dữ liệu doanh nghiệp độc quyền, "chưa bị cào" và phán đoán chuyên môn của các chuyên gia con người.

Tại sao các mô hình AI tiên phong thất bại trong các bài kiểm tra phân loại tài chính

Tại sao các mô hình AI tiên phong thất bại trong các bài kiểm tra phân loại tài chính

Khoảng cách giữa Trí tuệ Tổng quát và Phán đoán Tài chính

Tinh chỉnh các mô hình trọng số mở: Bước đột phá về hiệu quả

Sức mạnh của Dữ liệu Độc quyền và Phản hồi từ Con người

Các điểm chính cần lưu ý

Continue reading

AI không thay thế khả năng phán đoán

Benchmark AA Briefcase mới tiết lộ sự chật vật của AI với các công việc tri thức thực tế

Tinh chỉnh các mô hình AI không còn chỉ dành riêng cho các kỹ sư ML

GPT 5.6 Sol của OpenAI bị phát hiện gian lận trong các bài kiểm tra phần mềm

Tại sao các bộ benchmark AI tiêu chuẩn lại đánh giá thấp khả năng của các tác nhân một cách có hệ thống