Probably huy động 9 triệu USD để chống lại hiện tượng "ảo giác" của LLM bằng kỹ thuật chính xác
Khi các Mô hình Ngôn ngữ Lớn (LLM) ngày càng được tích hợp sâu vào các quy trình làm việc chuyên nghiệp, ngành công nghiệp này đang phải đối mặt với một trở ngại dai dẳng: xu hướng "ảo giác" (hallucinate) ngay cả ở những mô hình tiên tiến nhất. Startup Probably đang trực tiếp giải quyết thách thức này khi huy động được 9 triệu USD trong vòng gọi vốn hạt giống (seed funding) do Andreessen Horowitz dẫn đầu, nhằm xây dựng một phương pháp tiếp cận nghiêm ngặt và mang tính xác định (deterministic) hơn cho độ tin cậy của AI.
Hướng tới độ chính xác 99,99%
Sứ mệnh cốt lõi của Probably, dưới sự dẫn dắt của nhà sáng lập Peter Elias, là thu hẹp khoảng cách giữa bản chất xác suất của các LLM và tiêu chuẩn độ chính xác 99,99% thường thấy ở các hệ thống mang tính xác định. Trong các môi trường có rủi ro cao, chỉ một lỗi sai về sự thật cũng có thể khiến một công cụ AI trở nên vô dụng. Để giải quyết vấn đề này, Probably đang dần từ bỏ quan điểm cho rằng độ chính xác hoàn toàn phụ thuộc vào kích thước mô hình, thay vào đó tập trung vào "kỹ thuật điều phối" (harness engineering).
Sản phẩm chủ lực của công ty là một công cụ khoa học dữ liệu được thiết kế để trích xuất thông tin chuyên sâu từ các tập dữ liệu phức tạp. Khác với các chatbot tiêu chuẩn chỉ đưa ra các phản hồi mang tính hội thoại, công cụ của Probably cung cấp mọi câu trả lời kèm theo trích dẫn cụ thể và một lộ trình kiểm chứng (audit trail) minh bạch, cho phép người dùng xác minh logic đằng sau mỗi kết quả đầu ra.
Kiến trúc "Bộ giáp cơ khí Khoa học Dữ liệu"
Thay vì chỉ dựa vào khả năng suy luận của một mô hình khổng lồ, Probably sử dụng thứ mà Elias gọi là "bộ giáp cơ khí khoa học dữ liệu" (data science mech suit). Kiến trúc này hoạt động như một hệ thống điều phối phức tạp, nơi kết quả đầu ra ban đầu của LLM sẽ ngay lập tức được kiểm tra kỹ lưỡng bởi một bộ xác thực mang tính xác định (deterministic validator).
Nếu LLM tạo ra một kết quả không khớp hoàn toàn với tập dữ liệu gốc, bộ xác thực sẽ bác bỏ nó. Quan trọng hơn, LLM được huấn luyện đặc biệt để đối phó với bộ xác thực này, tạo ra một hệ thống vòng lặp kín (closed-loop system) được tối ưu hóa về tốc độ và tính toàn vẹn của sự thật. Cách tiếp cận này hoạt động dựa trên một nguyên tắc cơ bản: bằng cách tinh chỉnh ngữ cảnh và giảm thiểu sự mơ hồ thông qua kỹ thuật, bạn có thể buộc mô hình phải "làm đúng việc" mà không cần đến sức mạnh tính toán thô khổng lồ.
Hiệu quả thông qua các mô hình nhỏ hơn và cục bộ
Một trong những tác động kỹ thuật quan trọng nhất từ cách tiếp cận của Probably là khả năng sử dụng các mô hình nhỏ hơn và hiệu quả hơn. Vì "bộ giáp cơ khí" đã đảm nhận phần việc nặng nhọc là xác thực và tinh chỉnh ngữ cảnh, hệ thống có thể vận hành trên các mô hình "yếu hơn bốn cấp so với các mô hình tiên phong" (frontier models).
This shift has massive economic and operational benefits:
- Reduced Token Costs: Smaller models significantly lower the per-query cost, a vital factor as enterprises look to optimize AI budgets.
- Local Execution: These lighter models can run on local hardware, such as desktop computers, rather than requiring expensive, high-latency data center connections.
- Scalability: The engine is designed to be extensible beyond data science into precision-sensitive sectors like accounting and medical services.
Challenging the Big AI Lab Incentive Model
Elias points out a structural misalignment in the current AI landscape: major AI labs are incentivized to build massive, general-purpose models that require frequent user corrections. Since these labs often charge based on token usage, more errors and more follow-up queries can actually increase revenue. By focusing on precision and "reducing ambiguity" through engineering rather than scale, Probably is carving out a niche for mission-critical AI applications where reliability is the only metric that matters.
Key Takeaways
- Deterministic Validation: Probably uses a "mech suit" architecture to check LLM outputs against a deterministic validator, aiming for 99.99% accuracy.
- Cost-Effective Engineering: By reducing ambiguity through better context engineering, the system can run on much smaller, cheaper models that can operate on local hardware.
- Precision-First Focus: The technology is designed to move AI into high-stakes, precision-sensitive industries like medicine and finance where hallucinations are unacceptable.