Probably, LLM Halüsinasyonlarıyla Mücadele Etmek İçin Hassas Mühendislik ile 9 Milyon Dolar Topluyor

Büyük Dil Modelleri (LLM'ler) profesyonel iş akışlarına giderek daha fazla entegre olurken, sektör kalıcı bir engelle karşı karşıya kalıyor: en gelişmiş modellerin bile halüsinasyon görme eğilimi. Startup Probably, yapay zeka güvenilirliğine daha titiz ve deterministik bir yaklaşım geliştirmek amacıyla Andreessen Horowitz liderliğinde 9 milyon dolarlık tohum yatırım alarak bu zorlukla doğrudan yüzleşiyor.

%99,99 Doğruluğa Doğru Hareket Etmek

Kurucu Peter Elias liderliğindeki Probably'nin temel misyonu, LLM'lerin olasılıksal doğası ile deterministik sistemlerden beklenen %99,99 doğruluk standardı arasındaki boşluğu kapatmaktır. Kritik öneme sahip ortamlarda, tek bir olgusal hata bir yapay zeka aracını kullanışsız hale getirebilir. Bunu çözmek için Probably, doğruluğun yalnızca model boyutunun bir fonksiyonu olduğu fikrinden uzaklaşıyor ve bunun yerine "harness mühendisliği" (koşum mühendisliği) üzerine odaklanıyor.

Şirketin amiral gemisi ürünü, karmaşık veri kümelerinden içgörü çıkarmak için tasarlanmış bir veri bilimi aracıdır. Sohbet tabanlı yanıtlar veren standart sohbet robotlarının aksine, Probably'nin aracı her cevabı belirli bir atıf ve şeffaf bir denetim iziyle sunarak kullanıcıların her çıktının arkasındaki mantığı doğrulamasına olanak tanır.

"Veri Bilimi Mech Suit" Mimarisi

Sadece devasa bir modelin muhakeme yeteneklerine güvenmek yerine Probably, Elias'ın "veri bilimi mech suit'i" olarak adlandırdığı yapıyı kullanıyor. Bu mimari, LLM'nin ilk çıktısının anında deterministik bir doğrulayıcı tarafından incelendiği karmaşık bir koşum sistemi (harness system) olarak işlev görüyor.

Eğer LLM, temel veri setiyle mükemmel bir şekilde örtüşmeyen bir sonuç üretirse, doğrulayıcı bunu reddeder. Kritik olan nokta, LLM'nin özellikle bu doğrulayıcıya karşı eğitilmesidir; bu da hız ve olgusal bütünlük için optimize edilmiş kapalı döngü bir sistem oluşturur. Bu yaklaşım temel bir ilkeye dayanır: mühendislik yoluyla bağlamı rafine ederek ve belirsizliği azaltarak, devasa bir hesaplama gücüne ihtiyaç duymadan modeli "doğru şeyi yapmaya" zorlayabilirsiniz.

Daha Küçük, Yerel Modellerle Verimlilik

Probably'nin yaklaşımının en önemli teknik sonuçlarından biri, daha küçük ve daha verimli modelleri kullanabilme yeteneğidir. "Mech suit" doğrulama ve bağlam rafine etme gibi ağır işleri üstlendiği için sistem, "en gelişmiş (frontier) modellerden dört sınıf daha zayıf" olan modeller üzerinde çalışabilir.

This shift has massive economic and operational benefits:

Challenging the Big AI Lab Incentive Model

Elias points out a structural misalignment in the current AI landscape: major AI labs are incentivized to build massive, general-purpose models that require frequent user corrections. Since these labs often charge based on token usage, more errors and more follow-up queries can actually increase revenue. By focusing on precision and "reducing ambiguity" through engineering rather than scale, Probably is carving out a niche for mission-critical AI applications where reliability is the only metric that matters.

Key Takeaways