Probably pozyskuje 9 mln USD na walkę z halucynacjami LLM dzięki inżynierii precyzyjnej
W miarę jak duże modele językowe (LLM) coraz bardziej integrują się z profesjonalnymi procesami pracy, branża mierzy się z uporczywą przeszkodą: tendencją nawet najbardziej zaawansowanych modeli do halucynowania. Startup Probably stawia czoła temu wyzwaniu, pozyskując 9 milionów dolarów w finansowaniu typu seed pod przewodnictwem Andreessen Horowitz, aby zbudować bardziej rygorystyczne, deterministyczne podejście do niezawodności AI.
Dążenie do 99,99% dokładności
Główną misją firmy Probably, kierowanej przez założyciela Petera Eliasa, jest zmniejszenie luki między probabilistyczną naturą LLM a standardem 99,99% dokładności oczekiwanym od systemów deterministycznych. W środowiskach o wysokiej stawce pojedynczy błąd merytoryczny może sprawić, że narzędzie AI stanie się bezużyteczne. Aby temu zaradzić, Probably odchodzi od przekonania, że dokładność jest wyłącznie funkcją wielkości modelu, i zamiast tego skupia się na „harness engineering”.
Flagowym produktem firmy jest narzędzie do data science, zaprojektowane do wyciągania wniosków z złożonych zbiorów danych. W przeciwieństwie do standardowych chatbotów, które udzielają odpowiedzi konwersacyjnych, narzędzie od Probably dostarcza każdą odpowiedź wraz z konkretnym cytatem i przejrzystym śladem audytowym, co pozwala użytkownikom zweryfikować logikę stojącą za każdym wynikiem.
Architektura „Data Science Mech Suit”
Zamiast polegać wyłącznie na zdolnościach rozumowania ogromnego modelu, Probably wykorzystuje coś, co Elias nazywa „data science mech suit”. Architektura ta działa jak rozbudowany system uprzęży, w którym początkowy wynik LLM jest natychmiast poddawany analizie przez deterministyczny walidator.
Jeśli LLM wygeneruje wynik, który nie jest w pełni zgodny z podstawowym zbiorem danych, walidator go odrzuca. Co kluczowe, LLM jest trenowany specjalnie pod kątem tego walidatora, co tworzy system zamkniętej pętli zoptymalizowany pod kątem szybkości i rzetelności faktograficznej. Podejście to opiera się na fundamentalnej zasadzie: poprzez doprecyzowanie kontekstu i zmniejszenie niejednoznaczności za pomocą inżynierii, można zmusić model do „robienia właściwych rzeczy” bez konieczności stosowania ogromnej mocy obliczeniowej.
Wydajność dzięki mniejszym, lokalnym modelom
Jedną z najważniejszych technicznych konsekwencji podejścia firmy Probably jest możliwość korzystania z mniejszych, bardziej wydajnych modeli. Ponieważ „mech suit” wykonuje najtrudniejszą pracę związaną z walidacją i doprecyzowaniem kontekstu, system może działać na modelach, które są „o cztery klasy słabsze od modeli typu frontier”.
This shift has massive economic and operational benefits:
- Reduced Token Costs: Smaller models significantly lower the per-query cost, a vital factor as enterprises look to optimize AI budgets.
- Local Execution: These lighter models can run on local hardware, such as desktop computers, rather than requiring expensive, high-latency data center connections.
- Scalability: The engine is designed to be extensible beyond data science into precision-sensitive sectors like accounting and medical services.
Challenging the Big AI Lab Incentive Model
Elias points out a structural misalignment in the current AI landscape: major AI labs are incentivized to build massive, general-purpose models that require frequent user corrections. Since these labs often charge based on token usage, more errors and more follow-up queries can actually increase revenue. By focusing on precision and "reducing ambiguity" through engineering rather than scale, Probably is carving out a niche for mission-critical AI applications where reliability is the only metric that matters.
Key Takeaways
- Deterministic Validation: Probably uses a "mech suit" architecture to check LLM outputs against a deterministic validator, aiming for 99.99% accuracy.
- Cost-Effective Engineering: By reducing ambiguity through better context engineering, the system can run on much smaller, cheaper models that can operate on local hardware.
- Precision-First Focus: The technology is designed to move AI into high-stakes, precision-sensitive industries like medicine and finance where hallucinations are unacceptable.