Probably Raises $9M to Combat LLM Hallucinations with Precision Engineering

📅2 hours ago⏱3 min read

In this article

Probably, 정밀 엔지니어링을 통해 LLM 환각 현상에 대응하고자 900만 달러 투자 유치

거대 언어 모델(LLM)이 전문적인 워크플로우에 점점 더 통합됨에 따라, 업계는 지속적인 장애물에 직면해 있습니다. 바로 가장 진보된 모델조차 환각(hallucination)을 일으키는 경향이 있다는 점입니다. 스타트업 Probably는 AI 신뢰성에 대한 더욱 엄격하고 결정론적인(deterministic) 접근 방식을 구축하기 위해 Andreessen Horowitz가 주도한 900만 달러 규모의 시드 펀딩을 확보하며 이 과제에 정면으로 맞서고 있습니다.

99.99% 정확도를 향하여

창립자 Peter Elias가 이끄는 Probably의 핵심 미션은 LLM의 확률론적 특성과 결정론적 시스템에 기대되는 99.99%의 정확도 표준 사이의 간극을 메우는 것입니다. 리스크가 큰 환경에서는 단 한 번의 사실 오류만으로도 AI 도구가 무용지물이 될 수 있습니다. 이를 해결하기 위해 Probably는 정확도가 단순히 모델 크기에 따라 결정된다는 생각에서 벗어나 "하네스 엔지니어링(harness engineering)"에 집중하고 있습니다.

이 회사의 주력 제품은 복잡한 데이터 세트에서 인사이트를 추출하도록 설계된 데이터 과학 도구입니다. 대화형 응답을 제공하는 일반적인 챗봇과 달리, Probably의 도구는 모든 답변에 구체적인 인용과 투명한 감사 추적(audit trail)을 제공하여 사용자가 모든 출력 결과의 논리를 검증할 수 있게 합니다.

"데이터 과학 메카 슈트(Data Science Mech Suit)" 아키텍처

Probably는 거대 모델의 추론 능력에만 의존하는 대신, Elias가 "데이터 과학 메카 슈트(data science mech suit)"라고 부르는 방식을 활용합니다. 이 아키텍처는 LLM의 초기 출력이 결정론적 검증기(deterministic validator)에 의해 즉시 검토되는 정교한 하네스 시스템 역할을 합니다.

만약 LLM이 기반 데이터 세트와 완벽하게 일치하지 않는 결과를 생성하면, 검증기가 이를 거부합니다. 결정적으로, LLM은 이 검증기를 대상으로 특별히 학습되어 속도와 사실적 무결성에 최적화된 폐쇄 루프(closed-loop) 시스템을 구축합니다. 이 접근 방식은 다음과 같은 근본적인 원칙에 기반합니다. 엔지니어링을 통해 컨텍스트를 정교화하고 모호성을 줄임으로써, 막대한 계산적 무력(brute force)을 사용하지 않고도 모델이 "올바른 일"을 하도록 강제할 수 있다는 것입니다.

더 작고 로컬한 모델을 통한 효율성

Probably 방식의 가장 중요한 기술적 시사점 중 하나는 더 작고 효율적인 모델을 사용할 수 있다는 점입니다. "메카 슈트"가 검증과 컨텍스트 정교화라는 힘든 작업을 처리하기 때문에, 이 시스템은 "프런티어 모델(frontier models)보다 네 단계 낮은(four classes weaker)" 수준의 모델에서도 작동할 수 있습니다.

이러한 변화는 막대한 경제적 및 운영적 이점을 제공합니다:

토큰 비용 절감: 더 작은 모델은 쿼리당 비용을 크게 낮추며, 이는 기업들이 AI 예산을 최적화하려는 상황에서 매우 중요한 요소입니다.
로컬 실행: 이러한 경량 모델은 값비싸고 지연 시간이 긴 데이터 센터 연결을 필요로 하는 대신, 데스크톱 컴퓨터와 같은 로컬 하드웨어에서 실행될 수 있습니다.
확장성: 이 엔진은 데이터 과학을 넘어 회계 및 의료 서비스와 같이 정밀도가 중요한 분야로 확장할 수 있도록 설계되었습니다.

거대 AI 연구소의 인센티브 모델에 도전하다

Elias는 현재 AI 환경의 구조적 불일치를 지적합니다. 주요 AI 연구소들은 빈번한 사용자 수정을 필요로 하는 거대하고 범용적인 모델을 구축하도록 유도되는 인센티브 구조를 가지고 있습니다. 이러한 연구소들은 종종 토큰 사용량을 기준으로 비용을 청구하기 때문에, 오류가 많아지고 후속 질문이 늘어날수록 오히려 수익이 증가할 수 있습니다. Probably는 규모의 확장보다는 엔지니어링을 통한 정밀도 향상과 "모호성 감소"에 집중함으로써, 신뢰성이 유일한 척도가 되는 미션 크리티컬(mission-critical) AI 애플리케이션 분야에서 독보적인 입지를 구축하고 있습니다.

핵심 요약

결정론적 검증(Deterministic Validation): Probably는 '메카 슈트(mech suit)' 아키텍처를 사용하여 LLM 출력을 결정론적 검증기와 대조함으로써 99.99%의 정확도를 목표로 합니다.
비용 효율적인 엔지니어링: 더 나은 컨텍스트 엔지니어링을 통해 모호성을 줄임으로써, 시스템은 로컬 하드웨어에서 작동할 수 있는 훨씬 더 작고 저렴한 모델에서도 실행될 수 있습니다.
정밀도 우선 집중: 이 기술은 환각(hallucination) 현상이 용납되지 않는 의료 및 금융과 같이 리스크가 크고 정밀도가 중요한 산업으로 AI를 확장할 수 있도록 설계되었습니다.

Probably Raises $9M to Combat LLM Hallucinations with Precision Engineering

Probably, 정밀 엔지니어링을 통해 LLM 환각 현상에 대응하고자 900만 달러 투자 유치

99.99% 정확도를 향하여

"데이터 과학 메카 슈트(Data Science Mech Suit)" 아키텍처

더 작고 로컬한 모델을 통한 효율성

거대 AI 연구소의 인센티브 모델에 도전하다

핵심 요약

Continue reading

𝗙𝗶𝘅𝗶𝗻𝗴 𝗔𝗜 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗶𝗼𝗻𝘀

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

AI 레드 티밍: 적대적 위험으로부터 거대 언어 모델 보호하기

𝗠𝗔 𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧 𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀

효율적인 LLM 서빙을 향하여