272명의 전문가가 위험을 지목했다. 하지만 아무도 그 메커니즘을 지목하지 않았다.

MIT의 한 연구가 전 세계 전문가 272명을 대상으로 설문 조사를 실시했다. 이들은 AI 위험을 조사했으며, 결과는 명확하다.

24개의 AI 위험 영역 중 18개 영역에서 5년 내에 파멸적인 결과가 발생할 확률이 최소 10%에 달한다.

여기서 파멸적 결과란 다음을 의미한다:

  • 100만 명 이상의 사망자 발생.
  • 1,000억 달러 이상의 피해.
  • 민주적 규범의 붕괴.

가장 큰 위험 요소는 위험한 능력, 경쟁 역학, 무기화, 권력 집중, 그리고 허위 정보이다.

이 연구는 책임의 격차를 드러낸다. AI 위험으로 고통받는 이들은 대중이지만, 위험을 해결할 수 있는 이들은 개발자와 관리자들이다. 항공이나 원자력 같은 다른 산업에서는 이러한 격차를 메우기 위해 강제적인 표준과 법적 책임을 활용한다. 하지만 AI 분야에서는 이러한 메커니즘이 아직 존재하지 않는다.

더 깊은 격차가 존재한다. 바로 실패를 예측하는 연구자와 시스템을 구축하는 엔지니어 사이의 격차다.

연구자들은 논문을 쓰고, 엔지니어들은 블로그 포스트와 벤치마크를 읽는다. 이들은 같은 언어를 사용하지 않는다. 엔지니어는 성능 향상을 보지만, 연구자는 파멸적인 위험을 본다. 그들 사이에는 가교가 없다.

이 연구는 위험을 지목하고 있지만, 그 위험을 초래하는 엔지니어링 실패 요인은 지목하지 않는다.

예를 들어:

  • 멀티 에이전트(Multi-agent) 위험: 공유 프로토콜의 부재로 인해 시스템 충돌이 발생한다.
  • 경쟁 역학: 제품 출시를 서두르다 보니 팀들이 독립적인 검증 과정을 생략한다. 대신 더 빠르지만 안전하지 않은 자체 검증(self-verification)을 사용한다.
  • 보안 취약점: 팀들이 코드 스캔을 위해 LLM을 사용하지만, 설정 및 인프라 위험은 놓치고 만다.

안정적인 시스템에는 다섯 가지 요소가 필요하다:

  • 도구 (Tool, 모델).
  • 엔진 (Engine, 선언된 의도).
  • 변속기 (Transmission, 계약 및 CI/CD).
  • 제어 장치 (Control Unit, 독립적인 오라클).
  • 케이싱 (Casing, 강제된 경계).

대부분의 AI 시스템에는 제어 장치와 케이싱이 결여되어 있다. 이들은 자발적인 가드레일에 의존한다. 하지만 이러한 가드레일은 모델이 발전함에 따라 종종 무력화된다.

업계는 10%의 파멸 확률을 수용 가능한 위험으로 취급한다. 하지만 그렇지 않다. 개발자의 자발적인 조치만으로는 충분하지 않다. 경쟁은 안전 단계를 건너뛰게 만드는 유인을 제공한다.

우리에게 필요한 것은 단순한 권고가 아니라 기계적인 강제성이다. 예측된 실패가 실제로 일어나기 전에 위험 연구와 엔지니어링 실무 사이의 격차를 메워야 한다.

출처: https://dev.to/bala_paranj_059d338e44e7e/272-experts-named-the-risks-nobody-named-the-mechanisms-4jb

선택적 학습 커뮤니티: https://t.me/GyaanSetuAi