AI 엔터테인먼트 이면의 진짜 아키텍처
AI가 작가나 스튜디오를 대체할 것인지 묻는 것을 멈추십시오. 그런 질문은 무언가를 구축하는 데 도움이 되지 않습니다.
엔지니어나 아키텍트라면 다른 질문을 던져야 합니다. 콘텐츠가 한 번 제작되어 배포되는 방식이 아니라, 온디맨드(on demand)로 생성될 때 백엔드는 어떤 모습이어야 할까요?
모델은 쉬운 부분입니다. 진짜 어려운 부분은 지연 시간(latency), 출처(provenance), 그리고 비용(cost)입니다.
1. 상호작용은 스트리밍 문제입니다
배치 생성(Batch generation)은 쉽습니다. 클립 하나를 밤새 렌더링할 수 있으니까요. 하지만 사용자가 캐릭터와 상호작용한다면, 응답은 200ms 이내에 이루어져야 합니다.
이 목표를 달성하려면 단순히 API를 호출하는 것만으로는 부족합니다. 다음과 같이 지연 시간 예산(latency budget)을 관리해야 합니다:
- 네트워크 왕복 시간(Network round trip): 40ms
- 토큰화(Tokenization): 10ms
- 모델 추론(Model inference): 110ms
- 후처리(Post-processing): 25ms
- 지터 마진(Jitter margin): 15ms
에지 배치(edge placement), KV-캐시 재사용(KV-cache reuse), 그리고 투기적 디코딩(speculative decoding)이 필요합니다. 이제 당신의 AI 프로젝트는 분산 시스템 프로젝트가 된 것입니다.
2. 출처(Provenance)는 사후 고려 사항이 아닙니다
콘텐츠가 합성된(synthetic) 것이라면, 누가 만들었는지 그리고 무엇으로 학습되었는지 반드시 알아야 합니다. 이는 나중에 수정할 수 있는 문제가 아닙니다. 계보(lineage) 없이 백만 개의 에셋을 생성한다면, 그 이력은 영원히 사라집니다.
데이터 모델에 출처를 내재화해야 합니다. 생성되는 순간에 기여도(attribution)와 서명(signature)을 캡처하십시오. 이를 스키마에 저장하십시오. 이렇게 하면 법적 문제나 로열티 관련 질문에 쿼리 속도로 즉각 대응할 수 있습니다.
3. 경제성은 제조 문제입니다
생성형 텍스트는 토큰당 비용을 사용합니다. 생성형 비디오는 분당 비용을 사용합니다.
4K 비디오 1분은 GPU-초(GPU-seconds) 단위의 실제 비용을 발생시킵니다. 대부분의 기업은 겉보기에는 훌륭한 파일럿 프로젝트를 운영하지만, 비용이 너무 높아 확장(scale) 단계에서 실패합니다.
승리하려면 추론(inference) 과정을 공장처럼 계측(instrument)해야 합니다. 가동률(utilization)과 수율(yield)을 추적하십시오. 품질 기준을 충족하는 가장 작은 모델을 사용하십시오. 비용 절감을 위해 생성된 세그먼트를 캐싱하십시오.
모델은 헤드라인을 장식하지만, 실제로 제품을 출시(ship)할 수 있게 만드는 것은 아키텍처입니다.
다음 설계 검토(design review)를 위한 요약:
- 상호작용을 스트리밍 시스템의 과제로 취급하십시오.
- 첫날부터 출처를 서명 및 저장 가능한 필드로 만드십시오.
- 기능이 지속 가능하도록 제공된 분당 비용을 측정하십시오.
Optional learning community: https://t.me/GyaanSetuAi
