Prawdziwa architektura stojąca za rozrywką AI
Przestań pytać, czy AI zastąpi pisarzy lub studia. Te pytania nie pomogą Ci niczego zbudować.
Jeśli jesteś inżynierem lub architektem, musisz zadać inne pytanie. Jak wygląda backend, gdy treść jest tworzona na żądanie, a nie produkowana raz i dystrybuowana?
Model to najłatwiejsza część. Trudne są opóźnienia (latency), pochodzenie (provenance) i koszty.
1. Interaktywność to problem związany ze streamingiem
Generowanie wsadowe (batch generation) jest łatwe. Możesz wyrenderować klip w nocy. Ale jeśli użytkownik wchodzi w interakcję z postacią, odpowiedź musi nastąpić w ciągu 200 ms.
Aby osiągnąć ten cel, nie możesz po prostu wywołać API. Musisz zarządzać budżetem opóźnień (latency budget):
- Network round trip: 40 ms
- Tokenizacja: 10 ms
- Inferencja modelu: 110 ms
- Post-processing: 25 ms
- Margines jittera: 15 ms
Potrzebujesz rozmieszczenia na brzegu sieci (edge placement), ponownego wykorzystania KV-cache i dekodowania spekulatywnego (speculative decoding). Twój projekt AI staje się teraz projektem z zakresu systemów rozproszonych.
2. Pochodzenie (provenance) to nie coś, o czym myśli się na końcu
Gdy treść jest syntetyczna, musisz wiedzieć, kto ją stworzył i na czym została wytrenowana. Nie możesz tego naprawić później. Jeśli wygenerujesz milion zasobów bez ścieżki pochodzenia (lineage), ta historia przepadnie na zawsze.
Musisz wbudować pochodzenie w swój model danych. Rejestruj atrybucję i podpisy w momencie generowania. Przechowuj je w swoim schemacie. Pozwoli Ci to odpowiadać na pytania prawne lub dotyczące tantiem z prędkością zapytania (query speed).
3. Ekonomia to problem produkcyjny
Tekst generatywny opiera się na koszcie za token. Wideo generatywne opiera się na koszcie za minutę.
Minuta wideo w 4K ma realny koszt wyrażony w sekundach GPU. Większość firm prowadzi pilotaże, które wyglądają świetnie, ale zawodzą w skali, ponieważ koszt jest zbyt wysoki.
Aby wygrać, musisz instrumentować swoją inferencję niczym fabrykę. Śledź utylizację i wydajność (yield). Używaj najmniejszego modelu, który spełnia Twoje kryteria jakości. Buforuj (cache) wygenerowane segmenty, aby oszczędzać pieniądze.
Model trafia na nagłówki. Architektura decyduje o tym, co faktycznie trafia do użytku.
Podsumowanie na Twoją kolejną rewizję projektu:
- Traktuj interaktywność jako wyzwanie dla systemów strumieniowych.
- Spraw, aby pochodzenie było podpisanym, przechowywanym polem od pierwszego dnia.
- Mierz koszt za dostarczoną minutę, aby upewnić się, że Twoja funkcja przetrwa.
Opcjonalna społeczność edukacyjna: https://t.me/GyaanSetuAi
