Prawdziwa architektura stojąca za rozrywką AI

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial2 tygodnie temu2min read

In this article

Prawdziwa architektura stojąca za rozrywką AI

Przestań pytać, czy AI zastąpi pisarzy lub studia. Te pytania nie pomogą Ci niczego zbudować.

Jeśli jesteś inżynierem lub architektem, musisz zadać inne pytanie. Jak wygląda backend, gdy treść jest tworzona na żądanie, a nie produkowana raz i dystrybuowana?

Model to najłatwiejsza część. Trudne są opóźnienia (latency), pochodzenie (provenance) i koszty.

1. Interaktywność to problem związany ze streamingiem

Generowanie wsadowe (batch generation) jest łatwe. Możesz wyrenderować klip w nocy. Ale jeśli użytkownik wchodzi w interakcję z postacią, odpowiedź musi nastąpić w ciągu 200 ms.

Aby osiągnąć ten cel, nie możesz po prostu wywołać API. Musisz zarządzać budżetem opóźnień (latency budget):

Network round trip: 40 ms
Tokenizacja: 10 ms
Inferencja modelu: 110 ms
Post-processing: 25 ms
Margines jittera: 15 ms

Potrzebujesz rozmieszczenia na brzegu sieci (edge placement), ponownego wykorzystania KV-cache i dekodowania spekulatywnego (speculative decoding). Twój projekt AI staje się teraz projektem z zakresu systemów rozproszonych.

2. Pochodzenie (provenance) to nie coś, o czym myśli się na końcu

Gdy treść jest syntetyczna, musisz wiedzieć, kto ją stworzył i na czym została wytrenowana. Nie możesz tego naprawić później. Jeśli wygenerujesz milion zasobów bez ścieżki pochodzenia (lineage), ta historia przepadnie na zawsze.

Musisz wbudować pochodzenie w swój model danych. Rejestruj atrybucję i podpisy w momencie generowania. Przechowuj je w swoim schemacie. Pozwoli Ci to odpowiadać na pytania prawne lub dotyczące tantiem z prędkością zapytania (query speed).

3. Ekonomia to problem produkcyjny

Tekst generatywny opiera się na koszcie za token. Wideo generatywne opiera się na koszcie za minutę.

Minuta wideo w 4K ma realny koszt wyrażony w sekundach GPU. Większość firm prowadzi pilotaże, które wyglądają świetnie, ale zawodzą w skali, ponieważ koszt jest zbyt wysoki.

Aby wygrać, musisz instrumentować swoją inferencję niczym fabrykę. Śledź utylizację i wydajność (yield). Używaj najmniejszego modelu, który spełnia Twoje kryteria jakości. Buforuj (cache) wygenerowane segmenty, aby oszczędzać pieniądze.

Model trafia na nagłówki. Architektura decyduje o tym, co faktycznie trafia do użytku.

Podsumowanie na Twoją kolejną rewizję projektu:

Traktuj interaktywność jako wyzwanie dla systemów strumieniowych.
Spraw, aby pochodzenie było podpisanym, przechowywanym polem od pierwszego dnia.
Mierz koszt za dostarczoną minutę, aby upewnić się, że Twoja funkcja przetrwa.

Źródło: https://dev.to/sauvast/the-real-architecture-behind-ai-entertainment-latency-provenance-and-cost-per-minute-bg9

Opcjonalna społeczność edukacyjna: https://t.me/GyaanSetuAi

Prawdziwa architektura stojąca za rozrywką AI

Prawdziwa architektura stojąca za rozrywką AI

1. Interaktywność to problem związany ze streamingiem

2. Pochodzenie (provenance) to nie coś, o czym myśli się na końcu

3. Ekonomia to problem produkcyjny

Continue reading

𝗧𝗵𝗲 𝗠𝗼𝗿𝗲 𝗔𝗜 𝗪𝗿𝗶𝘁𝗲𝘀 𝗖𝗼𝗱𝗲, 𝗧𝗵𝗲 𝗠𝗼𝗿𝗲 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲 𝗠𝗮𝘁𝘁𝗲𝗿𝘀

The Frontend Engineer Will Not Be Replaced by AI

Programista: Od technika do architekta produktu