Wąskim gardłem mojego agenta AI nie był model. Była nim architektura.

Trzy miesiące temu proces u jednego z klientów uległ awarii.

Używałem jednego agenta do klasyfikacji, tagowania i podsumowywania dokumentów. Przy 50 dokumentach dziennie działało to dobrze. Potem liczba dokumentów wzrosła do 500.

Agent potrzebował 40 minut na każdą partię. Nie skalował się. Padł.

Nie przeszedłem na większy model. Zamiast tego podzieliłem agenta na trzy wyspecjalizowane role. Role te działały równolegle.

Przepustowość wzrosła z 40 minut do 4 minut. Model pozostał ten sam. Zmieniła się architektura.

Większość programistów popełnia błąd, budując agentów sekwencyjnych. Jeden agent wykonuje wszystko po kolei.

Jeśli masz 500 dokumentów i trzy zadania na dokument, wykonujesz 1500 wywołań LLM jedno po drugim. Nawet przy 2 sekundach na wywołanie, czekasz 50 minut. Twój model spędza większość czasu na czekaniu.

Rozwiązaniem jest użycie wyspecjalizowanych agentów działających równolegle.

  • Używaj mniejszych, skoncentrowanych promptów systemowych.
  • U