Zaufanie to nie skalar: Typowane pochodzenie (typed provenance) dla łańcuchów agentów

Myliłem się.

W moim ostatnim poście zasugerowałem użycie prostej flagi true lub false, aby śledzić, czy wynik działania agenta AI uległ pogorszeniu. Komentujący wskazał, dlaczego to rozwiązanie zawodzi. Typ boolean to za mało. Zaufanie to nie pojedyncza liczba.

Jeśli sprowadzisz zaufanie do jednej oceny, poniesiesz porażkę.

Wyobraź sobie dwa różne zadania korzystające z tych samych danych:

  • Streszczarka potrzebuje silnego modelu, ale może poradzić sobie ze starymi danymi.
  • Kalkulator cen potrzebuje świeżych danych, ale może poradzić sobie ze słabszym modelem.

Jeśli dane są stare i pochodzą ze słabego modelu, pojedyncza ocena zaufania wymusza zły wybór. Albo odrzucisz wszystko, albo dopuścisz do wystąpienia niebezpiecznych błędów.

Rozwiązaniem jest typowane pochodzenie (typed provenance).

Zamiast pojedynczej oceny, przesyłaj wektor danych. Ten wektor dokładnie śledzi, co i w jaki sposób poszło nie tak. Śledzisz różne osie:

  • Świeżość: Jak aktualne są dane?
  • Możliwości: Jak silny jest model?
  • Narzędzie: Czy narzędzia zadziałały?
  • Weryfikacja: Czy sprawdzono to pod kątem faktów?

Każdy krok w Twoim łańcuchu stosuje wtedy własne reguły. Streszczarka patrzy na wektor i mówi: „to jest w porządku”. Kalkulator cen patrzy na ten sam wektor i mówi: „to jest zbyt stare, nie podejmuj działań”.

Przenosi to zaufanie z właściwości danych na ocenę dokonywaną przez użytkownika tych danych.

Jak zbudować to bez nadmiernego komplikowania:

  • Użyj wartości minimalnej dla każdej osi. Nie wyciągaj średniej z ocen. Średnia ukrywa błędy.
  • Dodawaj oś tylko wtedy, gdy zmienia ona Twoje działanie naprawcze.
  • Jeśli błąd świeżości oznacza konieczność ponownego pobrania danych, jest to oś.
  • Jeśli błąd możliwości oznacza konieczność ponownego uruchomienia na lepszym modelu, jest to oś.
  • Jeśli dwa błędy prowadzą do tego samego rozwiązania, połącz je.

Niezawodność agentów to problem pochodzenia danych. Musisz śledzić rodowód każdej decyzji.

Źródło: https://dev.to/p0rt/trust-isnt-a-scalar-typed-provenance-for-agent-chains-229p

Opcjonalna społeczność edukacyjna: https://t.me/GyaanSetuAi