Przestaliśmy ufać modelom. Potem przestaliśmy ufać własnym liczbom.

Przestałem gonić za lepszymi modelami AI. Myślałem, że silniejszy model naprawi mój system. Tak się nie stało. Problemem nie był model. Problemem był system.

Wtedy zdałem sobie sprawę z czegoś gorszego. Nie mogłem ufać nawet własnym pomiarom.

Zauważyłem trzy różne porażki:

  • Zestaw testów, który przechodził, mierząc niewłaściwe środowisko.
  • Bramka, która blokowała pracę, ale podawała błędne statystyki.
  • Agent, który raportował błędną liczbę.

Każda porażka wyglądała jak sukces, dopóki nie przyjrzałem się bliżej. Moje narzędzia do weryfikacji kłamały.

Moim pierwszym odruchem było wyeliminowanie wszelkiej niepewności. Chciałem usunąć każdy element probabilistyczny. Chciałem, aby wszystko było deterministyczne.

To był błąd.

Jeśli usuniesz całą niepewność, usuniesz wartość AI. AI ma za zadanie proponować pomysły i szukać rozwiązań. Nie uzyskasz tego za pomocą sztywnej reguły.

Rozwiązaniem nie jest zakazanie niepewności. Rozwiązaniem jest jej właściwe umiejscowienie.

System potrzebuje dwóch różnych miejsc:

  1. Miejsce Proponujące To miejsce służy do eksploracji i sugerowania. Wymaga niedeterminizmu. Jeśli model zasugeruje błędną poprawkę, koszt jest niski, ponieważ nie podjął jeszcze żadnej decyzji.

  2. Miejsce Orzekające To miejsce decyduje, czy test przechodzi, lub czy reguła jest spełniona. To miejsce musi być deterministyczne. Musi być powtarzalne i sprawdzalne.

Porażki w moim systemie wynikały z tego, że umieściłem niewłaściwe rzeczy w miejscu orzekającym. Pozwoliłem niepewnym procesom podejmować ostateczne decyzje.

Zasada jest prosta:

  • Pozwól niepewnym częściom na eksplorację.
  • Pozwól deterministycznym częściom na orzekanie.

Nie próbuj sprawić, aby cały system był pewny. Zamiast tego upewnij się, że Twoi sędziowie są solidni. Deterministyczny sędzia, który się myli, jest groźniejszy niż probabilistyczny. Błędny sędzia tworzy stały błąd, który z czasem przestajesz kwestionować.

Każda warstwa, która buduje Twoje zaufanie, musi zostać najpierw zmierzona. Ten pomiar powinien opierać się na czymś deterministycznym, co możesz zweryfikować.

Jak wyznaczasz granicę między proponowaniem a orzekaniem w swoich systemach AI? Gdzie upierasz się przy determinizmie?

Source: https://dev.to/josephyeo/we-stopped-trusting-models-then-we-stopped-trusting-our-own-numbers-1611

Optional learning community: https://t.me/GyaanSetuAi