Przełamywanie AI Hivemind: Jak Flint walczy z myśleniem grupowym w modelach LLM

Choć duże modele językowe, takie jak ChatGPT i Claude, świetnie radzą sobie z programowaniem i badaniami, coraz częściej wpadają w pułapkę przewidywalnego „myślenia grupowego”. W miarę jak główne modele zbiegają się ku wysokoprawdopodobnym, powtarzalnym odpowiedziom, nowy startup próbuje wprowadzić niezbędną dywergencję do ekosystemu generatywnej sztucznej inteligencji.

Problem: Efekt „Sztucznego Umysłu Roju” (Artificial Hivemind)

Istotnym ograniczeniem w obecnym rozwoju LLM jest tendencja modeli do dążenia do najbardziej statystycznie prawdopodobnej odpowiedzi, co prowadzi do zjawiska nazywanego przez badaczy „Artificial Hivemind”. Nagrodzona na konferencji NeurIPS praca naukowa pt. „Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)” obnażyła tę głęboko zakorzenioną powtarzalność.

Zespół badawczy przetestował 25 różnych modeli LLM, w tym główne modele z USA oraz wersje open-source z Chin. Gdy poproszono o podanie metafory „czasu”, zdecydowana większość z 1250 odpowiedzi skupiła się na kliszach takich jak „Czas to rzeka” lub „Czas to tkacz”. Ten brak różnorodności to nie tylko drobna usterka; to produkt uboczny trenowania modeli na podobnych zbiorach danych, gdzie głównym celem jest maksymalizacja niezawodności i spójności. OpenAI przyznało, że dążenie do nowatorstwa może czasem prowadzić do słabszych, mniej wiarygodnych odpowiedzi, dlatego większość modeli domyślnie generuje bezpieczne, „wysokoprawdopodobne” wyniki.

Wchodzi Flint: Priorytetyzacja różnorodności nad przewidywalnością

Australijski startup Springboards rzuca wyzwanie temu status quo za pomocą swojego nowego modelu, Flint. W przeciwieństwie do głównych modeli, które za wszelką cenę walczą z halucynacjami, CEO Springboards, Pip Bingemann, twierdzi, że pewien stopień nieprzewidywalnej dywergencji jest niezbędny w zadaniach kreatywnych.

W praktycznych testach różnica w rozkładzie wyników jest uderzająca:

  • Losowość: Gdy poproszono o wylosowanie liczby, ChatGPT i Claude często wybierały „7”, podczas gdy Flint podawał liczby o wysokiej precyzji i niestandardowe, takie jak „3,7916”.
  • Kreatywny branding: Na prośbę o hasło reklamowe dla New Balance, Claude i ChatGPT wygenerowały „Run your way”, podczas gdy Flint zaproponował odmienną alternatywę: „Built to last, run to win”.
  • Dobór rzeczowników: Podczas gdy główne modele skłaniają się ku „bezpiecznym” markom, takim jak Toyota czy Honda, Flint wykazuje szerszy zakres, wybierając mniej przewidywalne opcje, jak Ford F-150.

Kreatywne narzędzie dla profesjonalistów

Springboards nie buduje jedynie samodzielnego modelu; opracowują specjalistyczne narzędzie dla profesjonalistów z branży reklamowej i marketingowej. Platforma pozwala użytkownikom agregować wyniki z wielu modeli — w tym ChatGPT i Claude — i łączyć je w celu syntezy nowych pomysłów. Flint służy jako „kreatywna katapulta” w tym ekosystemie, zaprojektowana specjalnie po to, by wypychać użytkowników poza ich dotychczasowe schematy myślowe.

Zoe Scaman, Chief Strategy Officer w 77X, zauważyła, że podczas gdy główne modele często sugerują te same wyświechtane rozwiązania (takie jak „nauka edukacji finansowej w zabawny sposób”), Flint oferuje radykalne zmiany perspektywy, sugerując na przykład całkowity rebranding samego pojęcia gromadzenia majątku.

Kluczowe wnioski

  • Homogeniczność LLM: Główne modele zbiegają się ku podobnym, przewidywalnym odpowiedziom ze względu na zbliżone metodologie trenowania, co tworzy efekt „Artificial Hivemind”.
  • Podejście Flint: Model Flint od Springboards priorytetyzuje różnorodność i dywergencję odpowiedzi, co czyni go bardziej odpowiednim do burzy mózgów i strategii kreatywnej niż standardowe modele.
  • Kompromis między niezawodnością a nowatorstwem: Branża stoi przed fundamentalnym napięciem między niezawodnością modelu (pozostawaniem w granicach wysokiego prawdopodobieństwa) a kreatywnym nowatorstwem (wykorzystywaniem mniej prawdopodobnych, różnorodnych wyników).