Dlaczego agenci AI do kodowania nie powinni używać okien czatu

Każde narzędzie AI, które otwieram, wygląda tak samo. To migający kursor w polu tekstowym. Claude Code i Codex używają tego samego interfejsu, którego używaliśmy do botów IRC w 1999 roku.

Czat to łatwy sposób na budowanie. Dzięki niemu dema wyglądają dobrze. Ale czat to tylko rozwiązanie tymczasowe. Prawdziwym celem nie jest lepsze okno czatu. Celem jest całkowita rezygnacja z okna czatu.

Interfejs czatu oddaje pracę z powrotem Tobie.

Musisz wiedzieć, o co zapytać. Musisz to dobrze sformułować. Musisz czytać długie akapity i przekładać je na działanie. Model zajmuje się myśleniem, ale to Ty wykonujesz pracę interfejsową w swojej głowie.

To problem dla agentów do kodowania. Kodowanie jest przestrzenne i strukturalne. Pracujesz z plikami, różnicami (diffami) i grafami zależności. Żadna z tych rzeczy nie jest akapitem. Próba zrozumienia kodu poprzez strumień tekstu jest jak czytanie mapy poprzez słuchanie kogoś, kto opisuje ją przez telefon.

Kiedy agent refaktoryzuje funkcję i mówi Ci w trzech zdaniach, co zmienił, to jest to praca domowa. A nie pomoc.

Model może generować kod, układy i komponenty. Powinien generować interfejs do pracy, zamiast opisu tej pracy.

Zamiast podsumowania, daj mi widok diff z przyciskami akceptacji i odrzucenia.

Zamiast pytać „co wywołało tę funkcję”, pokaż mi wykres wywołań (call graph), w który mogę kliknąć.

Zamiast wyznawania winy po dotknięciu dwunastu plików, pokaż mi listę kontrolną tych plików, zanim zacznie działać.

Interfejs powinien być płynnym wynikiem działania modelu. UI powinno zmieniać się w zależności od zadania. Powinno dopasowywać się do decyzji, którą musisz podjąć w danej chwili.

Chodzi o zaufanie.

Czat ukrywa agenta za słowami. Jeśli agent mówi „zaktualizowałem testy”, musisz mu uwierzyć na słowo. Albo ufasz mu ślepo, albo sam przeszukujesz pliki. Oba rozwiązania zawodzą.

Wygenerowany interfejs ułatwia inspekcję pracy. Diff jest tuż obok. Plan jest tuż obok. Agent przestaje mówić „zaufaj mi”, a zaczyna mówić „zweryfikuj to w dwie sekundy”.

Wiem, że czat ma wartość. Język radzi sobie z niejednoznacznością. Czasami słowa są jedynym sposobem na wyrażenie złożonej idei.

Rozwiązaniem nie jest usunięcie języka. Należy używać języka jako punktu wejścia, a wygenerowanego UI jako odpowiedzi.

Wpisz swoje żądanie zwykłymi słowami. Natychmiast otrzymaj odpowiedni interfejs dla tego żądania. Język wchodzi, interfejs wychodzi. Czat to drzwi wejściowe, a nie cały dom.

Spędziliśmy lata, próbując budować lepsze produkty czatowe. Skupialiśmy się na pamięci i szybkości. Ale zostaliśmy zamknięci w tym samym małym polu tekstowym.

Prawdziwy przełom to nie lepsza odpowiedź w okienku. Przełomem jest rozpuszczenie tego okienka. Model powinien podać Ci dokładnie taką powierzchnię, której potrzebujesz, aby podjąć kolejną decyzję.

Agenci są wystarczająco inteligentni. Musimy tylko poprosić ich, aby przestali mówić, a zaczęli budować narzędzia, których potrzebujemy.

Źródło: https://dev.to/nishkarsh_gupta/why-ai-coding-agent-shouldnt-hand-us-a-chat-box-3ccj

Opcjonalna społeczność edukacyjna: https://t.me/GyaanSetuAi