Od jawnego CoT do niejawnego CoT
Modele AI rozwiązują trudne problemy, myśląc krok po kroku. Proces ten nazywany jest Chain of Thought lub CoT.
Większość modeli korzysta z jawnego CoT (Explicit CoT). Zapisują one każdą pojedynczą myśl przed udzieleniem odpowiedzi. Powoduje to, że model działa wolniej. Zużywa on również wiele tokenów.
Nowe badania wskazują na lepsze rozwiązanie. Modele mogą przejść na niejawne CoT (Implicit CoT). Oznacza to, że model internalizuje kroki rozumowania. Przetwarza logikę wewnątrz siebie, nie zapisując każdego słowa.
Ta zmiana zmienia sposób działania AI. Sprawia, że modele są szybsze i bardziej wydajne.
Jak to działa:
- Modele uczą się podążać za wzorcami logicznymi.
- Przenoszą one rozumowanie z wyjścia do warstw ukrytych.
- Model rozwiązuje złożone problemy przy użyciu mniejszej ilości tekstu.
Trenowanie modelu w celu internalizacji tych kroków wymaga specyficznych danych i metod. Pomaga to modelowi zachować dokładność przy jednoczesnym obniżeniu kosztów generowania.
Warto uważnie obserwować tę dziedzinę. Wydajne rozumowanie to kolejny krok dla dużych modeli językowych.
Opcjonalna społeczność edukacyjna: https://t.me/GyaanSetuAi