AGI: Je, Tumefika?

Bado hatujafika kwenye AGI.

Mwaka mmoja uliopita, niliuliza ikiwa tumefikia Artificial General Intelligence. Wakati huo, modeli ya o3 ya OpenAI ilifikia hatua muhimu kwenye kipimo cha ARC-AGI-1. Ilionyesha ongezeko halisi katika uwezo wa kufikiri (reasoning).

Lakini nilijenga hoja wakati huo kwamba huu ulikuwa kituo cha mapumziko tu, siyo mwisho wa safari.

Nilikuwa sahihi.

Hadithi ya leo si kuhusu kuwasili kwa AGI. Hadithi hii ni ya kuvutia zaidi. Tumepita hatua ya roboti za mazungumzo (chatbots) rahisi. Sasa tupo katika enzi ya uwezo wa juu wa kufikiri (frontier reasoning) na mifumo ya mawakala (agent systems).

Hali ya sasa ya uwanja huu ni hii:

• Modeli ni bora zaidi katika kufikiri na kuandika kodi (coding). • Zinatumia zana na kuchakata muktadha mrefu kwa ufanisi zaidi. • Zinaweza kushughulikia ingizo za aina mbalimbali (multimodal) kama picha na sauti. • Ni muhimu zaidi kiuchumi kuliko wakati wowote uliopita.

Lakini bado zinakosa uwezo wa jumla kama wa binadamu.

Vipimo (benchmarks) vinaeleza ukweli. Wakati majaribio ya zamani kama MMLU yamefikia ukomo, majaribio mapya yanaonyesha mapungufu.

• ARC-AGI-1 ilikuwa mapinduzi makubwa kwa uwezo wa kufikiri. • ARC-AGI-2 inaonyesha kuwa ubunifu na uundaji (composition) bado ni vigumu sana. • ARC-AGI-3 inahamia kwenye mazingira ya mwingiliano ambapo modeli zinapata shida kuendana.

Pia tunaona mabadiliko katika jinsi modeli zinavyoongezeka ukubwa (scale). Sio tu kuhusu kuongeza data zaidi. Ukuzaji sasa unafanyika kupitia:

  • Ukubwa wa mafunzo ya awali (Pretraining scale).
  • Mafunzo ya baada ya mafunzo (Post-training) na kujifunza kwa kuimarisha (reinforcement learning).
  • Kufikiri wakati wa utambuzi (inference-time reasoning) na matumizi ya zana.

Modeli inayoweza kusimama, kuendesha kodi, na kurekebisha mpango ni tofauti na modeli inayotabiri neno linalofuata tu. Huu ni mwanzo wa mifumo ya mawakala (agentic systems).

Hata hivyo, pengo kubwa bado lipo: uaminifu (reliability).

Utafiti wa METR unaonyesha kuwa muda unaohitajika kwa ukamilishaji wa kazi wa kuaminika unakua. Unazidishwa mara mbili kila baada ya miezi michache. Lakini muda wa kazi wa dakika 50 si siku nzima ya kazi. Si wiki nzima ya utafiti wa kiotomatiki.

Tumetoka kwenye "model zinazojibu" hadi kwenye "model zinazofikiri kwa kutumia zana."

Tunajenga mifumo yenye uwezo mkubwa. Lakini mifumo hii mara nyingi ina upeo mpana lakini ni dhaifu. Zinaweza kutatua hisabati ya kiwango cha uzamili lakini zinashindwa kwenye mafumbo rahisi na mapya.

Msimamo wa kweli ni huu:

Hatujafika kwenye AGI. Lakini tupo karibu zaidi na kitu kitakachovuruga uchumi kuliko watu wengi walivyotarajia.

Tunajenga mifumo ya kufikiri ya matumizi ya jumla. Zinaonekana kuwa na akili ya kushangaza, lakini bado zinashindwa kwa njia zinazoonyesha kuwa hazina uwezo wa kweli wa binadamu wa kuendana na mazingira.

Hatua hiyo ilikuwa halisi. Msisimko uliopitiliza ulikuwa mkubwa. Kazi halisi sasa ni kuhusu kujenga uimara (robustness) na uwezo wa kujitegemea (autonomy).

Chanzo: https://dev.to/ernestohs/agi-are-we-there-yet-a-follow-up-1471

Jumuiya ya kujifunza ya hiari: https://t.me/GyaanSetuAi