AGI: Adakah Kita Sudah Sampai?

Kita belum mencapai AGI lagi.

Setahun yang lalu, saya bertanya sama ada kita telah mencapai Kecerdasan Am Buatan (Artificial General Intelligence). Pada masa itu, model o3 daripada OpenAI mencapai pencapaian besar dalam penanda aras ARC-AGI-1. Ia menunjukkan lonjakan sebenar dalam penaakulan.

Namun, saya berhujah ketika itu bahawa ini hanyalah satu persinggahan, bukannya destinasi akhir.

Saya betul.

Cerita hari ini bukan tentang ketibaan AGI. Ceritanya lebih menarik. Kita telah melangkaui bot sembang yang ringkas. Kita kini berada dalam era penaakulan termaju (frontier reasoning) dan sistem ejen.

Berikut adalah keadaan semasa bidang ini:

• Model-model kini jauh lebih baik dalam penaakulan dan pengekodan. • Ia menggunakan alatan dan memproses konteks yang panjang dengan lebih berkesan. • Ia boleh mengendalikan input multimodal seperti imej dan audio. • Ia lebih berguna dari segi ekonomi berbanding sebelum ini.

Namun, ia masih kekurangan keumuman (generality) seperti manusia.

Penanda aras menceritakan kisah yang sebenar. Walaupun ujian lama seperti MMLU sudah tepu, ujian baharu menunjukkan jurang yang ada.

• ARC-AGI-1 merupakan satu kejayaan besar untuk penaakulan. • ARC-AGI-2 menunjukkan bahawa kebaharuan (novelty) dan komposisi masih sangat sukar. • ARC-AGI-3 beralih ke persekitaran interaktif di mana model bergelut untuk menyesuaikan diri.

Kita juga melihat peralihan dalam cara model diskalakan. Ia bukan lagi sekadar tentang lebih banyak data. Penskalaan kini berlaku melalui:

  • Skala pra-latihan (pretraining).
  • Pasca-latihan dan pembelajaran pengukuhan (reinforcement learning).
  • Penaakulan masa inferens dan penggunaan alatan.

Model yang boleh berhenti seketika, menjalankan kod, dan menyemak semula rancangan adalah berbeza daripada model yang hanya meramalkan perkataan seterusnya. Inilah kebangkitan sistem ejen (agentic systems).

Walau bagaimanapun, jurang besar masih wujud: kebolehpercayaan.

Penyelidikan METR menunjukkan bahawa ufuk masa untuk penyelesaian tugasan yang boleh dipercayai semakin berkembang. Ia berganda setiap beberapa bulan. Tetapi ufuk tugasan selama 50 minit bukanlah satu hari bekerja yang penuh. Ia bukan seminggu penyelidikan autonomi.

Kita telah beralih daripada "model yang menjawab" kepada "model yang menaakul dengan alatan."

Kita sedang membina sistem yang sangat berkemampuan. Tetapi sistem ini sering kali luas namun rapuh. Ia boleh menyelesaikan matematik tahap pascasiswazah tetapi gagal dalam teka-teki baharu yang ringkas.

Pendirian yang jujur adalah begini:

Kita belum mencapai AGI. Tetapi kita jauh lebih dekat dengan sesuatu yang disruptif secara ekonomi berbanding jangkaan kebanyakan orang.

Kita sedang membina sistem penaakulan tujuan umum. Ia kelihatan sangat pintar, namun ia masih gagal dalam cara yang membuktikan ia kekurangan keupayaan adaptasi manusia yang sebenar.

Pencapaian tersebut adalah nyata. Hype yang diberikan adalah berlebihan. Kerja sebenar sekarang adalah tentang membina keteguhan (robustness) dan autonomi.

Sumber: https://dev.to/ernestohs/agi-are-we-there-yet-a-follow-up-1471

Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi