𝗬𝗼𝘂𝗿 𝗔𝗜 𝗣𝗿𝗼𝘃𝗶𝗱𝗲𝗿 𝗜𝘀 𝗮 𝗦𝗶𝗻𝗴𝗹𝗲 𝗣𝗼𝗶𝗻𝘁 𝗼𝗳 𝗙𝗮𝗶𝗹𝘂𝗿𝗲
Jumaat lepas, Jabatan Perdagangan AS menghantar surat kepada Anthropic. Menjelang petang itu juga, Fable 5 dan Mythos 5 telah hilang.
Ia tidak dihentikan secara berperingkat (deprecated). Ia tidak dihadkan (throttled). Ia hilang begitu sahaja.
Panggilan API memulangkan ralat 404. Sesi langsung gagal di tengah-tengah perbualan. Aplikasi yang bergantung pada model tersebut berhenti berfungsi. Ini berlaku tiga hari selepas pelancaran. Tiada amaran dan tiada tempoh migrasi.
Kami bernasib baik kerana model-model tersebut masih baharu. Belum ada sesiapa yang membina kebergantungan mendalam terhadapnya. Bayangkan perkara ini berlaku kepada model yang anda gunakan setiap hari selama enam bulan.
Jika sepucuk surat kerajaan boleh menutup pangkalan data utama anda, adakah anda akan menjalankannya tanpa failover? Sudah tentu tidak. Namun, kebanyakan pasukan melakukan perkara ini dengan AI.
Banyak pasukan melayan AI seperti elektrik. Anda petik suis dan mengharapkan cahaya. Anda tidak memikirkan tentang sumber atau apa yang berlaku apabila bekalan elektrik terputus. Anda memilih satu model, menetapkan endpoint secara hardcode, dan melancarkannya.
Ini bukan kejuruteraan. Ini adalah seni bina berasaskan harapan (hope-driven architecture).
Model boleh hilang disebabkan oleh:
- Sebab-sebab kawal selia
- Perubahan polisi
- Isu geopolitik
Situasi Anthropic bukanlah pepijat (bug) atau kegagalan infrastruktur. Ia adalah suis pemati kawal selia (regulatory kill switch).
Anda mesti membina daya tahan (resilience) ke dalam lapisan model anda. Gunakan corak-corak ini:
- Abstraksikan panggilan model anda. Gunakan antara muka (interface) supaya aplikasi anda tidak peduli pembekal mana yang memberikan respons.
- Gunakan pelbagai pembekal. Menukar pembekal sepatutnya menjadi perubahan konfigurasi, bukannya penulisan semula kod secara keseluruhan.
- Gunakan model open-weight. Jika anda menjalankan model itu sendiri, tiada sesiapa yang boleh mematikannya dari jauh. Model-model ini bertindak seperti penjana elektrik apabila grid terputus.
- Laksanakan penurunan fungsi secara berperingkat (graceful degradation). Model yang lebih kecil atau lebih lama adalah lebih baik daripada aplikasi yang rosak.
Pantau kadar ralat anda. Jika ia melonjak, putuskan litar (trip the breaker) dan halakan trafik ke fallback anda.
Layan AI anda seperti mana-mana kebergantungan pengeluaran (production dependency) kritikal yang lain. Reka bentuk untuk kegagalan.
Adakah seni bina anda mengandaikan bahawa pembekal anda akan gagal? Jika tidak, anda berada dalam risiko.
Adakah anda telah membina fallback pelbagai pembekal ke dalam stack anda? Beritahu saya di ruangan komen.
Sumber: https://dev.to/aws/your-ai-provider-is-a-single-point-of-failure-26i2
Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi