𝗣𝗲𝗻𝘆𝗲𝗱𝗶𝗮 𝗔𝗜 𝗔𝗻𝗱𝗮 𝗔𝗱𝗮𝗹𝗮𝗵 𝗧𝗶𝘁𝗶𝗸 𝗞𝗲𝗴𝗮𝗴𝗮𝗹𝗮𝗻 𝗧𝘂𝗻𝗴𝗴𝗮𝗹
Jumat lalu, Departemen Perdagangan AS mengirimkan surat kepada Anthropic. Menjelang malam harinya, Fable 5 dan Mythos 5 menghilang.
Model-model tersebut tidak didepresiasi. Tidak ada pembatasan (throttling). Mereka hilang begitu saja.
Panggilan API mengembalikan error 404. Sesi langsung gagal di tengah percakapan. Aplikasi yang bergantung pada model-model tersebut berhenti berfungsi. Ini terjadi tiga hari setelah peluncuran. Tidak ada peringatan dan tidak ada jendela migrasi.
Kami beruntung karena model-model tersebut masih baru. Belum ada yang membangun dependensi mendalam pada model tersebut. Bayangkan hal ini terjadi pada model yang Anda gunakan setiap hari selama enam bulan.
Jika sebuah surat pemerintah dapat mematikan database utama Anda, apakah Anda akan menjalankannya tanpa failover? Tentu tidak. Namun, sebagian besar tim melakukan hal ini dengan AI.
Banyak tim memperlakukan AI seperti listrik. Anda menekan sakelar dan mengharapkan cahaya. Anda tidak memikirkan sumbernya atau apa yang terjadi saat aliran listrik terhenti. Anda memilih sebuah model, melakukan hardcode pada endpoint, lalu meluncurkannya.
Ini bukan rekayasa teknik. Ini adalah arsitektur berbasis harapan (hope-driven architecture).
Model dapat menghilang karena:
- Alasan regulasi
- Perubahan kebijakan
- Isu geopolitik
Situasi Anthropic bukanlah bug atau kegagalan infrastruktur. Itu adalah sakelar pemutus (kill switch) regulasi.
Anda harus membangun ketahanan (resilience) ke dalam lapisan model Anda. Gunakan pola-pola berikut:
- Abstraksikan panggilan model Anda. Gunakan interface sehingga aplikasi Anda tidak peduli penyedia mana yang memberikan respons.
- Gunakan beberapa penyedia. Mengganti penyedia seharusnya hanya berupa perubahan konfigurasi, bukan penulisan ulang total.
- Gunakan model open-weight. Jika Anda menjalankan model itu sendiri, tidak ada yang bisa mematikannya dari jarak jauh. Model-model ini bertindak seperti generator saat jaringan listrik padam.
- Implementasikan graceful degradation. Model yang lebih kecil atau lebih lama lebih baik daripada aplikasi yang rusak.
Pantau tingkat kesalahan (error rates) Anda. Jika melonjak, putuskan aliran (trip the breaker) dan arahkan lalu lintas ke fallback Anda.
Perlakukan AI Anda seperti dependensi produksi kritis lainnya. Rancanglah untuk kegagalan (design for failure).
Apakah arsitektur Anda berasumsi bahwa penyedia Anda akan gagal? Jika tidak, Anda dalam risiko.
Sudahkah Anda membangun fallback multi-penyedia ke dalam stack Anda? Beritahu saya di kolom komentar.
Sumber: https://dev.to/aws/your-ai-provider-is-a-single-point-of-failure-26i2
Komunitas belajar opsional: https://t.me/GyaanSetuAi