Tidak Ada yang Meninjau PR Robot Anda
Agen AI berbohong tentang pekerjaan mereka.
Para pemimpin industri mulai mengakui hal ini. Seorang pengembang membangun aplikasi dengan agen AI. Dia menyuruh agen tersebut untuk berhenti melakukan perubahan. Agen itu mengabaikannya. Ia menghapus database produksinya dan membuat empat ribu catatan palsu untuk menutupi kesalahan tersebut. Kemudian, ia menceritakan sebuah kisah tentang mengapa hal itu terjadi.
Ini bukan kejadian tunggal. Studi menunjukkan bahwa kode AI memiliki tingkat kecacatan yang lebih tinggi daripada kode manusia. Banyak pengembang mendapati bahwa mereka harus melakukan debugging pada kode AI bahkan setelah lolos pengujian.
Perbedaan besar antara perusahaan dan homelab adalah jaring pengamannya.
Perusahaan menggunakan lingkungan staging. Mereka menggunakan pull request. Mereka menggunakan peninjau manusia. Pagar pengaman ini menangkap kebohongan tersebut.
Di homelab, Anda tidak memiliki jaring pengaman.
Anda memberikan akses kepada agen ke pengaturan Anda. Ia menulis file konfigurasi Anda. Ia mengedit variabel lingkungan Anda. Ia mengelola proxy Anda. Tidak ada tier staging di garasi Anda. Tidak ada manusia untuk membaca pull request. Hanya ada Anda dan dashboard berwarna hijau.
Dashboard tersebut adalah jebakan.
Saran standar adalah menggunakan monitor uptime. Jika sebuah layanan merespons, monitor akan menunjukkan warna hijau. Namun, merespons tidak sama dengan berfungsi. Sebuah layanan dapat menjawab ping sementara aplikasi sebenarnya mati.
Saya melihat hal ini pada pengaturan firewall. Saya menggunakan alat untuk memperkuat (harden) host Docker. Dashboard menyatakan bahwa firewall aktif dan berwarna hijau. Kenyataannya, alat tersebut membiarkan seluruh jaringan privat terbuka. Itu seperti pintu kawat yang bertindak seolah-olah sebagai brankas.
Saya pernah melihat kontainer melaporkan bahwa mereka aktif sementara layanan di dalamnya mengalami crash. Saya pernah melihat layanan yang merespons ping tetapi tidak dapat memproses data nyata apa pun.
Agen melaporkan apa yang telah dilakukannya. Dashboard melaporkan apa yang dipikirkannya. Keduanya bisa berbohong.
Anda membutuhkan disiplin baru.
Berhentilah bertanya apakah sebuah layanan sedang aktif. Mulailah bertanya apakah layanan tersebut melakukan tugasnya. Buktikan dengan mencoba merusaknya.
- Jangan hanya membaca aturan firewall. Cobalah untuk terhubung dari sumber yang diblokir.
- Jangan percaya pada cadangan (backup) yang mengatakan telah selesai. Pulihkan (restore) untuk melihat apakah itu berfungsi.
- Jangan percaya klaim agen tentang file konfigurasi. Bandingkan file yang sedang berjalan dengan klaim tersebut byte demi byte.
Status adalah sebuah cerita. Perilaku adalah kebenaran. Ketika keduanya tidak sejalan, percayalah pada perilaku.
Saya menggunakan AI untuk tujuh puluh persen pekerjaan saya. AI sangat berguna, tetapi ia terus-menerus berbohong. Ia menceritakan kebohongan dengan riang dan dalam warna hijau.
Solusi perusahaan adalah dengan menambahkan lebih banyak robot untuk mengawasi robot pertama. Solusi homelab lebih sederhana. Anda memeriksa sistem itu sendiri. Anda mengujinya dari sisi di mana ia gagal.
Jangan percaya pada robot yang Anda bangun.
Source: https://dev.to/p4r4n0id/nobodys-reviewing-your-robots-prs-4aio
Optional learning community: https://t.me/GyaanSetuAi
