Perangkap Pengujian AI

Anda mendengar seseorang berkata "kami telah menghantar 40% lebih banyak ujian suku ini" dan semua orang mengangguk.

Saya melihat perkara ini berlaku di sebuah syarikat SaaS di Tokyo. Ketua QA berasa bangga. Pihak pengurusan gembira. Pipeline berwarna hijau.

Enam minggu kemudian, sistem pembayaran tergendala selama 72 jam. Tiada siapa yang menyedarinya kerana AI menulis ujian yang menyemak "tiada ralat" dan bukannya "data yang betul."

Inilah Kebutaan Pengujian (Testing Blindness).

Ia berlaku apabila pasukan anda menjana banyak ujian tetapi tidak dapat membezakan apabila ujian tersebut menipu anda. AI memudahkan kesilapan dalam menganggap liputan ujian (test coverage) sebagai kualiti ujian.

Satu hantaran baru-baru ini di Qiita menunjukkan perjuangan yang sama. Seorang jurutera menggunakan AI untuk mengendalikan projek tanpa automasi. Ujian dihasilkan dengan pantas. Metrik kelihatan hebat.

Tetapi jurutera tersebut terpaksa mempelajari Playwright dan pengujian API secara manual. Mengapa? Kerana AI boleh menulis sintaks, tetapi ia tidak memahami cara sistem berfungsi.

Kebutaan Pengujian mempunyai tiga simptom utama:

• Atrofi Aserasi (Assertion Atrophy): Ujian lulus kerana ia hanya menyemak jika kod itu ranap (crash), bukannya jika ia berfungsi dengan betul. • Kebutaan Kes Sempadan (Boundary Case Blindness): AI memberi tumpuan kepada "laluan senang" (happy paths). Ia terlepas kes-kes ekstrem (edge cases) seperti input null atau keadaan perlumbaan (race conditions). • Inflasi Keyakinan Regresi (Regression Confidence Inflation): Anda berasa selamat kerana jumlah ujian meningkat dua kali ganda. Hakikatnya, anda hanya menggandakan keyakinan palsu anda.

Berdasarkan pengalaman saya, pasukan beralih daripada sifar ujian kepada 1,200 ujian dalam masa beberapa bulan menggunakan AI. Laporan kelihatan sempurna. Kadar pengesanan pepijat (bug) yang sebenar pula menurun.

Di Jepun, tumpuan kepada pengurusan dan proses (kanri) boleh membuatkan angka yang tinggi ini terasa seperti kejayaan. Di Barat, pasukan sering melangkau ujian kerana AI menjadikannya mudah. Kedua-dua jalan ini membawa kepada kegagalan produksi.

AI mengoptimumkan metrik sambil menjejaskan keupayaan anda untuk menyahpepijat (debug).

Jika anda menggunakan AI dalam QA, ikut peraturan ini:

  • Audit ujian setiap minggu: Pilih 5 ujian AI secara rawak. Tanya: "Apakah yang akan menyebabkan ujian ini lulus secara salah?" Jika anda tidak dapat menjawab dengan cepat, anda mempunyai titik buta (blind spot).
  • Tetapkan kuota sempadan: Bagi setiap 10 ujian AI, tulis 2 ujian kes ekstrem (edge case) secara manual.
  • Gunakan ujian jam 3 pagi: Tanya sama ada ujian ini akan mengesan kegagalan pada jam 3 pagi. Jika anda tidak pasti, ujian tersebut tidak cukup baik.
  • Kekalkan satu modul secara manual: Uji satu bahagian kritikal dengan tangan. Ini memastikan kemahiran penyahpepijatan anda tetap tajam.

Jangan keliru antara jumlah ujian dengan kualiti ujian. Jangan biarkan kecekapan menggantikan pertimbangan. Ujian yang menyelamatkan anda adalah ujian yang anda benar-benar fahami.

Adakah pasukan anda mengalami penurunan kualiti pengujian sejak menggunakan AI? Kongsikan pengalaman anda di bawah.

Sumber: https://dev.to/xu_xu_b2179aa8fc958d531d1/the-ai-testing-trap-how-japans-qa-engineers-are-getting-burned-by-the-same-efficiency-gains-that-3p6j Komuniti pembelajaran pilihan: https://t.me