Pertahanan Prompt Injection: Buku Panduan Guardrails Produksi

Suntikan prompt adalah ancaman utama kepada AI.

Penyerang menyembunyikan arahan di dalam data. Mereka mahu model anda mengikut niat mereka dan bukannya niat anda. Risiko ini berada di kedudukan teratas dalam senarai OWASP untuk Aplikasi Model Bahasa Besar (Large Language Model Applications).

Masalahnya mudah. LLM melihat semua teks dengan cara yang sama. Model tidak dapat membezakan antara arahan sistem anda dengan data yang diprosesnya. Bagi model, semuanya hanyalah teks. Ini menjadikan kerentanan tersebut sukar untuk diperbaiki.

Terdapat dua jenis serangan:

  • Suntikan langsung (Direct injection): Seorang pengguna menaip arahan buruk secara terus ke dalam aplikasi anda.
  • Suntikan tidak langsung (Indirect injection): Penyerang menyembunyikan arahan dalam data yang dibaca oleh model anda.

Anda memerlukan guardrails untuk melindungi persekitaran produksi anda.

Baca artikel penuh di AI Tech Connect.

Sumber: https://dev.to/rishi_kora/prompt-injection-defence-a-production-guardrails-playbook-2pam

Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi