ನೀವು ಪ್ರಾಂಪ್ಟ್ ಇಂಜೆಕ್ಷನ್ ಅನ್ನು ತಡೆಯಲು ಸಾಧ್ಯವಿಲ್ಲ. ಹಾಗಾದರೆ ನೀವು ಏನು ಮಾಡಬೇಕು?

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial2 ವಾರಗಳ ಹಿಂದೆ2min read

ನೀವು ಪ್ರಾಂಪ್ಟ್ ಇಂಜೆಕ್ಷನ್ ಅನ್ನು ತಡೆಯಲು ಸಾಧ್ಯವಿಲ್ಲ. ಹಾಗಾದರೆ ನೀವು ಏನು ಮಾಡಬೇಕು?

ಪರಿಪೂರ್ಣ ಸಿಸ್ಟಮ್ ಮೆಸೇಜ್ ಅನ್ನು ನಿರ್ಮಿಸಲು ಪ್ರಯತ್ನಿಸುವುದನ್ನು ನಿಲ್ಲಿಸಿ. ಭದ್ರತೆಯನ್ನು ಸರಿಪಡಿಸಲು ಉತ್ತಮ ಮಾಡೆಲ್ ವರ್ಷನ್ ಬರುವವರೆಗೆ ಕಾಯುವುದನ್ನು ನಿಲ್ಲಿಸಿ.

ಪ್ರಾಂಪ್ಟ್ ಇಂಜೆಕ್ಷನ್ ಖಂಡಿತವಾಗಿಯೂ ಸಂಭವಿಸುತ್ತದೆ. ಸೂಚನೆಗಳು ಕಮಾಂಡ್‌ಗಳಂತೆ ಕಂಡಾಗ, ಯಾವುದೇ ಮಾಡೆಲ್ ದುರುದ್ದೇಶಪೂರಿತ ಸೂಚನೆಗಳನ್ನು ನಂಬಿಕೆಗೆ ಅರ್ಹವಾಗಿ ನಿರಾಕರಿಸುವುದಿಲ್ಲ. ನೀವು ನಿಮ್ಮ ಭದ್ರತೆಯನ್ನು ಪರಿಪೂರ್ಣ ಮಾಡೆಲ್‌ಗಳ ಮೇಲೆ ಅವಲಂಬಿಸಿ ವಿನ್ಯಾಸಗೊಳಿಸಿದರೆ, ನೀವು ವಿಫಲರಾಗುತ್ತೀರಿ.

ನಿಮ್ಮ ಗಮನವನ್ನು ಬದಲಾಯಿಸಿ. ಇಂಜೆಕ್ಷನ್ ಅನ್ನು ಹೇಗೆ ತಡೆಯುವುದು ಎಂದು ಕೇಳಬೇಡಿ. ಬದಲಾಗಿ, ಇಂಜೆಕ್ಷನ್ ಯಶಸ್ವಿಯಾದ ನಂತರ ನಿಮ್ಮ ಏಜೆಂಟ್ ಏನು ಮಾಡಬಲ್ಲದು ಎಂದು ಕೇಳಿ.

ಹಾನಿಯನ್ನು ಸೀಮಿತಗೊಳಿಸಲು ಈ ನಿಯಮಗಳನ್ನು ಅನುಸರಿಸಿ:

ಸಾಮರ್ಥ್ಯ-ವ್ಯಾಪ್ತಿಯ (capability-scoped) ಕ್ರೆಡೆನ್ಷಿಯಲ್‌ಗಳನ್ನು ಬಳಸಿ. ಪ್ರಸ್ತುತ ಕಾರ್ಯಕ್ಕೆ ಅಗತ್ಯವಿರುವ ಅನುಮತಿಗಳನ್ನು ಮಾತ್ರ ನಿಮ್ಮ ಏಜೆಂಟ್‌ಗೆ ನೀಡಿ. ಅಡ್ಮಿನ್ ಕೀ (admin key) ಹೊಂದಿರುವ ಏಜೆಂಟ್‌ಗಿಂತ, ಕೇವಲ ಓದಲು ಮಾತ್ರ ಅನುಮತಿ (read-only access) ಇರುವ ಏಜೆಂಟ್ ಕಡಿಮೆ ಹಾನಿಯನ್ನು ಉಂಟುಮಾಡುತ್ತದೆ.
ವಿನಾಶಕಾರಿ ಕ್ರಮಗಳಿಗೆ ನಿರ್ಬಂಧ ಹೇರಿ (Gate destructive actions). ಡಿಲೀಟ್ ಮಾಡುವುದು, ಪಾವತಿಸುವುದು ಅಥವಾ ಪ್ರವೇಶವನ್ನು ನೀಡುವುದು போன்ற ಕ್ರಮಗಳಿಗೆ ಎರಡನೇ ಫ್ಯಾಕ್ಟರ್ ಅಥವಾ ಮ್ಯಾನುಯಲ್ ಚೆಕ್ ಅನ್ನು ಕಡ್ಡಾಯಗೊಳಿಸಿ. ಈ ಕ್ರಮಗಳು ಸುರಕ್ಷಿತವೇ ಎಂದು ನಿರ್ಧರಿಸಲು ಮಾಡೆಲ್‌ಗೆ ಬಿಡಬೇಡಿ.
ಎಲ್ಲಾ ಬಾಹ್ಯ ಇನ್‌ಪುಟ್‌ಗಳನ್ನು ನಂಬಲಾಗದವುಗಳೆಂದು ಪರಿಗಣಿಸಿ. ಇದರಲ್ಲಿ ಬಳಕೆದಾರರ ಸಂದೇಶಗಳು, ವೆಬ್ ಪುಟಗಳು, ಟೂಲ್ ಔಟ್‌ಪುಟ್‌ಗಳು ಮತ್ತು ದಾಖಲೆಗಳು ಸೇರಿವೆ. ಡೇಟಾವು ಕಾಂಟೆಕ್ಸ್ಟ್ ವಿಂಡೋಗೆ (context window) ಪ್ರವೇಶಿಸಿದಾಗ ಅದು ಹೆಚ್ಚಾಗಿ ಸೂಚನೆಗಳಾಗಿ ಬದಲಾಗುತ್ತದೆ.
ನಿಮ್ಮ ಟೂಲ್ ಔಟ್‌ಪುಟ್‌ಗಳನ್ನು ಗಮನಿಸಿ. ಅನೇಕ ಫ್ರೇಮ್‌ವರ್ಕ್‌ಗಳು ಟೂಲ್ ಲಾಗ್‌ಗಳನ್ನು ನೇರವಾಗಿ ಮಾಡೆಲ್ ಕಾಂಟೆಕ್ಸ್ಟ್‌ಗೆ ಕಳುಹಿಸುತ್ತವೆ. 17,022 ಏಜೆಂಟ್ ಕೌಶಲ್ಯಗಳ ಅಧ್ಯಯನದಲ್ಲಿ, 73.5% ಸಂದರ್ಭಗಳಲ್ಲಿ ಡಿಬಗ್ ಲಾಗ್‌ಗಳ ಮೂಲಕ ಕ್ರೆಡೆನ್ಷಿಯಲ್‌ಗಳು ಸೋರಿಕೆಯಾಗುತ್ತಿರುವುದು ಕಂಡುಬಂದಿದೆ. ಟೂಲ್ ಔಟ್‌ಪುಟ್‌ಗಳು ಮಾಡೆಲ್‌ಗೆ ತಲುಪುವ ಮೊದಲು ಅದರಲ್ಲಿರುವ ರಹಸ್ಯ ಮಾಹಿತಿಯನ್ನು (secrets) ಅಳಿಸಿಹಾಕಿ (Redact).
ಕೇವಲ ಗುಣಮಟ್ಟವನ್ನಷ್ಟೇ ಅಲ್ಲದೆ, ನಡವಳಿಕೆಯನ್ನು ಮೇಲ್ವಿಚಾರಣೆ ಮಾಡಿ. ಹೈಜಾಕ್ ಮಾಡಲ್ಪಟ್ಟ ಏಜೆಂಟ್ ಅನಧಿಕೃತ ಕ್ರಮಗಳನ್ನು ಮಾಡುವಾಗಲೂ ಉತ್ತಮ ಗುಣಮಟ್ಟದ ಪಠ್ಯವನ್ನು ನೀಡಬಹುದು. ನೀವು ಸಾಮಾನ್ಯ ಕ್ರಮಗಳ ಸರಣಿಯನ್ನು (normal action sequences) ಅಡಿಪಾಯವಾಗಿಟ್ಟುಕೊಳ್ಳಬೇಕು ಮತ್ತು ಅಸಹಜ ಬದಲಾವಣೆಗಳ ಬಗ್ಗೆ ಎಚ್ಚರಿಕೆ ನೀಡಬೇಕು.

ನಡವಳಿಕೆಯ ಮೇಲ್ವಿಚಾರಣೆಯ ಈ ಮೂರು ಹಂತಗಳನ್ನು ಬಳಸಿ:

ಸ್ಟ್ಯಾಟಿಕ್ ನಿಯಮಗಳು (Static rules): ಏಜೆಂಟ್ ಇದ್ದಕ್ಕಿದ್ದಂತೆ ಇಮೇಲ್‌ಗಳನ್ನು ಕಳುಹಿಸುವಂತಹ ಸ್ಪಷ್ಟ ಬದಲಾವಣೆಗಳನ್ನು ಪತ್ತೆಹಚ್ಚಿ.
ಸೀಕ್ವೆನ್ಸ್ ಪ್ಯಾಟರ್ನ್‌ಗಳು (Sequence patterns): ಏಜೆಂಟ್‌ನ ಸಾಮಾನ್ಯ ಕೆಲಸದ ಶೈಲಿಗೆ ಹೊಂದಿಕೆಯಾಗದ ಕ್ರಮಗಳನ್ನು ಗುರುತಿಸಿ.
ಸ್ವತಂತ್ರ ವಿಮರ್ಶೆ (Independent review): ಪ್ರಾಥಮಿಕ ಏಜೆಂಟ್ ಅನ್ನು ನಿರ್ಧರಿಸಲು ಎರಡನೇ ಮಾಡೆಲ್ ಅನ್ನು ಬಳಸಿ.

ನಿಮ್ಮ ಏಜೆಂಟ್ ಮೆಮೊರಿಯನ್ನು ಬಳಸುತ್ತಿದ್ದರೆ, ಅದನ್ನು ಸ್ವಚ್ಛವಾಗಿಡಿ. ಒಂದೇ ಒಂದು ಇಂಜೆಕ್ಷನ್ ವಿಷಪೂರಿತ ಸತ್ಯವನ್ನು (poisoned fact) ಬರೆಯಬಹುದು, ಅದು ಪ್ರತಿ ಸೆಶನ್‌ನಲ್ಲೂ ಪುನರಾವರ್ತನೆಯಾಗುತ್ತದೆ. ಪ್ರತಿ ಇನ್‌ಸ್ಟೆನ್ಸ್ (instance) ಗೆ ಮೆಮೊರಿಯ ವ್ಯಾಪ್ತಿಯನ್ನು ಸೀಮಿತಗೊಳಿಸಿ ಮತ್ತು ಪ್ರತಿಯೊಂದು ಮಾಹಿತಿಯು ಎಲ್ಲಿಂದ ಬರುತ್ತದೆ ಎಂಬುದನ್ನು ಟ್ರ್ಯಾಕ್ ಮಾಡಿ.

ಈಗಲೇ ಒಂದು ಏಜೆಂಟ್ ಹೈಜಾಕ್ ಆಗ如果, ಅದನ್ನು ನೀವು ನಿಮ್ಮ ಲಾಗ್‌ಗಳಲ್ಲಿ ನೋಡಬಲ್ಲಿರಾ? ಅಥವಾ ನೀವು ಏನೂ ತಿಳಿಯದ ಸ್ಥಿತಿಯಲ್ಲಿದ್ದೀರಾ?

ಮೂಲ: https://dev.to/brennhill/you-cant-prevent-prompt-injection-so-what-do-you-actually-do-1d37

ಐಚ್ಛಿಕ ಕಲಿಕಾ ಸಮುದಾಯ: https://t.me/GyaanSetuAi

ನೀವು ಪ್ರಾಂಪ್ಟ್ ಇಂಜೆಕ್ಷನ್ ಅನ್ನು ತಡೆಯಲು ಸಾಧ್ಯವಿಲ್ಲ. ಹಾಗಾದರೆ ನೀವು ಏನು ಮಾಡಬೇಕು?

Continue reading

ನಿಮ್ಮ AI ಏಜೆಂಟ್ ಒಂದು ಪುಟವನ್ನು ಸ್ಕ್ರೇಪ್ ಮಾಡಿದೆ. ಆ ಪುಟವೇ ಅದಕ್ಕೆ ಏನು ಮಾಡಬೇಕೆಂದು ತಿಳಿಸಿತು.

Building An AI Agent Playground Before Production

ನಾನು ಎಐ ಸೆಕ್ಯುರಿಟಿ ಸ್ಕ್ಯಾನರ್ ಅನ್ನು ನಿರ್ಮಿಸಿದೆ — ನಂತರ ನನ್ನ ಸ್ವಂತ ಡಿಟೆಕ್ಟರ್‌ನಲ್ಲೇ ಒಂದು ಬಗ್ ಅನ್ನು ಪತ್ತೆಹಚ್ಚಿದೆ