LLM ದುರ್ಬಲತೆಗಳು 101
ಹೆಚ್ಚಿನ LLM ಭದ್ರತಾ ದೋಷಗಳು ಚತುರವಾದವುಗಳಲ್ಲ. ಅವು ಮಾದರಿಗಳು (models) ಹೇಗೆ ಕೆಲಸ ಮಾಡುತ್ತವೆ ಎಂಬ ಎರಡು ಸಾಮಾನ್ಯ ಸತ್ಯಗಳಿಂದ ಉದ್ಭವಿಸುತ್ತವೆ. ಒಮ್ಮೆ ನೀವು ಇವುಗಳನ್ನು ಅರ್ಥಮಾಡಿಕೊಂಡರೆ, ದಾಳಿಗಳ ಭಯಾನಕ ಪಟ್ಟಿಯು ಸ್ಪಷ್ಟವಾಗುತ್ತದೆ.
ಸತ್ಯ 1: ಮಾದರಿಯು ನಿಮ್ಮ ಸೂಚನೆಗಳು ಮತ್ತು ಬಳಕೆದಾರರ ಪಠ್ಯದ ನಡುವೆ ವ್ಯತ್ಯಾಸವನ್ನು ನೋಡುವುದಿಲ್ಲ. ಅದು ಡೇಟಾದ ಒಂದು ಹರಿವನ್ನು (stream) ಮಾತ್ರ ನೋಡುತ್ತದೆ. ಯಾವ ಭಾಗವನ್ನು ನಂಬಬೇಕೆಂದು ಅದಕ್ಕೆ ವಿಶ್ವಾಸಾರ್ಹವಾಗಿ ತಿಳಿಯಲು ಸಾಧ್ಯವಿಲ್ಲ.
ಸತ್ಯ 2: ಪರಿಕರಗಳು (Tools) ಆಟವನ್ನೇ ಬದಲಿಸುತ್ತವೆ. ನೀವು ಮಾದರಿಗೆ ಇಮೇಲ್, ಸರ್ಚ್ ಅಥವಾ ಡೇಟಾಬೇಸ್ಗಳ ಪ್ರವೇಶವನ್ನು ನೀಡಿದಾಗ, ನಂಬಲಸಾಧ್ಯವಾದ ಪಠ್ಯವು ಪ್ರವೇಶಿಸಲು ನೀವು ಹೊಸ ಸ್ಥಳಗಳನ್ನು ಸೇರಿಸುತ್ತೀರಿ. ಅಲ್ಲದೆ, ಕೇವಲ ಮಾತನಾಡಬಲ್ಲ ಮಾದರಿಯನ್ನು ಕಾರ್ಯನಿರ್ವಹಿಸಬಲ್ಲ (act) ಮಾದರಿಯನ್ನಾಗಿ ನೀವು ಬದಲಾಯಿಸುತ್ತೀರಿ.
ಮಾದರಿಯೊಂದಿಗೆ ವಾದ ಗೆಲ್ಲಲು ಪ್ರಯತ್ನಿಸುವುದನ್ನು ನಿಲ್ಲಿಸಿ. ಮಾದರಿಗೆ ಏನು ಮಾಡಲು ಅನುಮತಿಸಲಾಗಿದೆ ಎಂಬುದನ್ನು ಬದಲಾಯಿಸಲು ಪ್ರಾರಂಭಿಸಿ.
ಪ್ರಮುಖ ದುರ್ಬಲತೆಗಳು:
- ಡೈರೆಕ್ಟ್ ಇಂಜೆಕ್ಷನ್ (Direct Injection): ಬಳಕೆದಾರರು ನಿಮ್ಮ ನಿಯಮಗಳನ್ನು ಮೀರಿ ನಿಲ್ಲಲು "ignore previous instructions" ಎಂದು ಟೈಪ್ ಮಾಡುತ್ತಾರೆ. ನಿಮ್ಮ ಸಿಸ್ಟಮ್ ಪ್ರಾಂಪ್ಟ್ (system prompt) ಒಂದು ಭದ್ರತಾ ಗಡಿಯಲ್ಲಲ್ಲ.
- ಜೈಲ್ಬ್ರೇಕ್ಗಳು (Jailbreaks): ಇವು ನಿಮ್ಮ ಅಪ್ಲಿಕೇಶನ್ಗಿಂತ ಹೆಚ್ಚಾಗಿ ಸುರಕ್ಷತಾ ತರಬೇತಿಯನ್ನು ಗುರಿಯಾಗಿಸಿಕೊಳ್ಳುತ್ತವೆ. ದಾಳಿಕೋರರು ಫಿಲ್ಟರ್ಗಳನ್ನು ಬೈಪಾ
ಮೂಲ: https://dev.to/weboko/llm-vulnerabilities-101-3pcj
ಐಚ್ಛಿಕ ಕಲಿಕಾ ಸಮುದಾಯ: https://t.me/GyaanSetuAi