LLM ತಲುಪುವ ಮೊದಲು ಸೂಕ್ಷ್ಮ ಡೇಟಾವನ್ನು (Sensitive Data) ಹೇಗೆ ಮರೆಮಾಚುವುದು (Redact)

ಮೂರನೇ ವ್ಯಕ್ತಿಯ (third-party) AI ಮಾದರಿಗಳಿಗೆ ಸೂಕ್ಷ್ಮ ಡೇಟಾವನ್ನು ಕಳುಹಿಸುವುದು ಭದ್ರತಾ ಅಪಾಯಗಳನ್ನು ಉಂಟುಮಾಡುತ್ತದೆ. ಉದ್ಯೋಗಿಗಳು ಗ್ರಾಹಕರ ಮಾಹಿತಿ ಅಥವಾ ಆಂತರಿಕ ಯೋಜನೆಗಳನ್ನು ಪ್ರಾಂಪ್ಟ್‌ನಲ್ಲಿ ಪೇಸ್ಟ್ ಮಾಡಿದಾಗ, ಆ ಡೇಟಾ ನಿಮ್ಮ ನಿಯಂತ್ರಣದಿಂದ ಹೊರಬರುತ್ತದೆ. ಇದು GDPR ಅಥವಾ HIPAA ನಂತಹ ಅನುಸರಣಾ ಉಲ್ಲಂಘನೆಗಳಿಗೆ (compliance violations) ಕಾರಣವಾಗುತ್ತದೆ.

LLMಗಳಿಗೆ ಒಂದು ಹೆಸರು ಮತ್ತು ಸಾಮಾನ್ಯ ಪದದ ನಡುವಿನ ವ್ಯತ್ಯಾಸ ತಿಳಿಯುವುದಿಲ್ಲ. ಸೂಕ್ಷ್ಮ ಡೇಟಾ ಮಾದರಿಯನ್ನು ತಲುಪುವ ಮೊದಲೇ ನೀವು ಅದನ್ನು ತಡೆಯಬೇಕು. ಇದನ್ನು ಇನ್‌ಲೈನ್ ಪ್ರಾಂಪ್ಟ್ ರೆಡಾಕ್ಷನ್ (inline prompt redaction) ಎಂದು ಕರೆಯಲಾಗುತ್ತದೆ.

ಈ ಪ್ರಕ್ರಿಯೆಯು ನಾಲ್ಕು ಹಂತಗಳನ್ನು ಬಳಸುತ್ತದೆ:

  • ಪತ್ತೆಹಚ್ಚುವುದು (Detect): ಸಿಸ್ಟಮ್ ಪ್ರಾಂಪ್ಟ್‌ನಲ್ಲಿ ಸೂಕ್ಷ್ಮ ಮಾದರಿಗಳಿಗಾಗಿ ಸ್ಕ್ಯಾನ್ ಮಾಡುತ್ತದೆ.
  • ಬದಲಾಯಿಸುವುದು (Replace): ಸಿಸ್ಟಮ್ ಡೇಟಾವನ್ನು [EMAIL_1] ನಂತಹ ಪ್ಲೇಸ್‌ಹೋಲ್ಡರ್‌ನೊಂದಿಗೆ ಬದಲಾಯಿಸುತ್ತದೆ.
  • ಕಳುಹಿಸುವುದು (Forward): ಸುರಕ್ಷಿತ ಪ್ರಾಂಪ್ಟ್ LLM ಗೆ ಹೋಗುತ್ತದೆ.
  • ಪರಿಶೀಲಿಸುವುದು (Audit): ಭದ್ರತಾ ಮೇಲ್ವಿಚಾರಣೆಗಾಗಿ ಸಿಸ್ಟಮ್ ಈ ಘಟನೆಯನ್ನು ಲಾಗ್ ಮಾಡುತ್ತದೆ.

ಈ ಡೇಟಾವನ್ನು ಹುಡುಕಲು ನೀವು ವಿವಿಧ ವಿಧಾನಗಳನ್ನು ಬಳಸಬಹುದು:

  • Regular Expressions (Regex): ಇದು ಕ್ರೆಡಿಟ್ ಕಾರ್ಡ್ ಸಂಖ್ಯೆಗಳು, ಸೋಶಿಯಲ್ ಸೆಕ್ಯುರಿಟಿ ಸಂಖ್ಯೆಗಳು ಮತ್ತು ಫೋನ್ ಸಂಖ್ಯೆಗಳಂತಹ ರಚನಾತ್ಮಕ ಡೇಟಾಕ್ಕೆ (structured data) ಕೆಲಸ ಮಾಡುತ್ತದೆ. ಇದು ವೇಗವಾಗಿದೆ ಆದರೆ ಹೆಸರುಗಳು ಅಥವಾ ಅಸಂಘಟಿತ ಪಠ್ಯದ (unstructured text) ವಿಷಯದಲ್ಲಿ ವಿಫಲವಾಗಬಹುದು.
  • Named Entity Recognition (NER): ಇದು ಹೆಸರುಗಳು, ಸ್ಥಳಗಳು ಮತ್ತು ಸಂಸ್ಥೆಗಳನ್ನು ಕಂಡುಹಿಡಿಯಲು ಮಷೀನ್ ಲರ್ನಿಂಗ್ ಅನ್ನು ಬಳಸುತ್ತದೆ. ಇದು regex ಗಿಂತ ಉತ್ತಮವಾಗಿ ಸಂದರ್ಭವನ್ನು (context) ಅರ್ಥಮಾಡಿಕೊಳ್ಳುತ್ತದೆ.

ಸಂದರ್ಭವನ್ನು (context) ಕಳೆದುಕೊಳ್ಳುವುದು ಒಂದು ಸಾಮಾನ್ಯ ಸಮಸ್ಯೆಯಾಗಿದೆ. ನೀವು ಎಲ್ಲಾ ಹೆಸರುಗಳನ್ನು ತೆಗೆದುಹಾಕಿದರೆ, AI ನೀಡುವ ಉತ್ತರವು ಪ್ರಯೋಜನವಿಲ್ಲದಂತಾಗಬಹುದು. ಇದನ್ನು ಸರಿಪಡಿಸಲು ರಿವರ್ಸಿಬಲ್ ರೆಡಾಕ್ಷನ್ (reversible redaction) ಬಳಸಿ. ನೀವು "Jane Doe" ಅನ್ನು "[PERSON_1]" ಎಂದು ಬದಲಾಯಿಸುತ್ತೀರಿ ಮತ್ತು ಬದಲಾವಣೆಯ ಖಾಸಗಿ ನಕ್ಷೆಯನ್ನು (private map) ಇಟ್ಟುಕೊಳ್ಳುತ್ತೀರಿ. AI ಪ್ರತಿಕ್ರಿಯಿಸಿದಾಗ, ನಿಮ್ಮ ಸಿಸ್ಟಮ್ ಬಳಕೆದಾರರಿಗಾಗಿ ನಿಜವಾದ ಹೆಸರನ್ನು ಮತ್ತೆ ಬದಲಾಯಿಸುತ್ತದೆ.

ಈ ಲಾಜಿಕ್ ಅನ್ನು ಪ್ರತಿಯೊಂದು ಆ್ಯಪ್‌ನಲ್ಲಿ ನಿರ್ಮಿಸಬೇಡಿ. ಅದನ್ನು ನಿರ್ವಹಿಸುವುದು ಕಷ್ಟವಾಗುತ್ತದೆ. ಬದಲಾಗಿ, ಒಂದು AI Gateway ಬಳಸಿ.

AI Gateway ನಿಮ್ಮ ಆ್ಯಪ್‌ಗಳು ಮತ್ತು AI ಸೇವೆಯ ನಡುವೆ ಪ್ರೊಕ್ಸಿ (proxy) ಆಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ. ಇದು ನಿಮಗೆ ಈ ಕೆಳಗಿನವುಗಳನ್ನು ನೀಡುತ್ತದೆ:

  • ಎಲ್ಲಾ ಭದ್ರತಾ ನೀತಿಗಳ ಮೇಲೆ ಕೇಂದ್ರೀಕೃತ ನಿಯಂತ್ರಣ.
  • ಪ್ರತಿಯೊಂದು ಅಪ್ಲಿಕೇಶನ್‌ನಲ್ಲಿ ಕೋಡ್ ಬದಲಾಯಿಸುವ ಅಗತ್ಯವಿಲ್ಲ.
  • ಎಲ್ಲಾ ವಿನಂತಿಗಳನ್ನು (requests) ಪರಿಶೀಲಿಸಲು ಒಂದೇ ಸ್ಥಳ.
  • ನಿಮ್ಮ ಇಡೀ ಕಂಪನಿಯಾದ್ಯಂತ ಏಕರೂಪದ ಭದ್ರತೆ.

ನಿಮ್ಮ ಖಾಸಗಿ ಡೇಟಾವನ್ನು ಅಪಾಯಕ್ಕೆ ಒಡ್ಡದೆ ನೀವು AI ಪರಿಕರಗಳನ್ನು ಬಳಸಬಹುದು. ಸ್ವಯಂಚಾಲಿತ ರೆಡಾಕ್ಷನ್ (Automated redaction) ನಿಮ್ಮ ಮಾಹಿತಿಯನ್ನು ನಿಮ್ಮ ನೆಟ್‌ವರ್ಕ್‌ನ ಒಳಗೇ ಇರಿಸುತ್ತದೆ.

ಮೂಲ: https://dev.to/marco_rinaldi_179438a5611/how-to-redact-sensitive-data-before-it-reaches-an-llm-3mhp

ಐಚ್ಛಿಕ ಕಲಿಕಾ ಸಮುದಾಯ: https://t.me/GyaanSetuAi