How to Redact Sensitive Data Before It Reaches an LLM

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialಕಳೆದ ವಾರ2min read

How to Redact Sensitive Data Before It Reaches an LLM

LLM ತಲುಪುವ ಮೊದಲು ಸೂಕ್ಷ್ಮ ಡೇಟಾವನ್ನು (Sensitive Data) ಹೇಗೆ ಮರೆಮಾಚುವುದು (Redact)

ಮೂರನೇ ವ್ಯಕ್ತಿಯ (third-party) AI ಮಾದರಿಗಳಿಗೆ ಸೂಕ್ಷ್ಮ ಡೇಟಾವನ್ನು ಕಳುಹಿಸುವುದು ಭದ್ರತಾ ಅಪಾಯಗಳನ್ನು ಉಂಟುಮಾಡುತ್ತದೆ. ಉದ್ಯೋಗಿಗಳು ಗ್ರಾಹಕರ ಮಾಹಿತಿ ಅಥವಾ ಆಂತರಿಕ ಯೋಜನೆಗಳನ್ನು ಪ್ರಾಂಪ್ಟ್‌ನಲ್ಲಿ ಪೇಸ್ಟ್ ಮಾಡಿದಾಗ, ಆ ಡೇಟಾ ನಿಮ್ಮ ನಿಯಂತ್ರಣದಿಂದ ಹೊರಬರುತ್ತದೆ. ಇದು GDPR ಅಥವಾ HIPAA ನಂತಹ ಅನುಸರಣಾ ಉಲ್ಲಂಘನೆಗಳಿಗೆ (compliance violations) ಕಾರಣವಾಗುತ್ತದೆ.

LLMಗಳಿಗೆ ಒಂದು ಹೆಸರು ಮತ್ತು ಸಾಮಾನ್ಯ ಪದದ ನಡುವಿನ ವ್ಯತ್ಯಾಸ ತಿಳಿಯುವುದಿಲ್ಲ. ಸೂಕ್ಷ್ಮ ಡೇಟಾ ಮಾದರಿಯನ್ನು ತಲುಪುವ ಮೊದಲೇ ನೀವು ಅದನ್ನು ತಡೆಯಬೇಕು. ಇದನ್ನು ಇನ್‌ಲೈನ್ ಪ್ರಾಂಪ್ಟ್ ರೆಡಾಕ್ಷನ್ (inline prompt redaction) ಎಂದು ಕರೆಯಲಾಗುತ್ತದೆ.

ಈ ಪ್ರಕ್ರಿಯೆಯು ನಾಲ್ಕು ಹಂತಗಳನ್ನು ಬಳಸುತ್ತದೆ:

ಪತ್ತೆಹಚ್ಚುವುದು (Detect): ಸಿಸ್ಟಮ್ ಪ್ರಾಂಪ್ಟ್‌ನಲ್ಲಿ ಸೂಕ್ಷ್ಮ ಮಾದರಿಗಳಿಗಾಗಿ ಸ್ಕ್ಯಾನ್ ಮಾಡುತ್ತದೆ.
ಬದಲಾಯಿಸುವುದು (Replace): ಸಿಸ್ಟಮ್ ಡೇಟಾವನ್ನು [EMAIL_1] ನಂತಹ ಪ್ಲೇಸ್‌ಹೋಲ್ಡರ್‌ನೊಂದಿಗೆ ಬದಲಾಯಿಸುತ್ತದೆ.
ಕಳುಹಿಸುವುದು (Forward): ಸುರಕ್ಷಿತ ಪ್ರಾಂಪ್ಟ್ LLM ಗೆ ಹೋಗುತ್ತದೆ.
ಪರಿಶೀಲಿಸುವುದು (Audit): ಭದ್ರತಾ ಮೇಲ್ವಿಚಾರಣೆಗಾಗಿ ಸಿಸ್ಟಮ್ ಈ ಘಟನೆಯನ್ನು ಲಾಗ್ ಮಾಡುತ್ತದೆ.

ಈ ಡೇಟಾವನ್ನು ಹುಡುಕಲು ನೀವು ವಿವಿಧ ವಿಧಾನಗಳನ್ನು ಬಳಸಬಹುದು:

Regular Expressions (Regex): ಇದು ಕ್ರೆಡಿಟ್ ಕಾರ್ಡ್ ಸಂಖ್ಯೆಗಳು, ಸೋಶಿಯಲ್ ಸೆಕ್ಯುರಿಟಿ ಸಂಖ್ಯೆಗಳು ಮತ್ತು ಫೋನ್ ಸಂಖ್ಯೆಗಳಂತಹ ರಚನಾತ್ಮಕ ಡೇಟಾಕ್ಕೆ (structured data) ಕೆಲಸ ಮಾಡುತ್ತದೆ. ಇದು ವೇಗವಾಗಿದೆ ಆದರೆ ಹೆಸರುಗಳು ಅಥವಾ ಅಸಂಘಟಿತ ಪಠ್ಯದ (unstructured text) ವಿಷಯದಲ್ಲಿ ವಿಫಲವಾಗಬಹುದು.
Named Entity Recognition (NER): ಇದು ಹೆಸರುಗಳು, ಸ್ಥಳಗಳು ಮತ್ತು ಸಂಸ್ಥೆಗಳನ್ನು ಕಂಡುಹಿಡಿಯಲು ಮಷೀನ್ ಲರ್ನಿಂಗ್ ಅನ್ನು ಬಳಸುತ್ತದೆ. ಇದು regex ಗಿಂತ ಉತ್ತಮವಾಗಿ ಸಂದರ್ಭವನ್ನು (context) ಅರ್ಥಮಾಡಿಕೊಳ್ಳುತ್ತದೆ.

ಸಂದರ್ಭವನ್ನು (context) ಕಳೆದುಕೊಳ್ಳುವುದು ಒಂದು ಸಾಮಾನ್ಯ ಸಮಸ್ಯೆಯಾಗಿದೆ. ನೀವು ಎಲ್ಲಾ ಹೆಸರುಗಳನ್ನು ತೆಗೆದುಹಾಕಿದರೆ, AI ನೀಡುವ ಉತ್ತರವು ಪ್ರಯೋಜನವಿಲ್ಲದಂತಾಗಬಹುದು. ಇದನ್ನು ಸರಿಪಡಿಸಲು ರಿವರ್ಸಿಬಲ್ ರೆಡಾಕ್ಷನ್ (reversible redaction) ಬಳಸಿ. ನೀವು "Jane Doe" ಅನ್ನು "[PERSON_1]" ಎಂದು ಬದಲಾಯಿಸುತ್ತೀರಿ ಮತ್ತು ಬದಲಾವಣೆಯ ಖಾಸಗಿ ನಕ್ಷೆಯನ್ನು (private map) ಇಟ್ಟುಕೊಳ್ಳುತ್ತೀರಿ. AI ಪ್ರತಿಕ್ರಿಯಿಸಿದಾಗ, ನಿಮ್ಮ ಸಿಸ್ಟಮ್ ಬಳಕೆದಾರರಿಗಾಗಿ ನಿಜವಾದ ಹೆಸರನ್ನು ಮತ್ತೆ ಬದಲಾಯಿಸುತ್ತದೆ.

ಈ ಲಾಜಿಕ್ ಅನ್ನು ಪ್ರತಿಯೊಂದು ಆ್ಯಪ್‌ನಲ್ಲಿ ನಿರ್ಮಿಸಬೇಡಿ. ಅದನ್ನು ನಿರ್ವಹಿಸುವುದು ಕಷ್ಟವಾಗುತ್ತದೆ. ಬದಲಾಗಿ, ಒಂದು AI Gateway ಬಳಸಿ.

AI Gateway ನಿಮ್ಮ ಆ್ಯಪ್‌ಗಳು ಮತ್ತು AI ಸೇವೆಯ ನಡುವೆ ಪ್ರೊಕ್ಸಿ (proxy) ಆಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ. ಇದು ನಿಮಗೆ ಈ ಕೆಳಗಿನವುಗಳನ್ನು ನೀಡುತ್ತದೆ:

ಎಲ್ಲಾ ಭದ್ರತಾ ನೀತಿಗಳ ಮೇಲೆ ಕೇಂದ್ರೀಕೃತ ನಿಯಂತ್ರಣ.
ಪ್ರತಿಯೊಂದು ಅಪ್ಲಿಕೇಶನ್‌ನಲ್ಲಿ ಕೋಡ್ ಬದಲಾಯಿಸುವ ಅಗತ್ಯವಿಲ್ಲ.
ಎಲ್ಲಾ ವಿನಂತಿಗಳನ್ನು (requests) ಪರಿಶೀಲಿಸಲು ಒಂದೇ ಸ್ಥಳ.
ನಿಮ್ಮ ಇಡೀ ಕಂಪನಿಯಾದ್ಯಂತ ಏಕರೂಪದ ಭದ್ರತೆ.

ನಿಮ್ಮ ಖಾಸಗಿ ಡೇಟಾವನ್ನು ಅಪಾಯಕ್ಕೆ ಒಡ್ಡದೆ ನೀವು AI ಪರಿಕರಗಳನ್ನು ಬಳಸಬಹುದು. ಸ್ವಯಂಚಾಲಿತ ರೆಡಾಕ್ಷನ್ (Automated redaction) ನಿಮ್ಮ ಮಾಹಿತಿಯನ್ನು ನಿಮ್ಮ ನೆಟ್‌ವರ್ಕ್‌ನ ಒಳಗೇ ಇರಿಸುತ್ತದೆ.

ಮೂಲ: https://dev.to/marco_rinaldi_179438a5611/how-to-redact-sensitive-data-before-it-reaches-an-llm-3mhp

ಐಚ್ಛಿಕ ಕಲಿಕಾ ಸಮುದಾಯ: https://t.me/GyaanSetuAi

How to Redact Sensitive Data Before It Reaches an LLM

Continue reading

ನಿಮ್ಮ AI ಏಜೆಂಟ್ ಒಂದು ಪುಟವನ್ನು ಸ್ಕ್ರೇಪ್ ಮಾಡಿದೆ. ಆ ಪುಟವೇ ಅದಕ್ಕೆ ಏನು ಮಾಡಬೇಕೆಂದು ತಿಳಿಸಿತು.

𝗛𝗮𝗿𝗱𝗲𝗻𝗶𝗻𝗴 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗔𝗴𝗮𝗶𝗻𝘀𝘁 𝗣𝗿𝗼𝗺𝗽𝘁 𝗜𝗻𝗷𝗲𝗰𝘁𝗶𝗼𝗻

LLM ಪ್ರಾಂಪ್ಟಿಂಗ್‌ನಲ್ಲಿ ಪರಿಣತಿ ಪಡೆಯುವುದು: ಒಬ್ಬ ಡೆವಲಪರ್‌ನ ಮಾರ್ಗದರ್ಶಿ

Using AI Without Leaking Secrets

n8n AI ವರ್ಕ್‌ಫ್ಲೋಗಳಲ್ಲಿ ಡೇಟಾ ಸೋರಿಕೆಗಳನ್ನು ತಡೆಯಲು 5 ವಿಧಾನಗಳು