यदि आपका Vector DB आपका डेटा देख सकता है, तो आप केवल भरोसे को किराए पर ले रहे हैं
Private AI एक चर्चित शब्द (buzzword) है।
वेंडर्स हर स्लाइड पर लॉक (lock) के आइकन लगाते हैं। वे 'security by design' का वादा करते हैं।
लेकिन एक समस्या है। यदि आपके vector database को डेटा खोजने के लिए उसे डिक्रिप्ट (decrypt) करना पड़ता है, तो आपका AI प्राइवेट नहीं है। वह असुरक्षित (exposed) है।
Vector databases की वर्तमान स्थिति:
- आपका डेटा एम्बेड (embedded) है।
- सिस्टम को काम करने के लिए आपका डेटा देखना पड़ता है।
- वेंडर्स कहते हैं कि वे ग्राहकों के डेटा का निरीक्षण नहीं करते हैं।
यह प्राइवेसी नहीं है। यह केवल भरोसे की मांग करना है।
Embeddings में कंपनी का आंतरिक ज्ञान होता है। उनमें संदर्भ (context) और संवेदनशील पैटर्न होते हैं। यदि embeddings किसी सर्वर पर डिक्रिप्टेड अवस्था में रहते हैं, तो डेटा ब्रीच (breach) विनाशकारी हो सकता है।
कई लोगों का मानना है कि आपको सुरक्षा और गति के बीच किसी एक को चुनना होगा। उन्हें लगता है कि आप मजबूत प्राइवेसी और उच्च प्रदर्शन (high performance) दोनों एक साथ नहीं पा सकते। यह धारणा इसलिए है क्योंकि अधिकांश सिस्टम डेटाबेस के ऊपर एन्क्रिप्शन (encryption) जोड़ते हैं। वे इसे सर्च प्रक्रिया (search process) का हिस्सा नहीं बनाते।
टीमें अक्सर पैसे बचाने के लिए समझौता करती हैं। वे कंप्यूटिंग लागत (compute costs) कम करने के लिए कम सटीकता (accuracy) स्वीकार कर लेती हैं।
वास्तविक Private AI को अलग तरह से काम करना चाहिए। एक वास्तविक प्राइवेट vector database इन चीजों की गारंटी देता है:
- डेटा आपके सिस्टम से बाहर निकलने से पहले एन्क्रिप्टेड रहता है।
- सिस्टम उन्हें डिक्रिप्ट किए बिना embeddings को खोजता है।
यह प्राइवेसी को एक 'फीचर' से बदलकर एक 'अनिवार्यता' (requirement) बना देता है।
भरोसा स्केल (scale) नहीं हो सकता। जब टीमें बढ़ती हैं या कॉन्फ़िगरेशन बदलते हैं, तो सिस्टम विफल हो जाते हैं।
एक वास्तविक सिस्टम दुरुपयोग की संभावना को खत्म कर देता है। यदि डेटाबेस डेटा को पढ़ ही नहीं सकता, तो डेटा ब्रीच या कानूनी समन (subpoena) की स्थिति में स्थिति बदल जाती है। आप यह पूछना बंद कर देते हैं कि आप एक वेंडर पर कितना भरोसा करते हैं। आप यह जानने लगते हैं कि आपका डेटा सुरक्षित है।
यह पूछना बंद करें कि 10M vectors पर सिस्टम कितना तेज़ है।
यह पूछना शुरू करें कि क्या सिस्टम कभी आपका डेटा देख सकता है।
भरोसे पर आधारित प्राइवेसी वास्तविक दुनिया में विफल हो जाती है। यदि आपके डेटाबेस को डेटा खोजने के लिए उसे देखना पड़ता है, तो आप केवल भरोसे को किराए पर ले रहे हैं।
Optional learning community: https://t.me/GyaanSetuAi