যদি আপনার Vector DB আপনার ডেটা দেখে, তবে আপনি কেবল আত্মবিশ্বাস ভাড়া করছেন

Private AI একটি বহুল আলোচিত শব্দ (buzzword)।

বিক্রেতারা প্রতিটি স্লাইডে তালার আইকন ব্যবহার করেন। তারা ডিজাইনের মাধ্যমেই নিরাপত্তার প্রতিশ্রুতি দেন।

কিন্তু একটি সমস্যা আছে। যদি আপনার vector database সার্চ করার জন্য ডেটা ডিক্রিপ্ট (decrypt) করতে হয়, তবে আপনার AI প্রাইভেট নয়। এটি উন্মুক্ত।

Vector database-এর বর্তমান অবস্থা:

  • আপনার ডেটা এমবেড (embedded) করা থাকে।
  • সিস্টেমগুলো কাজ করার জন্য আপনার ডেটা দেখে।
  • বিক্রেতারা বলেন যে তারা গ্রাহকের ডেটা পরিদর্শন করেন না।

এটি প্রাইভেসি নয়। এটি কেবল বিশ্বাসের ওপর নির্ভর করা।

Embeddings-এর মধ্যে কোম্পানির অভ্যন্তরীণ জ্ঞান থাকে। এতে প্রেক্ষাপট (context) এবং সংবেদনশীল প্যাটার্ন থাকে। যদি embeddings কোনো সার্ভারে ডিক্রিপ্ট করা অবস্থায় থাকে, তবে একটি ডেটা লঙ্ঘন (breach) বিপর্যয়কর হতে পারে।

অনেকে বিশ্বাস করেন যে আপনাকে নিরাপত্তা এবং গতির মধ্যে যেকোনো একটি বেছে নিতে হবে। তারা মনে করেন আপনি শক্তিশালী প্রাইভেসি এবং উচ্চ পারফরম্যান্স—দুটোই একসাথে পেতে পারেন না। এই বিশ্বাসের কারণ হলো বেশিরভাগ সিস্টেম ডেটাবেসের ওপর অতিরিক্ত এনক্রিপশন (encryption) যোগ করে। তারা এটিকে সার্চ প্রক্রিয়ার ভেতরে বিল্ট-ইন হিসেবে তৈরি করে না।

টিমগুলো প্রায়ই খরচ বাঁচাতে আপস করে। কম্পিউট খরচ কমাতে তারা কম নির্ভুলতা (accuracy) মেনে নেয়।

প্রকৃত Private AI-কে ভিন্নভাবে কাজ করতে হবে। একটি সত্যিকারের প্রাইভেট vector database এই বিষয়গুলো নিশ্চিত করে:

  • আপনার সিস্টেম থেকে বের হওয়ার আগে ডেটা এনক্রিপ্টেড থাকে।
  • সিস্টেমটি embeddings গুলোকে ডিক্রিপ্ট না করেই সার্চ করতে পারে।

এটি প্রাইভেসিকে একটি ফিচার থেকে প্রয়োজনীয়তায় (requirement) রূপান্তরিত করে।

বিশ্বাস স্কেল (scale) করা সম্ভব নয়। টিম বড় হলে বা কনফিগারেশন পরিবর্তন হলে সিস্টেম ব্যর্থ হয়।

একটি প্রকৃত সিস্টেম অপব্যবহারের সম্ভাবনা দূর করে দেয়। যদি ডেটাবেস ডেটা পড়তে না পারে, তবে একটি ডেটা লঙ্ঘন (breach) বা আইনি তলব (subpoena) পরিস্থিতির মোড় ঘুরিয়ে দেয়। আপনি তখন আর জিজ্ঞেস করবেন না যে আপনি একজন বিক্রেতাকে কতটা বিশ্বাস করেন। বরং আপনি নিশ্চিতভাবে জানবেন যে আপনার ডেটা নিরাপদ।

একটি সিস্টেম 10