Gemini 3.5 Flash-এ এখন রয়েছে নেটিভ কম্পিউটার ইউজ
Google ২০২৬ সালের ২৪ জুন Gemini 3.5 Flash আপডেট করেছে। এতে এখন নেটিভ কম্পিউটার ইউজ (native computer use) অন্তর্ভুক্ত করা হয়েছে। এর মানে হলো মডেলটি সরাসরি স্ক্রিনের সাথে ইন্টারঅ্যাক্ট করতে পারে।
এই আপডেটের আগে, ডেভেলপারদের একটি কঠিন সিদ্ধান্তের মুখোমুখি হতে হতো। স্ক্রিন নিয়ন্ত্রণের জন্য আপনাকে আলাদা একটি মডেল ব্যবহার করতে হতো অথবা বিভিন্ন মডেলের মধ্যে জটিল পাইপলাইন তৈরি করতে হতো। এটি খরচ এবং ইঞ্জিনিয়ারিংয়ের কাজ বাড়িয়ে দিত।
এখন, কম্পিউটার ইউজ একটি স্ট্যান্ডার্ড টুল। আপনি একটি মাত্র ধাপে Search এবং Maps-এর পাশাপাশি এটি ব্যবহার করতে পারেন।
আপনার জন্য কী পরিবর্তন আসছে:
- সিঙ্গেল ইনফারেন্স পাস (Single inference pass): একটি এজেন্ট মডেল পরিবর্তন না করেই ওয়েব ব্রাউজ করতে পারে, এন্টারপ্রাইজ অ্যাপ ব্যবহার করতে পারে এবং Maps চেক করতে পারে।
- বৃহত্তর কনটেক্সট (Larger context): কনটেক্সট উইন্ডো ১২৮K থেকে বেড়ে ১ মিলিয়ন টোকেন হয়েছে। এটি দীর্ঘ কাজ সম্পন্ন করতে সাহায্য করে।
- উন্নত রিজনিং (Better reasoning): প্রতিটি অ্যাকশনে এখন একটি 'intent field' অন্তর্ভুক্ত থাকে। এটি ব্যাখ্যা করে কেন মডেলটি ক্লিক বা টাইপ করেছে। এটি কমপ্লায়েন্সের জন্য একটি অডিট ট্রেইল তৈরি করে।
- কম খরচ: Gemini 3.5 Flash-এর খরচ প্রতি মিলিয়ন ইনপুট টোকেনে $1.50। GPT-5.5-এর খরচ $5.00। স্কেলিং করার জন্য Gemini অনেক বেশি সাশ্রয়ী।
এটি যেভাবে কাজ করে:
- আপনার অ্যাপ একটি স্ক্রিনশট নেয়।
- API ইমেজ এবং আপনার লক্ষ্য (goal) গ্রহণ করে।
- মডেলটি একটি UI এলিমেন্ট বেছে নেয় এবং ক্লিক বা স্ক্রল করার মতো একটি কমান্ড প্রদান করে।
- আপনার অ্যাপ কমান্ডটি কার্যকর করে এবং প্রক্রিয়াটি পুনরায় চালায়।
নিরাপত্তা একটি বড় উদ্বেগের বিষয়। একটি এজেন্ট ইমেল পাঠানো বা পেমেন্ট করার মতো অপরিবর্তনীয় কাজ করতে পারে। গুগল এটি পরিচালনা করার জন্য বিভিন্ন স্তর যুক্ত করেছে:
- প্রম্পট ইনজেকশন বন্ধ করতে অ্যাডভারসারিয়াল ট্রেনিং (Adversarial training)।
- সংবেদনশীল কাজের জন্য মানুষের নিশ্চিতকরণ (Human confirmation)।
- আর্থিক লেনদেনের মতো নির্দিষ্ট কাজগুলো ব্লক করতে সাতটি সেফটি ক্যাটাগরি।
মডেলটি ২০টিরও বেশি অ্যাকশন টাইপ সাপোর্ট করে। এর মধ্যে ব্রাউজার, মোবাইল এবং ডেস্কটপের জন্য ক্লিক, টাইপিং, স্ক্রলিং এবং ড্র্যাগিং অন্তর্ভুক্ত।
বেঞ্চমার্ক এবং বাস্তব ব্যবহারের মধ্যে ব্যবধান এখনও রয়ে গেছে। অ্যাপগুলো প্রায়ই পরিবর্তিত হয় এবং অথেন্টিকেশন ফ্লো (authentication flows) বেশ জটিল। রিড-অনলি (read-only) কাজ দিয়ে শুরু করুন। যখন আপনি লগগুলোর ওপর আস্থা পাবেন, তখন মানুষের অনুমোদনের প্রয়োজন হয় এমন ওয়ার্কফ্লোতে চলে যান।
কম্পিউটার ইউজ এখন প্রিমিয়াম অ্যাড-অন থেকে একটি স্ট্যান্ডার্ড টুলে পরিণত হচ্ছে।
ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi
