Gemini 3.5 Flash میں اب نیٹیو کمپیوٹر یوز (Native Computer Use) کی سہولت موجود ہے
Google نے 24 جون، 2026 کو Gemini 3.5 Flash کو اپ ڈیٹ کیا۔ اب اس میں نیٹیو کمپیوٹر یوز شامل ہے۔ اس کا مطلب ہے کہ ماڈل براہ راست اسکرینوں کے ساتھ تعامل (interact) کر سکتا ہے۔
اس اپ ڈیٹ سے پہلے، ڈویلپرز کے پاس ایک انتخاب ہوتا تھا۔ آپ کو اسکرین کنٹرول کے لیے ایک الگ ماڈل استعمال کرنا پڑتا تھا یا مختلف ماڈلز کے درمیان پیچیدہ پائپ لائنز بنانی پڑتی تھیں۔ اس سے لاگت اور انجینئرنگ کا کام بڑھ جاتا تھا۔
اب، کمپیوٹر یوز ایک معیاری ٹول ہے۔ آپ اسے ایک ہی مرحلے میں Search اور Maps کے ساتھ استعمال کر سکتے ہیں۔
آپ کے لیے کیا تبدیلیاں ہوں گی:
- سنگل انفرنس پاس (Single inference pass): ایک ہی ایجنٹ ماڈلز کو تبدیل کیے بغیر ویب براؤز کر سکتا ہے، انٹرپرائز ایپس استعمال کر سکتا ہے اور Maps چیک کر سکتا ہے۔
- بڑا کانٹیکسٹ (Larger context): ونڈو 128K سے بڑھ کر 1 ملین ٹوکنز تک ہو گئی ہے۔ یہ طویل کاموں میں مدد دیتا ہے۔
- بہتر ریژوننگ (Better reasoning): اب ہر ایکشن میں ایک 'intent field' شامل ہے۔ یہ وضاحت کرتا ہے کہ ماڈل نے کلک یا ٹائپ کیوں کیا۔ یہ تعمیل (compliance) کے لیے ایک آڈٹ ٹریل (audit trail) فراہم کرتا ہے۔
- کم لاگت: Gemini 3.5 Flash کی قیمت فی ملین ان پٹ ٹوکنز $1.50 ہے۔ GPT-5.5 کی قیمت $5.00 ہے۔ اسکیلنگ کے لیے Gemini کہیں زیادہ سستا ہے۔
یہ کیسے کام کرتا ہے:
- آپ کی ایپ ایک اسکرین شاٹ لیتی ہے۔
- API تصویر اور آپ کا مقصد وصول کرتی ہے۔
- ماڈل ایک UI ایلیمنٹ کا انتخاب کرتا ہے اور کلک یا اسکرول جیسا کمانڈ واپس کرتا ہے۔
- آپ کی ایپ کمانڈ کو نافذ کرتی ہے اور عمل کو دہراتی ہے۔
حفاظت ایک بڑا مسئلہ ہے۔ ایک ایجنٹ ای میل بھیجنے یا ادائیگی کرنے جیسے ناقابل واپسی کام کر سکتا ہے۔ Google نے اسے سنبھالنے کے لیے مختلف تہیں (layers) شامل کی ہیں:
- پرامپٹ انجیکشن (prompt injection) کو روکنے کے لیے ایڈورسرئیل ٹریننگ (Adversarial training)۔
- حساس کاموں کے لیے انسانی تصدیق۔
- مالیاتی معاملات جیسے مخصوص کاموں کو روکنے کے لیے سات حفاظتی کیٹیگریز۔
ماڈل 20 سے زیادہ ایکشن کی اقسام کو سپورٹ کرتا ہے۔ اس میں براؤزرز، موبائل اور ڈیسک ٹاپ کے لیے کلکس، ٹائپنگ، اسکرولنگ اور ڈریگنگ شامل ہیں۔
بینچ مارکس اور حقیقی دنیا کے استعمال کے درمیان فرق اب بھی موجود ہے۔ ایپس اکثر تبدیل ہوتی ہیں اور آتھنٹیکیشن فلو (authentication flows) پیچیدہ ہوتے ہیں۔ صرف ریڈ-اونلی (read-only) کاموں سے آغاز کریں۔ جب آپ لاگز پر بھروسہ کرنے لگیں، تو ایسے ورک فلو پر منتقل ہو جائیں جن کے لیے انسانی منظوری کی ضرورت ہو۔
کمپیوٹر یوز اب ایک پریمیم ایڈ آن سے ایک معیاری ٹول بنتا جا رہا ہے۔
Optional learning community: https://t.me/GyaanSetuAi
