مدل‌های زبانی می‌توانند ببینند

Translated for your language. Read the original.

AI-assisted draft.

مدل‌های متنی اغلب با چیدمان بصری مشکل دارند. آن‌ها کلمات را می‌نویسند اما درک نمی‌کنند که آن کلمات روی صفحه نمایش چگونه به نظر می‌رسند.

تحقیقات جدید این موضوع را تغییر می‌دهد. اکنون می‌توانید کنترل‌های بصری را در فرآیند تولید متن ادغام کنید. این کار به مدل‌ها اجازه می‌دهد در حین نوشتن، ببینند.

نحوه عملکرد:

مدل در طول فرآیند بازخورد بصری دریافت می‌کند.
متن را برای انطباق با چیدمان‌های خاص تنظیم می‌کند.
معنای زبانی را با جایگذاری مکانی پیوند می‌دهد.

این امر نحوه مدیریت داده‌های ساختاریافته توسط هوش مصنوعی را بهبود می‌بخشد. همچنین به طراحی UI و قالب‌بندی اسناد کمک می‌کند.

دیگر نیازی نیست مدل‌های متنی را از ابزارهای بصری جدا کنید. می‌توانید از یک سیستم برای مدیریت هر دو استفاده کنید.

منبع: https://dev.to/paperium/language-models-can-see-plugging-visual-controls-in-text-generation-aml

انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi

مدل‌های زبانی می‌توانند ببینند

Continue reading

𝗢𝘃𝗶𝘀: 𝗦𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗮𝗹 𝗘𝗺𝗯𝗲𝗱𝗱𝗶𝗻𝗴 𝗔𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁

GPT فراتر از آنچه تصور می‌کنید عمل می‌کند

چک‌لیست VL: ارزیابی مدل‌های زبان-بینایی

مدل‌های زبانی بزرگ برای درک زبان

𝗧𝗼𝘄𝗮𝗿𝗱𝘀 𝗭𝗲𝗿𝗼 𝗟𝗮𝗯𝗲𝗹 𝗟𝗮𝗻𝗴𝘂𝗮𝗴𝗲 𝗟𝗲𝗮𝗿𝗻𝗶𝗻𝗴