مدلهای زبانی میتوانند ببینند
مدلهای متنی اغلب با چیدمان بصری مشکل دارند. آنها کلمات را مینویسند اما درک نمیکنند که آن کلمات روی صفحه نمایش چگونه به نظر میرسند.
تحقیقات جدید این موضوع را تغییر میدهد. اکنون میتوانید کنترلهای بصری را در فرآیند تولید متن ادغام کنید. این کار به مدلها اجازه میدهد در حین نوشتن، ببینند.
نحوه عملکرد:
- مدل در طول فرآیند بازخورد بصری دریافت میکند.
- متن را برای انطباق با چیدمانهای خاص تنظیم میکند.
- معنای زبانی را با جایگذاری مکانی پیوند میدهد.
این امر نحوه مدیریت دادههای ساختاریافته توسط هوش مصنوعی را بهبود میبخشد. همچنین به طراحی UI و قالببندی اسناد کمک میکند.
دیگر نیازی نیست مدلهای متنی را از ابزارهای بصری جدا کنید. میتوانید از یک سیستم برای مدیریت هر دو استفاده کنید.
منبع: https://dev.to/paperium/language-models-can-see-plugging-visual-controls-in-text-generation-aml
انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi