ظهور زیرساخت داده‌های وب: حل گلوگاه دانش در هوش مصنوعی

با حرکت هوش مصنوعی از چت‌بات‌های آزمایشی به سمت ابزارهای حیاتی سازمانی، مانع بزرگی پدیدار شده است: کمبود داده‌های وبِ ساختاریافته و آنی (real-time). در حالی که معماری مدل‌ها در حال پیچیده‌تر شدن است، «لایه دانش» که پشتیبان آن‌هاست، همچنان پراکنده، قدیمی و برای دسترسی در مقیاس بزرگ، دشوار باقی مانده است.

فراتر از آموزش ایستا: نیاز به بافتار (Context) آنی

سال‌ها بود که محرک اصلی پیشرفت هوش مصنوعی، افزایش مقیاس اندازه مدل و آموزش بر روی مجموعه‌داده‌های عظیم و ایستا بود. با این حال، این رویکرد در حال برخورد به سقف خود است. آموزش سنتی بر اسنپ‌شات‌هایی (snapshots) از اینترنت که در یک نقطه زمانی خاص گرفته شده‌اند تکیه دارد، که برای نیازهای تجاری مدرن کافی نیست. برای ردیابی متغیرهای بی‌ثبات مانند قیمت‌گذاری رقبا، تغییر در احساسات مصرف‌کننده یا تهدیدات امنیتی نوظهور، هوش مصنوعی به جریان مداومی از اطلاعات تازه نیاز دارد.

همان‌طور که اور لنچر (Or Lenchner)، مدیرعامل Bright Data، خاطرنشان می‌کند، یک لایه هوشمندی بدون یک لایه دانش آنی، در واقع مانند «نابغه ای است که هیچ نمی‌داند». بدون بافتار فعلی، مدل‌های هوش مصنوعی از «پاسخ‌های کهنه» رنج می‌برند که منجر به تصمیمات تجاری ضعیف و افزایش توهمات (hallucinations) می‌شود. در واقع، ۵۶ درصد از متخصصان هوش مصنوعی گزارش می‌دهند که دسترسی به داده‌های وب آنی برای بهبود اعتماد به خروجی‌های هوش مصنوعی ضروری است.

شکست بازیابی سنتی و شکاف RAG

حتی با ظهور تولید تقویت‌شده با بازیابی (RAG)، بسیاری از سازمان‌ها برای ارائه نتایج قابل اعتماد با مشکل مواجه هستند. بازیابی در مقیاس بزرگ به تنهایی به معنای هوشمندی با کیفیت بالا نیست. برای اینکه RAG در یک محیط عملیاتی به‌طور مؤثر عمل کند، داده‌ها باید «آماده برای هوش مصنوعی» (AI-ready) باشند؛ به این معنی که دقیق، ساختاریافته و دارای بافتار باشند.

حساسیتِ درست انجام دادن این کار بسیار بالا است. طبق گزارش گارتنر (Gartner)، انتظار می‌رود ۶۰ درصد از پروژه‌های هوش مصنوعی که فاقد داده‌های آماده برای هوش مصنوعی هستند، تا پایان سال رها شوند. گلوگاه فقط یافتن داده نیست؛ بلکه تأخیر (latency) موجود در بازیابی آن و دشواری فنی پیمایش در وب است که هرگز برای کشف خودکار طراحی نشده است.

ساخت لایه زیرساخت: تقلید از رفتار انسانی

مرز بعدی تکامل هوش مصنوعی در یک لایه زیرساخت تخصصی داده‌های وب نهفته است که برای پیمایش صدها میلیون دامنه و میلیاردها URL جدید که هر هفته ایجاد می‌شوند، طراحی شده است. این لایه باید بر موانع فنی قابل توجهی، از جمله سایت‌های سنگین از نظر JavaScript و نرم‌افزارهای تهاجمی ضد ربات (anti-bot)، غلبه کند.

برای دستیابی به این هدف، پلتفرم‌های زیرساختی جدید از استخراج سنتی (scraping) به سمت سیستم‌هایی حرکت می‌کنند که رفتار مرور انسانی را شبیه‌سازی می‌کنند. این امر مستلزم تقلید از هزاران پارامتر — از جمله آدرس‌های IP و موقعیت‌های جغرافیایی — برای تعامل با وب‌سایت‌ها دقیقاً همان‌گونه است که یک کاربر انسانی انجام می‌دهد. این قابلیت اجازه می‌دهد تا داده‌ها در مقیاس‌های عظیم (بالقوه تا ۸۰ میلیارد تعامل در روز) جمع‌آوری شوند و همزمان کدهای خام و ساختارنیافته به فیدهای داده‌ای ساختاریافته و قابل استفاده تبدیل گردند.

مدیریت انطباق و مقیاس‌پذیری

با گسترش این لایه زیرساختی، باید تعادلی میان مقیاس عظیم و حاکمیت دقیق داده‌ها برقرار شود. توانایی بازیابی داده‌ها با تأخیر بسیار کم باید با رعایت دقیق چارچوب‌های جهانی حریم خصوصی مانند GDPR و CCPA همزیستی داشته باشد. هدف، ایجاد پلی بی‌وقفه بین «جهان» وسیع و ساختارنیافته وب و نیازهای ساختاریافته و آنی مدل‌های هوش مصنوعی سازمانی است.

نکات کلیدی

  • تازگی داده‌ها حیاتی است: داده‌های آموزشی ایستا دیگر کافی نیستند؛ داده‌های وب آنی برای جلوگیری از توهمات هوش مصنوعی و حفظ ارتباط با دنیای تجارت ضروری هستند.
  • الزام «آماده برای هوش مصنوعی»: بدون داده‌های ساختاریافته و دارای بافتار، ۶۰ درصد از پروژه‌های هوش مصنوعی با خطر شکست مواجه هستند که این امر اهمیت فراتر رفتن از بازیابی ساده در مقیاس بزرگ را برجسته می‌کند.
  • تقلید از تعامل انسانی: زیرساخت‌های نوظهور با شبیه‌سازی پارامترهای پیچیده مرور انسانی، مشکلات دسترسی را حل می‌کنند تا از اقدامات ضد ربات عبور کرده و سایت‌های سنگین از نظر JavaScript را در مقیاس بزرگ استخراج کنند.