مهندسی چارچوب (Harness Engineering) آدرس ثابتی ندارد

مهندسی چارچوب، مکانی در پشته نرم‌افزاری (software stack) شما نیست؛ بلکه ویژگی کد شماست.

بسیاری فکر می‌کنند چارچوب صرفاً یک پوشش (wrapper) دور یک مدل هوش مصنوعی است. این اشتباه است. چارچوب همان چیزی است که یک مدل را برای کسب‌وکارهای واقعی کاربردی می‌کند.

من از یک فرمول ساده استفاده می‌کنم: عامل = مدل × چارچوب.

مدل، موتور است. چارچوب، فرمان، ترمز و حفاظ‌های ایمنی است.

اما مشکل اینجاست: مدل مدام در حال رشد است. هر نسخه جدید از مدل، بخش‌هایی از چارچوب را در خود جذب می‌کند.

  • مدل‌های استدلالی (Reasoning models) اکنون منطق زنجیره تفکر (chain-of-thought) را مدیریت می‌کنند.
  • مدل‌های بهتر، استفاده از ابزار را به‌صورت بومی (natively) انجام می‌دهند.
  • پنجره‌های بافت (context windows) طولانی، جایگزین سیستم‌های حافظه قدیمی می‌شوند.

اگر مدل، چارچوب را ببلعد، چه چیزی برای ساختن باقی می‌ماند؟

بخش‌هایی که از بین می‌روند، بخش‌های مکانیکی هستند. حلقه‌ها، تلاش‌های مجدد (retries) و اتصال حافظه (memory stitching) به کالاهای عمومی (commodities) تبدیل خواهند شد. آینده شغلی خود را روی ساخت زیرساخت‌های ساده (plumbing) شرط‌بندی نکنید.

بخش‌هایی که باقی می‌مانند، تعیین مشخصات (specification) و راستی‌آزمایی (verification) هستند.

۱. تعیین مشخصات (Specification): شما باید تعریف کنید که عامل مجاز به انجام چه کارهایی است. یک مدل نمی‌تواند سیاست استرداد وجه خاص شما یا میزان تحمل ریسک شما را بداند. این موارد در کد شما تعریف می‌شوند. ۲. راستی‌آزمایی (Verification): شما باید ثابت کنید که عامل در چارچوب قوانین شما باقی مانده است. یک مدل نمی‌تواند به‌طور قابل‌اعتماد خود را قضاوت کند. شما به یک لایه خارجی برای بررسی کار نیاز دارید.

یک عامل استرداد وجه (refund agent) را در نظر بگیرید.

اگر محدودیت استرداد وجه را در یک پرامپت (prompt) قرار دهید، کاربر می‌تواند مدل را فریب دهد. اما اگر محدودیت را در یک دستور if در کد خود قرار دهید، مدل نمی‌تواند با آن مخالفت کند.

آن دستور if همان مهندسی چارچوب است.

مهندسی چارچوب درباره دو چیز است:

  • تعریف محدوده رفتارهای مجاز.
  • اثبات اینکه عامل در داخل آن محدوده باقی مانده است.

مدل، گیاهی است که شما کنترل می‌کنید. مشخصات، هدف شماست. چارچوب، کنترل‌کننده است. ارزیابی‌ها، بازخورد هستند.

ابزارها و مکانیسم‌ها هر ماه تغییر خواهند کرد، اما انضباطِ تعیین مشخصات و راستی‌آزمایی تغییر نخواهد کرد.

ساخت زیرساخت‌های ساده را متوقف کنید. ساخت محدودیت‌ها و اثبات‌ها را شروع کنید.

Source: https://dev.to/saurav_bhattacharya/harness-engineering-has-no-fixed-address-2m7a

Optional learning community: https://t.me/GyaanSetuAi