از پوکر تا سودآوری: چگونه فارغ‌التحصیلان DeepMind در حال متحول کردن معاملات هستند

پژوهشگران سابق DeepMind در حال تغییر مسیر از شکست دادن بازیکنان حرفه‌ای پوکر به مدیریت میلیاردها دلار حجم معاملات بازار هستند. استارتاپ آن‌ها مستقر در پراگ، EquiLibre Technologies، با به‌کارگیری یادگیری تقویتی (reinforcement learning) در دنیای پرریسکِ امور مالی کمی (quantitative finance)، به ارزش‌گذاری خیره‌کننده ۵۰۰ میلیون دلاری دست یافته است.

انتقال استراتژی پوکر به وال‌استریت

نوآوری اصلی محرک EquiLibre، انتقال یادگیری تقویتی (RL) از بازی‌های با اطلاعات ناقص به پیچیدگی‌های بازار سهام است. این تیم سه نفره بنیان‌گذار — شامل Martin Schmid (مدیرعامل)، Rudolf Kadlec (مدیر فناوری) و Matej Moravcik (مدیر ارشد علمی) — پیش از این با توسعه DeepStack، اولین هوش مصنوعی که بازیکنان حرفه‌ای پوکر Texas hold ’em بدون محدودیت را شکست داد، به شهرت رسیدند.

این منطق یک تکامل طبیعی است: هم پوکر و هم معامله‌گری شامل اتخاذ تصمیمات بهینه در شرایط عدم قطعیت با نتایج شفاف و قابل اندازه‌گیری هستند. همان‌طور که Schmid اشاره می‌کند، «امتیازدهی» در معامله‌گری بسیار ساده است؛ پاداش نهایی، سود سرمایه است. EquiLibre با بهره‌گیری از RL، که در آن مدل‌ها از طریق حلقه‌های بازخورد تشویقی یاد می‌گیرند، از دنیای بازی فراتر رفته تا معاملات را در شاخص‌های S&P 500 و Nasdaq انجام دهد.

مقیاس عظیم و عملکرد اثبات‌شده

EquiLibre صرفاً به اجرای شبیه‌سازی‌ها بسنده نمی‌کند؛ بلکه به‌طور فعال در بازارهای جهانی مشارکت دارد. این استارتاپ در همکاری با شرکت معاملاتی کمی Tower Research Capital، الگوریتم‌هایی را مدیریت می‌کند که میلیاردها دلار حجم معاملات روزانه را در اختیار دارند.

سوابق این استارتاپ به‌ویژه به دلیل ثبات آن قابل توجه است. پس از عرضه اولیه در بازارهای کریپتو در سال ۲۰۲۵، این شرکت به سمت سهام سنتی گسترش یافت و مدعی شد که «از زمان تأسیس، رکورد بی‌نقصِ صفر ماه منفی داشته است». این سطح از ثبات، جذابیت بزرگی برای سرمایه‌گذاران خطرپذیر مانند Creandum است؛ شرکتی که اخیراً مرحله جذب سرمایه Series A را رهبری کرد که بزرگترین سرمایه‌گذاری تک‌مرحله‌ای این شرکت تا به امروز محسوب می‌شود.

رقابت برای توان محاسباتی و استعدادها

اگرچه EquiLibre با موفقیت به ارزش‌گذاری ۵۰۰ میلیون دلاری رسیده است، اما با رقابت شدیدی از سوی غول‌های معاملاتی باسابقه مانند Jane Street روبروست؛ شرکتی که از ده‌ها هزار GPU سطح بالا استفاده می‌کند و RL را با مدل‌های زبانی بزرگ (LLMs) ترکیب می‌نماید.

برای رقابت، EquiLibre به جای ذهنیت سنتی مالی، بر رویکرد «اول آزمایشگاه» تمرکز کرده است. استراتژی آن‌ها شامل دو رکن اصلی است:

  • بهره‌وری به جای نیروی خام: تیم به جای تکیه بر خوشه‌های عظیم GPU، قصد دارد با «بهره‌گیری بیشتر از منابع کمتر»، الگوریتم‌ها را برای استخراج عملکرد بالاتر از توان محاسباتی محدود، بهینه‌سازی کند.
  • زیرساخت استراتژیک: این شرکت قصد دارد یکی از بزرگترین خوشه‌های محاسباتی را در اروپای مرکزی و شرقی (CEE) برای گسترش قابلیت‌های تحقیقاتی خود بسازد.

بنیان‌گذاران با مستقر کردن خود در پراگ، از استعدادهای متخصص چک که در شرکت‌هایی مانند Google فعالیت می‌کنند بهره گرفته‌اند و این امر به آن‌ها اجازه داده است تا تیمی با سطح بالا متشکل از ۲۵ متخصص را خارج از اکوسیستم فوق‌رقابتی سان‌فرانسیسکو تشکیل دهند.

نکات کلیدی

  • تکامل الگوریتمی: EquiLibre با موفقیت در حال انتقال تکنیک‌های یادگیری تقویتی مورد استفاده در پوکر حرفه‌ای (DeepStack) برای مدیریت میلیاردها دلار حجم معاملات روزانه در S&P 500 و Nasdaq است.
  • ارزش‌گذاری انفجاری: پس از یک مرحله موفق Series A به رهبری Creandum، این استارتاپ با تکیه بر رکورد گزارش‌شده‌ی «صفر ماه منفی»، به ارزش‌گذاری ۵۰۰ میلیون دلاری رسیده است.
  • بهره‌وری به عنوان مزیت رقابتی: در مواجهه با غول‌هایی که از مزیت سخت‌افزاری عظیم برخوردارند، EquiLibre بر بهره‌وری الگوریتمی و ساخت زیرساخت‌های محاسباتی قابل توجه در منطقه CEE تمرکز کرده است.