ポーカーから利益へ:DeepMindのアルムナイがいかにトレーディングに革命を起こしているか

元DeepMindの研究者たちが、プロのポーカープレイヤーを打ち負かすことから、数十億ドル規模の市場ボリュームを管理することへと舵を切っている。プラハを拠点とする彼らのスタートアップ、EquiLibre Technologiesは、強化学習をクオンツ・ファイナンスというハイステークスな世界に応用することで、5億ドルという驚異的な企業価値を達成した。

ポーカーの戦略をウォール街へ転用する

EquiLibreを突き動かす核心的なイノベーションは、不完全情報ゲームにおける強化学習(RL)を、株式市場の複雑な仕組みへと移行させたことにある。創業メンバーであるCEOのMartin Schmid、CTOのRudolf Kadlec、CSOのMatej Moravcikの3名は、プロのノーリミット・テキサスホールデム・プレイヤーを破った初のAI「DeepStack」を開発したことで名を馳せた。

その論理は自然な進化と言える。ポーカーとトレーディングはどちらも、不確実性の中で明確かつ測定可能な結果を伴う最適な意思決定を行う必要があるからだ。Schmidが指摘するように、トレーディングにおける「スコアリング」は驚くほど単純で、究極の報酬はキャピタルゲイン(資本利得)である。モデルがインセンティブ化されたフィードバックループを通じて学習するRLを活用することで、EquiLibreはゲームの枠を超え、S&P 500やNasdaqにおける取引の実行へと進出した。

巨大なスケールと実証されたパフォーマンス

EquiLibreは単にシミュレーションを行っているだけではない。グローバル市場に積極的に参画しているのだ。クオンツ企業であるTower Research Capitalとの提携により、同スタートアップのアルゴリズムは、1日あたり数十億ドルにものぼる取引ボリュームを管理している。

同スタートアップのトラックレコードは、その一貫性において特に注目に値する。2025年に暗号資産市場で初期展開を行った後、同社は伝統的な株式市場へと拡大し、「設立以来、月間損失ゼロという完璧な記録」を謳っている。このレベルの安定性は、Creandumのようなベンチャーキャピタルにとって大きな魅力となっており、同社は最近、同VCにとって過去最大規模の単一投資となるシリーズAラウンドを主導した。

コンピュート資源と人材を巡る競争

EquiLibreは5億ドルの企業価値達成に成功したものの、数万個ものハイエンドGPUを活用し、RLと大規模言語モデル(LLM)を組み合わせているJane Streetのような、既存のトレーディング巨頭との激しい競争に直面している。

競争に打ち勝つため、EquiLibreは伝統的な金融の考え方ではなく、「ラボ・ファースト」のアプローチに焦点を当てている。彼らの戦略は、以下の2つの主要な柱で構成されている:

  • 力任せではなく効率性を重視: 巨大なGPUクラスターに頼るのではなく、チームは「より少ないリソースからより多くを得る」ことを目指し、限られた計算資源からより高いパフォーマンスを引き出すようアルゴリズムを最適化している。
  • 戦略的なインフラ構築: 同社は研究能力を拡大するため、中東欧(CEE)最大級のコンピューティング・クラスターの構築を計画している。

プラハに拠点を置くことで、創業者たちはGoogleなどの企業から流出した専門性の高いチェコ人ディアスポラ(離散民)のネットワークを活用しており、超競争的なサンフランシスコのエコシステムの外側で、25名の専門家からなる極めて質の高いチームを構築することに成功している。

主なポイント

  • アルゴリズムの進化: EquiLibreは、プロのポーカーで使用されていた強化学習技術(DeepStack)を、S&P 500やNasdaqにおける1日あたり数十億ドルの取引ボリュームを管理するために、見事に転用している。
  • 爆発的な企業価値: Creandumが主導したシリーズAの成功を受け、同スタートアップは「月間損失ゼロ」と報じられるトラックレコードに後押しされ、5億ドルの企業価値に達した。
  • 堀(モート)としての効率性: 膨大なハードウェアの優位性を持つ巨人に立ち向かうため、EquiLibreはアルゴリズムの効率化と、中東欧(CEE)地域における大規模なコンピューティング・インフラの構築に注力している。