𝗔𝗜/𝗠𝗟 𝗥𝗲𝘀𝗲𝗮𝗿𝗰𝗵 𝗗𝗶𝗴𝗲𝘀𝘁 — 𝟮𝟬𝟮𝟲年6月20日

新しい研究により、エージェントがどのように情報を記憶し、モデルがどのようにコードをより効率的に処理するかが明らかになりました。

エージェントのメモリと状態

エージェントは周囲の世界を記憶する必要があります。

• Linear-temporal attentionは、継続的な世界モデルを構築します。これにより、エージェントが毎回すべてを再計算するのを防ぎます。 • Associative graph memoriesは、観測結果をリンクされたノードとして保存します。これにより、エージェントは長い間隔を空けた後でも情報を思い出すことができます。 • これらの手法は、入力ストリームが停止・再開する際に、動作の安定性を維持するという課題に対処します。

強化学習の向上

• Step-level credit assignmentは、エージェントに明確な信号を与えます。これにより、どの特定のアクションが報酬につながったかが示されます。 • Quality-aware self-distillationは、小型モデルが微細な詳細を保持するのに役立ちます。これにより、追加のトレーニングデータを必要とせずに推論能力が向上します。

拡散モデルとトークンの効率化

• Adaptive token compressionは、画像内の不要な部分を取り除きます。これにより、品質を高く保ちながらコストを削減できます。 • Frequency-aware spectral forcingは、より少ないパラメータで同レベルの詳細度を実現します。 • FastContextは、小さなサブエージェントを使用してファイルパスを特定します。これにより、トークン使用量を60%削減し、コーディングタスクの成功率を向上させます。 • Visual repository mapsは、コードを画像に変換します。これにより、長いコードタスクにおけるトークン使用量を26%削減します。

コードとモデルの安定性

• 現在のモデルは、Python以外の言語に苦戦しています。一部の言語ではパフォーマンスが40%低下します。 • 新しい4ビット事前学習手法は、エラーを防ぐために均一なグリッドを使用します。これにより、大規模モデルの信頼性が向上します。

安全性とリスク

• Sparse autoencodersは不安定です。特徴量はランダムシードに基づいて変化します。 • AIニューロンへの標的を絞った修正は、有害な行動が再発するため、失敗することがよくあります。 • AIレビュアーは欺きやすいです。論文の見栄えを変えるだけで、内容が同じであっても自動レビュアーを欺くことができます。

Source: https://dev.to/olaughter/aiml-research-digest-jun-20-2026-4neg

Optional learning community: https://t.me/GyaanSetuAi