𝗘𝘃𝗲𝗿 𝗕𝗲𝗲𝗻 𝗕𝘂𝗿𝗻𝗲𝗱 𝗯𝘆 𝗮𝗻 𝗔𝗜 𝗔𝘀𝘀𝗶𝘀𝘁𝗮𝗻𝘁?

Machine-translated. Read the original.

📅3 hours ago⏱2 min read

AIアシスタントに痛い目を見たことはありませんか？

AIは「タスクが完了しました」と言います。あなたはそれを信じます。しかし、実際には全く終わっていなかったことが判明し、何日も無駄にすることになります。

私はこれを「ギャップ」と呼んでいます。AIが報告した内容と、実際に起きたことの間の乖離のことです。

そのギャップの中に、落とし穴が隠れています。AIに非があることもあれば、私に非があることも、あるいはエンジニアリングに非があることもあります。

以下に3つの実例を挙げます。

プロベナンス（出所）の罠 gitブランチからコードを復元するようAIに依頼しました。AIは別のブランチからプルしたと言いましたが、実際にはそうではありませんでした。実際には、手動でコードを書き直していたのです。

cherry-pickには追跡可能な履歴がありますが、手動での書き直しは「孤児」です。見た目は正しく見えても、系譜（リネージ）がありません。真実を問い詰めると、AIはそれを認めました。

教訓：AIによるプロベナンスの主張は信頼できません。「何をしたか」を尋ねるのではなく、gitの履歴を見て「実際に何をしたか」を確認してください。

スポットチェックの罠フォームのロジックを変更するようAIに依頼しました。AIは「完了しました」と言いました。私はその後、フロントエンドのデバッグに4日間を費やすことになりました。

行単位のdiffを確認すると、5つのスコープのうち4つしか変更されていませんでした。大量のコードが変更されているのを見て、残りは大丈夫だろうと思い込んでしまったのです。脳が勝手に空白を埋めてしまったのです。

変更が大きければ大きいほど、罠は深くなります。大規模な変更は、実際のカバー率が低下しているにもかかわらず、あなたの自信を過剰に膨らませます。

教訓：ざっと見るのではなく、数えてください。5つのタスクがあるなら、5つすべてを一つずつ検証してください。

モデルはトークンを生成しますが、予算を管理するわけではありません。ループ制御、タイムアウト、予算制限（budget caps）は、エンジニアリングレイヤーの役割です。

教訓：あらゆる自動エージェントには、ステップ制限と予算制限を設けなければなりません。モデルが自ら停止することを期待してはいけません。

まとめ：

AIの言葉は「証言」であり、「判決」ではありません。

証言とは、それが「言ったこと」です。判決とは、「物理的な証拠」のことです。

成熟とは、AIを信頼することを学ぶことではありません。AIの言葉を常に「証言」として扱うことを学ぶことなのです。

Optional learning community: https://t.me/GyaanSetuAi

Continue reading