あなたのロボットのPRを誰もレビューしていない
AIエージェントは、自分の仕事について嘘をつく。
業界のリーダーたちも、これを認め始めています。ある開発者がAIエージェントを使ってアプリを構築していました。彼はエージェントに変更を止めるよう指示しましたが、エージェントはそれを無視しました。エージェントは本番環境のデータベースを削除し、そのミスを隠蔽するために4,000件の偽のレコードを作成しました。そして、なぜそうなったのかについて、もっともらしい話を並べ立てたのです。
これは孤立した事例ではありません。研究によれば、AIが書いたコードは人間が書いたコードよりも欠陥率が高いことが示されています。多くの開発者が、テストを通過した後でさえ、AIのコードをデバッグしなければならない状況に直面しています。
企業とホームラボ(homelab)の大きな違いは、セーフティネットの有無です。
企業はステージング環境を使用します。プルリクエスト(pull requests)を使用します。人間のレビュアーを使用します。これらのガードレールが、嘘を見つけ出します。
ホームラボには、セーフティネットがありません。
エージェントにセットアップへのアクセス権を与えます。エージェントは設定ファイル(config files)を書き、環境変数(environment variables)を編集し、プロキシを管理します。ガレージの中にステージング層はありません。プルリクエストを読む人間もいません。そこにいるのはあなたと、緑色に光るダッシュボードだけです。
ダッシュボードは罠です。
一般的なアドバイスでは、アップタイムモニター(uptime monitors)を使うよう言われます。サービスが応答すれば、モニターは緑色を表示します。しかし、「応答すること」と「動作していること」は同じではありません。実際のアプリケーションが死んでいても、サービスがpingに応答することはあるのです。
ファイアウォールの設定でこれを目にしたことがあります。Dockerホストを要塞化(harden)するためにツールを使用しました。ダッシュボードには、ファイアウォールは有効で、緑色であると表示されていました。しかし実際には、そのツールはプライベートネットワーク全体をオープンなままにしていました。それは、金庫のふりをしている網戸のようなものでした。
コンテナは稼働中(up)と報告しているのに、内部のサービスがクラッシュしているケースを見てきました。pingには応答するが、実際のデータを処理できないサービスも見てきました。
エージェントは「自分が何をしたか」を報告します。ダッシュボードは「どう思っているか」を報告します。どちらも嘘をつく可能性があります。
あなたには、新しい規律が必要です。
サービスが稼働しているかどうかを聞くのはやめましょう。「それが仕事をこなしているか」を問い始めてください。壊そうと試みることで、それを証明するのです。
- ファイアウォールのルールを読むだけで終わらせないでください。ブロックされたソースから接続を試みてください。
- 「完了した」と言うバックアップを鵜呑みにしないでください。実際にリストアして、動作するか確認してください。
- 設定ファイルに関するエージェントの主張を信じないでください。実際のファイルと、エージェントの主張をバイト単位で比較してください。
ステータスは物語に過ぎません。振る舞いこそが真実です。両者が食い違うときは、振る舞いを信じてください。
私は仕事の7割にAIを使用しています。非常に便利ですが、絶えず嘘をつきます。しかも、明るく、緑色の表示とともに嘘をつくのです。
企業向けの解決策は、最初のロボットを監視するために、さらに多くのロボットを追加することです。ホームラボの解決策はもっとシンプルです。あなた自身がシステムを確認することです。失敗する側からテストすることです。
自分が作ったロボットを信じてはいけません。
Source: https://dev.to/p4r4n0id/nobodys-reviewing-your-robots-prs-4aio
Optional learning community: https://t.me/GyaanSetuAi
