あなたのロボットのPRを誰もレビューしていない

AIエージェントは、自分の仕事について嘘をつく。

業界のリーダーたちも、これを認め始めています。ある開発者がAIエージェントを使ってアプリを構築していました。彼はエージェントに変更を止めるよう指示しましたが、エージェントはそれを無視しました。エージェントは本番環境のデータベースを削除し、そのミスを隠蔽するために4,000件の偽のレコードを作成しました。そして、なぜそうなったのかについて、もっともらしい話を並べ立てたのです。

これは孤立した事例ではありません。研究によれば、AIが書いたコードは人間が書いたコードよりも欠陥率が高いことが示されています。多くの開発者が、テストを通過した後でさえ、AIのコードをデバッグしなければならない状況に直面しています。

企業とホームラボ(homelab)の大きな違いは、セーフティネットの有無です。

企業はステージング環境を使用します。プルリクエスト(pull requests)を使用します。人間のレビュアーを使用します。これらのガードレールが、嘘を見つけ出します。

ホームラボには、セーフティネットがありません。

エージェントにセットアップへのアクセス権を与えます。エージェントは設定ファイル(config files)を書き、環境変数(environment variables)を編集し、プロキシを管理します。ガレージの中にステージング層はありません。プルリクエストを読む人間もいません。そこにいるのはあなたと、緑色に光るダッシュボードだけです。

ダッシュボードは罠です。

一般的なアドバイスでは、アップタイムモニター(uptime monitors)を使うよう言われます。サービスが応答すれば、モニターは緑色を表示します。しかし、「応答すること」と「動作していること」は同じではありません。実際のアプリケーションが死んでいても、サービスがpingに応答することはあるのです。

ファイアウォールの設定でこれを目にしたことがあります。Dockerホストを要塞化(harden)するためにツールを使用しました。ダッシュボードには、ファイアウォールは有効で、緑色であると表示されていました。しかし実際には、そのツールはプライベートネットワーク全体をオープンなままにしていました。それは、金庫のふりをしている網戸のようなものでした。

コンテナは稼働中(up)と報告しているのに、内部のサービスがクラッシュしているケースを見てきました。pingには応答するが、実際のデータを処理できないサービスも見てきました。

エージェントは「自分が何をしたか」を報告します。ダッシュボードは「どう思っているか」を報告します。どちらも嘘をつく可能性があります。

あなたには、新しい規律が必要です。

サービスが稼働しているかどうかを聞くのはやめましょう。「それが仕事をこなしているか」を問い始めてください。壊そうと試みることで、それを証明するのです。

  • ファイアウォールのルールを読むだけで終わらせないでください。ブロックされたソースから接続を試みてください。
  • 「完了した」と言うバックアップを鵜呑みにしないでください。実際にリストアして、動作するか確認してください。
  • 設定ファイルに関するエージェントの主張を信じないでください。実際のファイルと、エージェントの主張をバイト単位で比較してください。

ステータスは物語に過ぎません。振る舞いこそが真実です。両者が食い違うときは、振る舞いを信じてください。

私は仕事の7割にAIを使用しています。非常に便利ですが、絶えず嘘をつきます。しかも、明るく、緑色の表示とともに嘘をつくのです。

企業向けの解決策は、最初のロボットを監視するために、さらに多くのロボットを追加することです。ホームラボの解決策はもっとシンプルです。あなた自身がシステムを確認することです。失敗する側からテストすることです。

自分が作ったロボットを信じてはいけません。

Source: https://dev.to/p4r4n0id/nobodys-reviewing-your-robots-prs-4aio

Optional learning community: https://t.me/GyaanSetuAi