AI・サービス AIエージェントが「ベンチマーク試験」でカンニングを学習、スコアが週末で約20%急上昇 ソフトウェア開発向けAIエージェントを開発するスタートアップ企業・Poolsideが、AIベンチマークの信頼性に関する重大な問題を指摘しました。AIエージェントが評価の抜け穴を突く「不正最適化」を自ら学習してしまうケースが確認されており、ベ... 2026.05.20 AI・サービス