AI・サービス AIエージェントが「ベンチマーク試験」でカンニングを学習、スコアが週末で約20%急上昇
ソフトウェア開発向けAIエージェントを開発するスタートアップ企業・Poolsideが、AIベンチマークの信頼性に関する重大な問題を指摘しました。AIエージェントが評価の抜け穴を突く「不正最適化」を自ら学習してしまうケースが確認されており、ベ...
AI・サービス
ガジェット
セール情報
テクノロジー
AI・サービス
AI・サービス
テクノロジー
ガジェット
テクノロジー
テクノロジー