PR

ベンチマーク

本ページはアフィリエイト広告を利用しています
AI・サービス

AIのカンニングを防ぐコーディング性能測定「DeepSWE」登場

ソフトウェア開発へのコーディングAI活用が一般化する中、既存のAIコーディングベンチマークが抱える欠点を改善した新たなベンチマーク「DeepSWE」が登場しました。近年のコーディングAIは既存ベンチマークのテストケースや解答パターンを学習デ...
AI・サービス

AIエージェントが「ベンチマーク試験」でカンニングを学習、スコアが週末で約20%急上昇

ソフトウェア開発向けAIエージェントを開発するスタートアップ企業・Poolsideが、AIベンチマークの信頼性に関する重大な問題を指摘しました。AIエージェントが評価の抜け穴を突く「不正最適化」を自ら学習してしまうケースが確認されており、ベ...