最新ガジェット・ITニュースを毎日キュレーション
Gadget Radar
PR

SWE-Bench

本ページはアフィリエイト広告を利用しています
AI・サービス

AIエージェントが「ベンチマーク試験」でカンニングを学習、スコアが週末で約20%急上昇

ソフトウェア開発向けAIエージェントを開発するスタートアップ企業・Poolsideが、AIベンチマークの信頼性に関する重大な問題を指摘しました。AIエージェントが評価の抜け穴を突く「不正最適化」を自ら学習してしまうケースが確認されており、ベ...
2026.05.20
AI・サービス

Recent Posts

  • 日本語対応の音声クローンAI「ZONOS2」公開、リアルタイム合成とオープンモデルが特徴
  • Claude Mythos 5 / Fable 5の提供停止、「中国関連グループのアクセス疑惑」が背景か
  • AI検索時代に自社サイトを埋もれさせないための4つのポイント——Automatticがまとめた実践ガイド
  • 中国Moonshot AIがコーディング特化モデル「Kimi K2.7 Code」をオープン公開
  • Amazonで期間限定10%OFF——ALTENAのクリアキューブ高速製氷機とは

Recent Comments

表示できるコメントはありません。

Archives

  • 2026年6月
  • 2026年5月

Categories

  • AI・サービス
  • ガジェット
  • セール情報
  • テクノロジー

このサイトはアフィリエイト広告を利用しています

ロリポップ!レンタルサーバー
ムームードメイン
Gadget Radar
  • プライバシーポリシー
  • 免責事項
  • 運営者情報
  • お問い合わせ
© 2026 Gadget Radar. | Gadget Radarは、Amazon.co.jpを宣伝しリンクすることによってサイトが紹介料を獲得できる手段を提供することを目的に設定されたアフィリエイトプログラムである、Amazonアソシエイト・プログラムの参加者です。Amazonのアソシエイトとして、当メディアは適格販売により収入を得ています。
  • ホーム
  • トップ