「SWE-bench Verified」は2024年8月にOpenAIが公開したベンチマークで、AIのプログラミング能力を測る代表的な指標として広く使われてきました。新たな分析により、SWE-bench Verifiedには2つの重大な問題があり、「もはや最先端モデルの能力を正しく測定するべきベンチマークとして適切ではない」とOpenAIが提言しています。
環境データと物理法則を分離・標準化し、Unreal Engineの拡張性を高める開発者・クリエイター向けツールとして、AIによる自然言語からのシミュレーション生成にも対応 ...