基准 benchmarking - 搜索 News

22 天

我们目前衡量人工智能进步的方式很糟糕

另一个问题是基准测试经常会出现“饱和”的现象，这意味着所有的问题基本上都已经被解决了。举个例子，如果一个测试包含简单的数学问题，第一代人工智能模型得了 20 分，失败了；第二代模型得了 90 分；第三代模型得了 93 ...

IT之家 on MSN13 天

MLCommons 发布 PC AI 基准测试 MLPerf Client 首个公开版本 0.5

IT之家 12 月 12 日消息，开放式机器学习工程联盟 MLCommons 美国加州当地时间昨日宣布推出适用于衡量消费类 PC 的 AI 性能的 MLPerf Client 基准测试的 0.5 版本，这也是该测试的首个公开版本。

14 天

UL Solutions 推出 ProcyonAI：AI 文本生成基准测试引领行业新标准

随着人工智能技术的迅猛发展，AI文本生成作为其中一个重要应用，越来越受到业界的关注。近日，UL ...

腾讯网20 天

对AI的可靠性提出质疑，科学家揭示零模型在大模型基准测试取得高胜率

相关论文以《在自动大语言模型基准测试中作弊：零模型获得高胜率》（Cheating automatic LLM benchmarks：Null models achieve high win rates）为题发表在预印本 ...

10 天

VLSBench发布：破解多模态安全测试的新方式

近年来，多模态大语言模型（MLLMs）的发展迅猛，但随之而来的安全性问题也引起了广泛关注。上海AI Lab近日推出了一款全新的安全基准工具——Multimodal Visual Leakless Safety Benchmark（VLSBench），旨在解决当前多模态模型在安全测试中面临的诸多挑战。VLSBench的核心目标是避免视觉信息泄漏（Visual Safety Information ...

13 小时

AMD Strix Halo APU 集成的 Radeon 8060S 核显 3DMark 跑分曝光

IT之家 12 月 25 日消息，AMD 锐龙 AI MAX PRO 390 集成的 Radeon 8050S “次旗舰”核显已经出现在了 PassMark 基准测试数据库中，而更强的旗舰级 Radeon 8060S 跑分成绩也已经流出。

腾讯网2 天

CF Benchmarks：预计明年投资顾问在比特币和以太坊ETF市场持有的份额将 ...

BlockBeats 消息，12 月 23 日，芝商所和加密货币基准指数提供商 CF Benchmarks 表示，投资顾问预计将在明年超越对冲基金，成为美国比特币现货 ETF 的最大持有者。美国比特币现货 ETF 的需求主要来自对冲基金经理，他们拥有 45.3% 的 ETF 份额。投资顾问位居第二，占 28%。根据 CF Benchmarks 的预测，这一情况将在 2025 ...

来自MSN27 天

什么会影响大模型安全？NeurIPS'24新研究提出大模型越狱攻击新基准与 ...

全新大语言模型越狱攻击基准与评估体系来了 ... 其研究成果《Bag of Tricks: Benchmarking of Jailbreak Attacks on LLMs》现已被NeurIPS D&B 2024接收。

来自MSN1 个月

M4 Max在Blender GPU基准测试中落后RTX 4090近30% 但超越RTX 4070和3080 Ti

我们现在来看看 M4 Max 芯片的 GPU 基准测试，其结果与英伟达的 RTX 4070 和 RTX 3070 Ti 相比同样惊人。考虑到 M4 Max GPU 在 Apple Silicon 产品线中的中高地位 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果