三星推出评估AI模型生产力的平台TrueBench

3 天前

三星电子于2025年9月25日推出TRUEBench基准平台，该平台由三星研究院开发，旨在评估人工智能生产力。TRUEBench提供了一套全面的指标，用于衡量大型语言模型在实际工作效率应用中的表现。为确保评估真实性，它融合了多种对话场景和多语言条件，借鉴三星内部AI生产力应用，评估10个类别和46个子类别中的常用企业任务，如内容生成、数据分析、摘要和翻译。该基准测试基于人机协作设计的标准，通过AI驱动的自动评估确保评分可靠性。TRUEBench共包含2485个测试集，涵盖10个类别和12种语言，支持跨语言场景，测试集长度从8个字符到超过20000个字符不等。其数据样本和排行榜已在Hugging Face平台开源，用户可比较最多五种模型的性能，并查看响应结果的平均时长数据。

上一篇：今年以来A股定增市场持续火热

下一篇：阶跃AI推桌面AI助手"小跃" 开启本地与云端协同办公新范式

返回列表

热文阅读

2 天前

突发，Meta刚从OpenAI挖走了清华校友宋飏

2 天前

机器人很多，人不够用了……

2 天前

A16Z合伙人最新判断：AI法律谁能跑出来，就看这三条

2 天前

6亿美元买一个“概念浏览器”，AI泡沫的最大信号出现了？