三星推出评估AI模型生产力的平台TrueBench
3 天前

三星电子于2025年9月25日推出TRUEBench基准平台,该平台由三星研究院开发,旨在评估人工智能生产力。TRUEBench提供了一套全面的指标,用于衡量大型语言模型在实际工作效率应用中的表现。为确保评估真实性,它融合了多种对话场景和多语言条件,借鉴三星内部AI生产力应用,评估10个类别和46个子类别中的常用企业任务,如内容生成、数据分析、摘要和翻译。该基准测试基于人机协作设计的标准,通过AI驱动的自动评估确保评分可靠性。TRUEBench共包含2485个测试集,涵盖10个类别和12种语言,支持跨语言场景,测试集长度从8个字符到超过20000个字符不等。其数据样本和排行榜已在Hugging Face平台开源,用户可比较最多五种模型的性能,并查看响应结果的平均时长数据。