评测成绩比肩GPT-4，商汤日日新大模型再升级

2024.2.03

原文地址：http://news.sciencenet.cn/htmlnews/2024/2/517164.shtm

近日，商汤科技发布“日日新SenseNova 4.0”，多维度升级了大模型体系。

据介绍，日日新SenseNova 4.0 具备更广泛的知识覆盖、更稳定的推理能力、更优秀的长文本理解力、更可靠的数字推理能力和更强的代码生成能力，同时支持跨模态交互。日日新·商量大语言模型-通用版本（SenseChat V4），支持128K语境窗口长度，综合整体评测成绩水平比肩 GPT 4。其中推理和代码编程的测评成绩还稍高于GPT-4：在权威测试集HumanEval Coding的测试中，一次通过率达到75.6%（GPT-4此项数据为74.4%）。

基于大模型评测平台OpenCompass全集测试，日日新·商量大语言模型SenseChat V4综合整体评测成绩水平比肩GPT-4。商汤科技供图

凭借丰富的AI技术能力，商汤的“日日新SenseNova”大模型体系正在打通各类AI应用场景。目前，商汤提供多款工具，包括面向办公场景的商汤日日新·商量语言大模型数据分析版本、面向医疗场景的日日新·商量语言大模型医疗版“大医”、面向自动驾驶及工业场景的日日新·商量多模态大模型以及面向创作创意场景的日日新·秒画文生图大模型等。

据悉，商汤的“日日新·商量大语言模型”已在金融、医疗、汽车、地产、能源、传媒、工业制造等多个垂直行业与超过500家客户达成深度合作，加速服务行业企业的智能化转型。

为降低开发者使用大模型的门槛，商汤科技推出了适用于不同模态工具调用的日日新·商量大语言模型Function call & Assistants API版本，此举将为大模型与各种应用服务工具之间建立便捷桥梁。

值得关注的是，商汤也将先进的大模型能力成功转化为实际场景应用的产品。以数据分析工具“办公小浣熊”为例，该工具正是基于最新发布的日日新·商量大语言模型Function call & Assistants API进行开发的。

未填写