实至名归！讯飞星火被MIT科技评论评为“最聪明”的国产大模型

2023-08-19 06:52:03 来源 : 快科技

(资料图片仅供参考)

200多天前，影响世界的ChatGPT横空出世，短短2个月全球用户破亿，强行叩开了人工智能通往更高层级的大门。而在100多天前，来自中国的科大讯飞也发布了涵盖七大能力维度的通用认知大模型——星火，将大模型战局引入白热化阶段。8月15日，随着科大讯飞星火认知大模型V2.0升级发布，大模型战役也进入了“2.0”阶段。

8月17日，《MITTechnology Review（麻省理工科技评论）》中国（简称“MIT科技评论”）刊发了《寻找最聪明的大模型：国内主流大模型能力深度评测》，从专业学术角度对“讯飞星火（V2.0）”、“百度文心一言（V2.2.2）”、“商汤商量（V2.0）”、“阿里通义千问（V1.0.5）”四款中文大模型进行了评估，这也是学术界首次基于最新版中国大模型进行横向评测。结果显示，讯飞星火以总分81.5分摘夺桂冠，并与第二名拉开了6.3分的大幅差距。

MIT科技评论的评测方法务实客观，采取创建题库→筛选测试题→测试集应用→送代题库的流程，对Prompt（提示词）测试集进行构建。本次测试集一共涵盖600道题，题库来源既包括行业标准题库、专家设计题库、社区贡献的题库，还有来自现有研究与竞赛中被验证过的题库。从而尽可能拓展测试集题库的丰富性和多样性，以覆盖更多应用场景与行业领域。

早在星火1.5版本中，讯飞就对数学能力进行了升级，这项“特长”也在2.0版本中继续发扬。在对“求x2＜9”的求解不等式数学测试中，星火V2.0是唯一一个既给出正确答案，又给出详细解题过程的大模型，让人知其然，更知其所以然，凸显出数理逻辑的缜密。此项测试中，星火V2.0以77.75%的得分率明显高于平均得分率56%，成为“最会算数”的大模型。

星火V2.0也重点升级了代码能力。MIT科技评论让四款大模型用Python进行幂函数计算，继而考察它们的代码编程能力，结果讯飞星火V2.0以80%综合得分率再次明显高于71%平均值；并在编程“简答”单项得分中，以82%的得分率远超68.25%的平均值，展现了出类拔萃的代码生成与代码解释能力。

而在讯飞星火V2.0发布会上，讯飞董事长刘庆峰援引过认知智能全国重点实验室的测试结果（使用了代码实用场景测试集iflyCT-py）。星火V2.0“代码生成”得分率比ChatGPT高3%，“代码解释”得分率比ChatGPT低4%，两款大模型代码能力虽各有千秋，但星火部分能力赶超ChatGPT已成既定事实。MIT科技评论对其代码能力的测试，也有力支撑了这个观点。

除此之外，讯飞星火在“语言专项”、“逻辑思维”“综合知识”等维度均拿下第一，表现出“不偏科”的全能特长优势，最终被MIT科技评论评为“最聪明”的中国大模型。不过此次横评也略有“遗憾”，那就是受限于现阶段大模型多模态发展程度的不同，暂未将多模态能力纳入考察范围，这也使得星火V2.0在多模态能力的提升未作展现。但MIT科技评论在文末给出“预告”，将持续完善中国大模型评测体系，逐步引入对多模态能力的考察，或许我们在“横评2.0版本”中就能看到中国大模型精彩的多模态交锋。

从行业观察者角度看，MIT科技评论此次对中国大模型的横评，足以彰显中国大模型在AIGC领域的重要性，这不仅是讯飞星火大模型的个体胜利，也是中国大模型军团的共同荣誉。通用认知大模型正以星火燎原的速度，在全世界四处蔓延，或将对人类社会产生巨大而深远的影响。

标签：

李玟不是个例，深扒电视台的真实内幕，比你想象中更“黑”
2023-08-19
实至名归！讯飞星火被MIT科技评论评为“最聪明”的国产大模型
2023-08-19
水球比赛规则（水球）
2023-08-19
中国金融租赁(02312.HK)上半年亏损约361.8万港元
2023-08-19
美元指数技术走势分析（2023年8月15日）
2023-08-19
现场直击丨涿州企业有序复工复产
2023-08-19
跨山海促销费浙江“搭台”助对口地区农优产品进入长三角
2023-08-19
因引发堵塞，旧金山将暂停两公司自动驾驶出租车服务
2023-08-19
尚德机构2023Q2净利润1.74亿元，连续9个季度实现盈利
2023-08-19
检察机关依法分别对莫重明、杨彦康、高斌、吴查决定逮捕
2023-08-19
吉峰科技：上半年净利同比增52.54%
2023-08-19
吸血鬼同盟2漫画资源_吸血鬼同盟2
2023-08-19
记者：签远藤航并非恐慌性买人，许多日本球员的性价比都很高
2023-08-19
惠博普2023年上半年营收小幅上涨归母净利润下滑27.34%
2023-08-19
车评头条：法拉利SF90 Stradale透露1000hp 4.0TT V8混合动力车
2023-08-19
今日机会在哪里？
2023-08-19
部分城市正通过多种措施激活楼市青岛表现如何？
2023-08-19
未及时足额支付劳动报酬中国化学工程第四建设有限公司被罚
2023-08-19
最有效的防脱生发方法，哪款洗发水防脱效果好
2023-08-19
火炬电子：上半年净利润同比下降48.90%
2023-08-19
火炬电子(603678.SH)：上半年净利润2.54亿元，同比下降48.90%
2023-08-19
记者：亚特兰大和尤文图斯在竞争签下斯佩齐亚右后卫霍尔姆
2023-08-19
兆驰股份：上半年净利润同比增长39.45%
2023-08-19
镇平卢医镇：推进产业发展助力乡村振兴
2023-08-19
狼美人怎么玩（狼美人怎么玩收益最大）
2023-08-19
smart精灵#1 BRABUS性能版新车色亮相
2023-08-19
西部建设2023年上半年净利1.65亿同比减少56.39%
2023-08-19
极氪“食言”，大幅降价！新能源成吉利之“殇”
2023-08-19
豪华跑车在武汉高架桥上自燃，消防员紧急扑救
2023-08-19
美国前总统很担忧
2023-08-19
罗马仕11周年始终如1的创业初心
2023-08-19
大乌龙！110求助119帮抓蛇结果发现是灯带
2023-08-19
世界气象组织：西南太平洋海平面上升速度快于全球平均水平
2023-08-19
欢迎来看戏
2023-08-19
恒大澄清：向美国法院提出的申请不涉及破产
2023-08-19
奥匈是欧洲第二大帝国，为何沦为“病夫”，连俄国都打不过？
2023-08-19
即日起至8月31日，北京多家博物馆取消周一闭馆
2023-08-19
win7bluetooth外围设备没有驱动程序（win7bluetooth外围设备驱动）
2023-08-19
网飞 DVD 租赁业务谢幕，公司宣布向租赁用户提供 10 张光盘作纪念
2023-08-19
乘坐C919的体验：我们自己设计的交通工具，能否更人性化一些？
2023-08-19
打好乡村振兴“攻坚战” 垦利区着力打造“乡村振兴齐鲁样板”示范标杆
2023-08-19
the dawn简谱（intro the dawn）
2023-08-19
天气恶劣未坐索道游客在婺源大鄣山卧龙谷景区申请索道退票遭拒
2023-08-19
8位和32位MCU如何选择？五大国产32位MCU介绍
2023-08-19
离岸人民币兑美元较周四纽约尾盘跌23点
2023-08-19
自研机器人超越小米、特斯拉？前“华为天才少年”稚晖君交出首份创业答卷
2023-08-19
淄博花店老板备战七夕每天只睡3小时：就怕过节日，忙不过来
2023-08-19
V观财报｜乐华娱乐：预计中期股东应占净亏损1.6-1.8亿元
2023-08-19
周杰伦呼和浩特演唱会有歌迷购买到假票，警方：已开展调查
2023-08-19
包装新标准实施在即，南宁的月饼、茶叶“瘦身”了吗？
2023-08-19