设为首页收藏本站百艺汇文化AI智能助手 天气与日历
     

SuperCLUE测试成绩国内第一,讯飞星火大模型出道即C位!

[复制链接]
查看: 963|回复: 0
  • TA的每日心情
    开心
    2024-5-16 11:40
  • 127

    主题

    0

    回帖

    2690

    积分

    高层管理员

    Rank: 9Rank: 9Rank: 9

    积分
    2690
    发表于 2023-5-11 07:50:21 | 显示全部楼层 |阅读模式

    随着“AI大模型”时代的到来,全球各大企业都想要趁着人工智能的浪潮分一杯羹。面对市面上层出不穷的AI智能大模型,如何判断其实力成为了难题。据悉,评判一个大型语言模型的好坏通常涉及多个方面。

    b3119313b07eca80e9f4c1047926b1d1a0448376.webp.jpg

    其中,评估大型语言模型性能的关键指标是可解释性。可解释性是指模型如何解释其预测结果的过程。具有较高可解释性的模型更容易被理解和接受。然而,需要注意的是,每个任务和应用场景都有其特定的需求和优先级,因此在实际评估中可能需要权衡不同的因素。

    b3119313b07eca809fcb52457826b1d1a044835c.webp.jpg

    5月9日,中文通用大模型综合性评测基准SuperCLUE正式发布。它主要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。SuperCLUE主要从三大能力上来评估。首先是基础能力,包括了常见的有代表性的模型能力,如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等10项能力。其次是专业能力,包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等50多项能力。最后是中文特性能力,针对有中文特点的任务,包括了中文成语、诗歌、文学、字形等10项多种能力。

    9213b07eca806538155cd39470d88748ac348290.webp.jpg

    其发布的总榜单显示,GPT-4排名第一,ChatGPT排名第二,星火认知大模型紧随其后排名第三,也充分说明了星火大模型尽管和GPT还有差距,但已经是国产大模型的佼佼者。

    fa615142cb4c40e99e8d4580bebf7670.png

    科大讯飞在5月6日发布的讯飞星火认知大模型可以说是国内最好!在发布会现场,“真机实测”演示了文本生成、语言理解、知识问答、数学能力等核心能力,星火大模型表现的“很睿智”,不少网友表示感到惊艳、效果超预期。尤其是现场互动环节,网友提问的两个问题:“外星人是否应该戴口罩”、“如何把40平的房子装修出70平的感觉”,星火大模型准确理解、推理,并根据掌握的知识进行解答,现场引发阵阵掌声。

    d788d43f8794a4c2bc552f2ee3f13dd9ad6e3957.webp.jpg

    在星火大模型发布会上,科大讯飞董事长刘庆峰也坦言,目前大模型技术还有待攻克的缺陷,比如新知识难以及时更新、事实类问答容易“张冠李戴”,史实、传统典籍等容易“编造情节”等,但这些问题在今年会有明显的改进。

    d058ccbf6c81800a3509cdd7593015f6838b4708.webp.jpg

    众所周知,大型语言模型的核心技术是认知智能。科大讯飞作为中国人工智能领域的领军企业之一,多年来一直专注于认知智能的研究和开发,具备推出自主研发的国产大型语言模型的能力。这种模型的核心在于算法、数据和算力。科大讯飞在算法和数据方面拥有强大的实力,在算力方面则与华为合作,打造了自主可控的算力平台。可以说,科大讯飞是国内最有可能实现“智慧涌现”的企业之一。此外,尽管星火大型语言模型刚刚发布,但现在谈论与ChatGPT的对标还为时过早。科大讯飞能够提前开放体验、现场实测并落地行业应用,这份勇气和实力在中国企业中都是独一无二的。我们期待着科大讯飞星火未来的表现!

    ——文章来自百度热科技次资讯

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    精彩课程推荐
    官方微博
    官方微信
    Copyright   ©2014-2022  商务论坛  Powered by©Discuz!  技术支持:微店营销中心     ( 粤ICP备 15005171号 )