自去年11月30日ChatGPT发布以来,认知大模型技术快速走完了市场验证阶段,短短一个多月全球用户数破亿,直接吸引了国内众多巨头“参战”。从技术形态看,ChatGPT是标准的AIGC(生成式AI)产品,利用现有文本、音频或图像技术生成新内容,未来将朝着多模态融合路径发展。 5月6日,科大讯飞召开了星火认知大模型成果发布会,其各项能力展示让我看到了国产大模型的新希望。
虽然笔者无法亲临发布会现场,但也在当天第一时间注册并体验了产品。跟很多人一样,当我用完讯飞星火后大吃一惊,没想到它竟到了如此高度。据悉,讯飞星火认知大模型在文本生成和数学能力上,已经国内显着领先,且相比ChatGPT也具有一定优势;在语言理解和知识问答方面也达到接近ChatGPT水平。同时科大讯飞根据认知智能全国重点实验室牵头设计的“通用认知智能大模型评测体系”测试得出了以上结论,该评测体系还获得了中科院人工智能产学研产业联盟与长三角人工智能产业链联盟的认可,这两大联盟分别侧重源头技术创新和产业链应用落地,在行业内拥有举足轻重的“话语权”。
当登陆星火认知大模型后,我主要围绕知识问答、文本生成、和数学能力展开。第一题我就给它挖了一个大大的坑——“爆炒螺丝钉这道菜怎么做?”,之前用其他两个国产大模型回答这道题,他俩双双入坑,真把“爆炒螺丝钉”理解为一道菜,还像模像样的给出了菜谱做法。而星火就很聪明,它直接表明“爆炒螺丝钉”这道菜并不存在,并通过逻辑推理说明了缘由,因为螺丝钉是金属制品无法烹饪和食用,最后还贴心地问我是不是想要了解螺蛳粉或其他美食的做法,这回答太机智了。
再来一道文本生成的提问,我看发布会上刘庆峰透露了纯大模型技术的待攻克缺陷,其中一点就有“新知识难以及时更新”,比如ChatGPT的训练数据库仅更新至2021年,而星火的训练数据库已更新至2022年,因此星火能给出去年五一游客量的提问。而我今年受《三体》电视剧影响,对外星人非常着迷,随即让星火写一篇“浩瀚宇宙真的有外星人”的文章,结果它洋洋洒洒写了一篇644字的小作文,不仅文笔流畅,而且还涵盖了物理、地理等科学知识,不在“有没有”上浪费口舌,而是用逻辑推理给出了多种合理解释,令我信服。
再来一道困扰我很久的数学题,这道题在发布会上也有演示,那就是“股票昨天涨了10%,今天又跌了10%,最终到底是涨是跌”,我可以说90%的人都误以为不赚不赔,但实际上呢?星火假设股票初始价格为100元,再通过两组计算解出了正确答案,最终股票价格是跌了1元。作为一个8岁孩子的家长,我突然灵机一动,以后检查孩子数学作业,我不懂的数学题可以让星火替我解题。这或许是刘庆峰那句“一个更美好的世界将始于我们每个人的提问,期待让星火大模型成为每个人的AI助手”的生动写照。当然,目前可供普通用户使用的星火认知大模型,还没有发布会上演示的菜单识别等功能。但可以预见的是,未来认知大模型一定是朝着文字、语音、图片甚至视频等多模态融合方向去发展,这样就能让星火更深入的参与艺术创作等领域。
在发布会上,刘庆峰还宣布了年内星火大模型技术持续升级的三个关键里程碑节点:6月9日,将突破开放式问答、多轮对话能力明显提升、数学能力再升级;8月15日,代码能力升级以及多模态交互能力提升,希望能帮助到更多的合作伙伴及开发者团队;10月24日,将实现通用模型对标ChatGPT,中文超越ChatGPT的当前版本,英文能做到相当水平,并在教育、医疗等领域做到业界领先。在实际使用星火过程中,我偶尔也会遇到星火出现大模型的通病,比如张冠李戴等,但看到科大讯飞公布的三个节点,就可以了解到星火还在不断进化,那一些通病也是情有可原,整体来看,讯飞星火回答完整度和准确率还是很高的。
延伸阅读:
- 率先落地应用!讯飞星火大模型发布,争做国产大模型领域的“排头兵”
- 科大讯飞GPT体验热潮!个人示范应用讯飞听见搭载讯飞星火认知大模型
未经允许不得转载:零时古怪 - 中国第一新闻资讯综合门户 » 用完讯飞星火大吃一惊,“国产ChatGPT”竟到了如此高度?