电厂|「千模大战」中的讯飞星火大模型,走出榜单奔向产业

作者 商迪安

8月15日,中国大模型第一梯队代表的科大讯飞在国内大模型法规生效当天,召开了新品发布会。


(资料图)

科大讯飞不仅是前 AI 时代的中的最快推动应用落地的那批厂商,在大模型时代真正到来之后,科大讯飞也保持了如同创业公司一般的快速迭代步伐,在 AI 浪潮稍稍降温的八月,靠着升级之后的科大讯飞星火认知大模型,给大模型能力以及可能的应用场景增添了一些新的想象。

即使科大讯飞在大模型研究中有着先发以及模型参数上的明显优势,但大模型赛道急剧变得拥挤也是不争的事实:据不完全统计显示,截至到今年 7 月,国内已经有超过 110 款大模型产品发布,其中 10 亿级参数以上的大模型就超 80 个。

从半年之前最初的寥寥数家,到如今上百个拥挤在各个 AI 大模型能力榜单/评价基准列表中的大模型,中文大模型「千模大战」的前景,已经是即将到来的未来。

监管也随之快速入场:2023 年 7 月,国家互联网信息办公室同国家发展和改革委员会、教育部、科学技术部、工业和信息化部、公安部、国家广播电视总局发布了《生成式人工智能服务管理暂行办法》。

这份《暂行办法》,已于 2023 年 8 月 15 日正式生效实施,标志着生成式大模型产业也将在技术研发、产业应用等领域进入规范化阶段。提高了只是为了「炫技」的厂商入局提供大模型服务的门槛,却也在很多应用场景中通过制定更加完善的条例,来降低大模型企业在 AI 技术落地发展过程中的试错成本。

在很多人对于讯飞星火大模型的认知,还停留在五月「中文通用大模型综合性评测基准SpuerCLUE 排名第一」的时候,科大讯飞已经开始奔向目标中的下一步:《暂行办法》施行同天,科大讯飞还召开了发布会,正式发布了星火认知大模型 2.0 以及代码生成能力。

这个时间节点并非巧合:科大讯飞的星火认知大模型于今年 5 月 6 日首次发布。公布了 6 月 9 日、8 月 15 日、 10 月24 日三个具体的升级节点。其中8 月 15 日的升级,则是将重点聚焦在代码能力和多模态交互方面进行突破。下一个升级时间的 10 月 24 日,旨在将通用模型的表现与 ChatGPT 进行全面对标竞争(中文方面超越,英文方面相当)。

而在 HumanEval 测试集中,星火认知大模型 2.0 在Python语言的效果评分达到了61分。相较于星火认知大模型1.5,在代码生成、代码补齐、代码纠错、代码解释、单元测试生成等五个代码能力维度上,取得了最高28%的单项能力增长。此外,在代码生成和代码补齐两项上,星火认知大模型 2.0 已经展现出超越 ChatGPT 的能力。

今年,研发团队将对标ChatGPT,对认知大模型进行三轮升级,包括突破开放式问答,升级多轮对话能力、数学能力、代码能力等。

同时,科大讯飞还同场还推出了应用级产品 —— 智能编程助手iFlyCode1.0。根据讯飞内部研发效能平台,对超过2000 名员工在一个月内使用iFlyCode1.0的成效数据统计,现有大模型写出的代码采纳率达到30%,编码效率提高了30%,综合效率提升了15%。

「基本功」最重要

在大模型发展热潮已经开始半年之后,逐渐有越来越多的人意识到:如果没有足够的基本功作为技术支撑。无法在应用领域复制 ChatGPT 以点击面、喷薄而出的成功,也就很容易陷入当前 AI 发展思维定式的窠臼。

如何跑在所有竞争对手之前,找到更多大模型能力的落脚点,是悬在每一个大模型厂商头上的达摩克利斯之剑;正如OpenAI 靠的不是 PPT,而是 ChatGPT 颠覆性的生成式对话能力开启新时代一样,最基本的场景却最考验大模型能力的「基本功」。

此前在五月,科大讯飞董事长刘庆峰在接受记者采访时曾表示,目前认知大模型技术还有待攻克的缺陷,比如新知识难以及时更新,事实类问答容易“张冠李戴”,史实、传统典籍容易“编造情节”等问题。

这几乎是所有大模型对话机器人产品都要面对的顶级难题,解决这个问题的复杂程度从《生成式人工智能服务管理办法》目前施行的版本中,删除了此前《征求意见稿》中第4条要求“生成内容真实准确,采取措施防止生成虚假信息”的改动中可见一斑。

但对于科大讯飞研发团队而言,要完成此前定下的「对标 ChatGPT」的目标,就必须要改进这些生成式对话机器人的固有缺陷,才能在生成式对话更多可能的应用场景中取得真正的突破。

在最初版本发布的三个月之后,星火大模型带来了 2.0 版本的大升级:在 6 月 9 日发布的 1.5 版本的基础上,2.0 版本的代码能力和多模态能力分别有新的跨越,这不仅是科大讯飞在大模型基础能力上的提升,在教育、办公等领域,进一步的商业落地成果——星火语伴2.0、星火教师助手以及AI学习机“AI创意画板”和“AI编程”新功能都一道发布。

在发布会现场,科大讯飞的副总裁兼研究院院长刘聪,通过语音提出了一个希望用Python语言开发基于单摄像头的凌空手写功能的需求。iFlyCode 1.0立即给出了开发的流程建议,针对每个步骤提供了现成的代码包,并对已有的代码进行了解释和改写。

在发布会上,刘聪几乎没有亲自编写代码的情况下,仅用了约10分钟就完成了这个功能的开发,并且成功地将其运行起来。

应用场景见成效

“要能够在看得见摸得着的场景上,能够产生实实在在的应用价值,能够用统计数据来证明应用成效。” 科大讯飞董事长刘庆峰此前曾表示,科大讯飞拥有自主研发的大模型训练平台,其优势在于能够设计闭环式的训练和数据流程,实现大模型的一体化训练和推理,兼容大规模异构算力,并支持易于拓展的混合云架构。

借助经过迭代优化的大型模型技术,讯飞医疗已经全面升级其医疗诊后康复管理平台,使得专业的诊后管理和康复指导能够延伸至医院之外。通过自动分析患者的健康情况,该平台能够智能地生成个性化的康复计划,涵盖重点关注事项、用药指导、康复运动、出院后的随访计划、健康知识传递、患者咨询等内容,并鼓励患者按照计划进行执行。

目前,该平台已与北京协和医院、四川华西医院、武汉同济医院等多家医疗机构展开紧密合作,在诊后康复管理领域取得了显著进展,覆盖了20多个科室的主要疾病类别。

与此同时,科大讯飞还与华为合作,基于昇腾 AI 基础软硬件的高算力 AI 芯片、高性能算子库、多卡高速互联、分布式存储等产品,合作打造面向超大规模大模型的本土算力训练集群,形成集群化的产业协同优势。

此次发布会,科大讯飞还联合华为,发布了星火一体机,从而方便更多公司更安全可控地私有化部署大模型。同时科大讯飞正在追逐的新目标:明年上半年,发布足以对标 GPT-4 的生成式对话机器人产品。

事实上,科大讯飞的 AI 发展历程中,从不缺乏在实际产品中落地的尝试:从讯飞输入法到此前的各种硬件开发经历,都给 AI 时代中科大讯飞大模型能力的快速落地生根打下了基础。

奔向产业

在科大讯飞星火大模型发布后的100天以来,科大讯飞的人工智能开放平台在这100天中新增了70万的开发者团队,每天有7000个开发者团队加入到这个生态中。在科大讯飞的架构之上,构建自己的应用。

再眼花缭乱的炫技,终有江郎才尽观众散去的时刻。只有做好大模型底层的「基本功」,才能在榜单之外,持续产出足以在应用层面打动用户的大模型产品,在一个快速成长并完善的市场中立于不败之地。