国产大模型深水区 ,算力登顶之后的封闭算力、生态与规划新应战。下的型的兴起 。逆袭
作者 | 辰纹。国产
来历 | 洞见新研社。推理
本年年初,大模DeepSeek横空出世,征程让国际从头认识了我国大模型 。算力
几乎在DeepSeek爆红的封闭同一时刻 ,科大讯飞发布了全国产算力渠道上首个深度推理大模型——讯飞星火X1,下的型的兴起其绝无仅有的逆袭标签是“仅有根据全国产算力练习的深度推理模型”。
1万张华为昇腾910B国产算力卡,国产练习出的推理星火X1在模型参数比业界同类小一个数量级的情况下,全体作用却能对标OpenAI o1和DeepSeek R1。大模
在长年累月的科技赛跑中 ,科大讯飞用实践行动走出了一条自主可控 ,尽管艰苦,但更值得夸奖大模型开展道路。
从表面上看 ,科大讯飞挑选“全栈自主可控”道路是出于中美竞赛的地缘环境 ,两次被美国列入实体清单 ,无法获得英伟达芯片算力的“另辟蹊径” ,但是更深层次的内中 ,人工智能竞赛的本质现已算法与模型的功能好坏,演化成算力/算法/使用这一整条链接归纳才能的检测。
因此科大讯飞从一开端就确认了“全栈自主可控”的方向,算力国产化,算法自研。
2023年5月,讯飞星火大模型发布,5个月后 ,首个支撑万亿参数大模型练习的万卡国产算力渠道“飞星一号”也宣告正式启用。
2024年 ,在“飞星一号”算力渠道的支撑下 ,讯飞星火大模型不断晋级 ,从V3.5到V4.0再到V4.0 Turbo,中心才能全面临标GPT-4 Turbo。
获得上述成果的背面是科大讯飞与华为一起霸占的技能无人区 。自2023年5月起,两边团队在万卡高速互联组网、核算通讯躲藏、练习推理强交互等要害范畴获得打破 ,将昇腾910B的练习功率从开始相当于英伟达A100的30%-50%提高至85%-95% 。
本年1月,科大讯飞又发布了国内首个根据全国产算力练习的具有深度考虑和推理才能的大模型——讯飞星火X1 。
这个仅130亿参数的“小模型”实力“惊人”,在高考题、AIME竞赛题和高中奥赛题回答中 ,不只答案精确 ,还能供给挨近人类“慢考虑”的详细解题过程。
3个月后,科大讯飞与生态企业组成的联合团队经过多种优化手法提高“飞星一号”渠道上 MoE 模型集群推理的功能上限,并完成大规划专家并行集群推理功能翻番 ,讯飞星火X1也由此迎来了全新晋级 ,在数学 、代码、逻辑推理、文本生成 、言语了解 、常识问答等通用使命上作用显著提高。
科大讯飞的实践充沛证明了根据国产算力练习的全栈自主可控大模型具有登顶业界最高水平的实力和继续立异的潜力