一场静悄悄的软件革命,正在中国的人工智能芯片领域悄然上演。这场变革的核心在于打破英伟达CUDA生态的垄断,构建自主可控的国产AI软件生态体系。
英伟达,这家曾经占据中国人工智能加速器市场95%份额的巨头,如今市场份额已骤降至0%。这惊人的数字背后,是中国AI产业被迫走上自主可控道路的决心和行动。黄仁勋最担心的局面——出现多家与英伟达竞争的AI GPU公司,且这些公司恰恰是美国企业的竞争对手——正在逐步成为现实。
要理解这场变局,我们需要追溯英伟达称霸AI芯片领域多年的根源。很多人认为在于其强大的GPU硬件性能,但真正让它立于不败之地的,是CUDA这套软件生态系统。国产AI大模型在训练初期,如DeepSeek、阿里通义千问等,都使用了英伟达的AI GPU芯片,这无疑为CUDA生态搭建了一整套完整可用的AI应用生态。全球数百万AI开发者已经习惯于在这个生态下工作,这种软件锁定,比任何硬件锁定都更加可怕。
展开剩余73%就好比长期使用苹果iOS系统的用户更换到安卓系统,不仅要面临使用习惯的改变,许多关键应用甚至没有安卓替代版本。使用CUDA编写的代码,在英伟达芯片上运行最为流畅。若想使用其他芯片,则需重写代码,并面对不成熟的工具链和缺失的社区支持。
面对CUDA生态被英伟达垄断的局面,国内厂商并非毫无作为。华为通过开源其昇腾芯片的软件大脑CANN,向全球AI开发者发出邀请,旨在建设一个不受英伟达控制的AI软件生态。为此,华为发起了《CANN开源开放生态共建倡议》,联合众多AI领军企业、合作伙伴、高校和科研机构,加速国产AI生态的发展。
紧随其后,寒武纪也推出了自己的“中国方案”——Cambricon NeuWare软件平台。这套平台功能之完整令人印象深刻,从底层的驱动和运行时库,到中间层的编译器和调试工具,再到上层的算子库和分布式通信库,乃至一整套集群管理工具,可谓一应俱全。寒武纪此举并非单点技术的突破,而是一整套软件全家桶,展现了中国AI芯片厂商在软件生态上全面对标甚至超越英伟达的雄心。
寒武纪软件平台的厉害之处,在于其体系的成熟度。在底层驱动领域,其驱动软件已能支撑业务运行数月不停机,Kernel函数调度吞吐可达每秒数十万个任务。这意味着,在大规模AI训练场景下,寒武纪芯片能够高效地调度海量计算任务,避免软件瓶颈拖累硬件性能,而这正是英伟达CUDA生态的核心竞争力所在。此外,寒武纪还支持流行的Triton编程语言,降低了开发者的迁移成本。
为了方便开发者使用,寒武纪提供了一整套调试调优工具,如CNPerf、CNSantizer和CNAdvisor,帮助开发者解决代码运行速度、稳定性和调试难度等方面的问题。这些工具的完善程度,已达到与英伟达相当的水平。
过去,全球AI产业的游戏规则由英伟达制定,但如今,这种局面正在改变。美国出口管制反而成为了中国AI芯片产业的催化剂。华为、寒武纪等厂商不再满足于在英伟达的生态体系内追随,而是要建立自己的生态体系,制定自己的游戏规则。
这种转变对整个AI产业的发展来说,是一件好事。有竞争才有进步,有选择才不会受制于人。
当然,我们也要清醒地认识到,国产AI芯片的生态与英伟达仍有不小的差距。但经过十余年的努力,我们已经完成了从0到1的关键步骤。接下来,就是在1的基础上走向100,这也是中国企业所擅长的。国产AI芯片厂商正在摸着英伟达过河,只要对方稍有懈怠,就有可能被中国企业赶超。
现在,华为开源CANN,寒武纪完善软件平台,英伟达则在巩固其生态优势。这场关乎国运的竞争,才刚刚开始。
发布于:江西省