发布日期:2025-12-24 12:52 点击次数:62

出品 | 虎嗅科技组
作家 | 丸齐山
裁剪 | 苗正卿
头图 |
在老本市集的热度趋于幽静之时,摩尔线程又在产业端将东说念主们的视野拉回。
12月20日,摩尔线程举行了首届“MUSA开荒者大会”,发布全新一代全功能GPU架构“花港”,以及基于“花港”架构打造的AI训推一体芯片“华山”,以及专用于高性能图形渲染的芯片“庐山”。

此外,摩尔线程首创东说念主在现场还公布了“夸娥万卡智算集群”,以及改日行将发布的MTT C256超节点结构计议。
要是说上述现实还属于“可量度的”技巧迭代内,那么诸如中间言语MTX,以及光刻计较库、量子计较交融框架等技巧,就真的完满在东说念主预思以外了。
诚然,也不错说这些技巧并非摩尔线程初度建议的,毕竟背面这几项或多或少齐在GTC大会上出现过,但从国产GPU公司体量来看,勇于全标的地去搭建生态,这自己等于件值得细办法事。
关于正处于“神色估值”与“感性疑望”交汇中的摩尔线程来说,这场开荒者大会亦然在向外界传达一个明确的信号,即不管行业作何评价,摩尔线程齐会坚握以MUSA为中枢,去打造近似CUDA的生态护城河。
与英伟达中门对狙?
先来说说本次开荒者大会上,让笔者最为畏惧的一项技巧:中间言语MTX。
它属于MUSA 5.0软件栈的一部分,关于MUSA调治架构,眷注过摩尔线程的东说念主或多或少齐了解过,这是摩尔线程自主研发的秘籍从芯片架构、领导集编程模子到软件初始库及驱动圭表框架的全栈技巧体系。
在此前几次版块迭代中,MUSA主要集合在编程生态的扩展,比容兼容更多编程言语,或是丰富算子库上,而今天提到的“中间言语MTX”属初度出现。

简便阐明下中间言语MTX是什么。它的中枢作用是兼容不同代际GPU的领导架构,让路发者无需为每一代新GPU再行适配代码,大幅镌汰开荒者适配成本,同期为表层软件生态提供踏实的底层撑握。
用个更直不雅的例子来阐明下:在英伟达CUDA生态下,其中枢底层组件之一,等于这个中间言语技巧,英伟达将其定名为“PTX”,依托PTX中间言语,开荒者在2018年为Turing架构芯片编译的代码,于今仍可通过驱动即时编译在2025年的Blackwell芯片上初始。
那么作念这个“中间言语”难吗?应该说十分难,而且耗时耗力,相同以英伟达的PTX为例,在2007年随CUDA 1.0发布后,大部分版块齐需要新增对应硬件的专属领导(如Tensor Core关联领导),同期保握对旧版块的兼容,最终变成“高档言语→PTX→硬件二进制领导”的练习编译链路。
关于开荒者来说,因为中间言语PTX的存在,愈加没根由闭幕CUDA,因为在英伟达之前,就莫得芯片厂商有计划过“上前兼容”的问题。
不外,关于国内GPU厂商而言,开荒一个中间言语的难度细目要浩瀚于英伟达,因此在今天之前,笔者从不合计真会有国内厂商去作念这件事。
而按照张建中在今天开荒者大会上的表态,在来岁上半年,摩尔线程自研的MTX就将向开荒者敞开。
相较于英伟达的18年磨一剑,不错想到的是,摩尔线程的MTX在适用性上一定不如前者,不外勇于迈出这一步,如故满盈令东说念主刮目相看。
毕竟,在GPU行业中,有着英伟达这座大山,“不作念生态”还是成为了某种经由上的政事正确。
新架构,普及显赫
从2022年基于MUSA调治架构的“苏堤”问世算起,摩尔线程先后推出了四代GPU架构,而本次发布的“花港”架构基本上不错看作是升级幅度最大的一代。
领先是计较性能的显赫普及。基于新一代领导集,“花港”架构较前代“平湖”的算力密度普及50%,同期能效大幅优化,且支握从FP4到FP64的全精度端到端的全精度端到端计较。
其次是异步编程与超大鸿沟互联的支握。新一代异步编程模子,能够更好地优化任务诊治与并行极致,而通过自研的MTLink高速互联技巧,将支握十万卡以上鸿沟的智算集群扩展。

值得一提的是,在开荒者大会现场,张建中还明确示意,新一代“花港”架构将内置AI生成式渲染结构,何况完好意思支握DirectX 12 Ultimate。
据此基本不错判断出,摩尔线程的消耗级显卡接下来一定会获得迭代,而且极大要率是一款基于“花港”架构打造的居品。在“消耗级显卡”这个小众且最艰深的赛说念上,摩尔线程依然莫得毁掉。
基于“花港”架构,摩尔线程在今天发布了两款芯片:“庐山”与“华山”。
先说说定位于“AI训推一体”芯片的“庐山”。除了上文提到的新一代异步编程与全精度张量计较单位外,这枚芯片还有个特殊之处是能够适配多种“类以太条约”,同期又适配多种Scale-Up switch。
这意味着“庐山”芯片不仅能在MTlink下使用,也不错兼容国内其他厂商的条约,而据张建中在现场的先容,“庐山”最高支握在1024片超节点的扩展。
应该说,尽管摩尔线程执着于打造自研生态,但并莫得把路走窄。
另外一枚用于高性能图形渲染的芯片“庐山”,其图像性能对比MMT S80,在集成了AI生成式渲染后,AI计较性能普及64倍,UtiTE调治渲染架构让几那处感性能普及16倍,全新的硬件光追引擎,让光泽跟踪性能普及50倍。

除了芯片外,本次MUSA开荒者大会还慎重发布了“夸娥万卡智算集群”。该集群具备全精度、全功能通用计较智商,在万卡鸿沟下完了高效踏实的AI教师与推理。

陆续拓展生态界限
本年,国内GPU行业的叙事厚重从“能用”悠扬到“好用”,尤其在H200解禁对华出口后,国内从业者愈加感受到了关键。
在芯片“好用”这个问题上,摩尔线程谜底仍聚焦于“生态”二字,不仅要完了生态自强,也在主动探索生态界限。
比如在今天的开荒者大会上,摩尔线程推出的“长江”SoC。这款芯片主要面向端侧,通过CPU+GPU+NPU的组合,最高可提供50 TOPS的异构AI算力。

据张建中先容,摩尔线程将推出基于“长江”SoC、AI芯片模组MTT E300和夸娥智算集群打造的MT Robot具身智能惩办决议。
通过这个组合能够看出,该款决议最大的特质是能够互助“端—边—云”算力。据悉,MT Robot还是用在了农业场景中。
另外值得一提的是,摩尔线程还基于这款SoC打造了一款名为“MTT AIBOOK”的AI算力本,改日还将推出一款迷你型计较建立MTT AI Cube。

而在具身智能方面,除了MT Robot外,摩尔线程还发布了MT Lambda具身智能仿真教师平台。
该平台在定位上有些近似于英伟达的Issac Sim,但又不完满一样。MT Lambda中枢聚焦于“全栈交融”,旨在将物理引擎、渲染引擎与AI引擎深度整合,冲突了传统具身智能研发中“开荒、仿真、教师”各递次割裂的痛点,以普及研发效果。
此外,MT Lambda也不错径直部署到MT Robot上,以变成软硬件的高效协同。
从摩尔线程在具身智能赛说念上的生态拓展不错看出,在当今任何一个与“计较”关联的行业中,摩尔线程齐试图通过“全栈软硬件架构+全场景居品”的布局占据身位,每一步齐在拓展生态的界限,同期每一步齐靠近确凿打实的挑战。
某种意旨上,这亦然在走一遍英伟达来时的路,面对后者近20年千里淀出的生态霸权,摩尔线程能否搭建起另一条国产生态护城河,谜底终究需要时候来考试。
本文来自虎嗅,原文归并:https://www.huxiu.com/article/4819257.html?f=wyxwapp