搜索
当前所在位置: 首页>算力百科

国产卡是如何兼容CUDA的?

发布时间:2026-05-28 10:44:08 作者:超级管理员 点击:1 【 字体:

都在说CUDA是英伟达最强的护城河,CUDA到底是什么?CUDA是英伟达在2006年推出的并行计算平台,简单说就是一套让程序员把计算任务扔给GPU跑的"语言+工具+规则"。听起来没什么特别,但问题在于,过去二十年,全球AI和深度学习的生态,几乎全部建立在CUDA之上。PyTorch、TensorFlow、各种大模型训练框架,底层都在调用CUDA。全球数百万AI工程师,写的代码默认就是CUDA代码。这套生态的护城河,不是技术本身,而是习惯和惯性。

CUDA

当前时间节点买了一张国产GPU,性能可能不差,但跑不了CUDA代码,对大多数AI工程师来说,等于买了一台没有软件的电脑。

这是国产GPU厂商必须面对的问题:用户的代码是为CUDA写的,不是为你写的。你让一个工程师把几十万行代码全部重写来适配你的新平台?不现实。所以,怎么让为CUDA写的代码在我的卡上也能跑,成了每家国产GPU厂商都必须回答的问题。

业界大致摸索出了几条路。

第一条,是直接翻译源代码。工具扫描你的CUDA代码,把里面的API调用自动替换成国产平台的对应接口,就像把一本英文书逐字翻译成中文书,然后交给中文读者。华为昇腾的CANN平台提供了这类迁移工具。好处是转换后的代码原生跑在国产卡上,性能损耗小;坏处是翻译不可能百分之百完美,总有些翻不过来,需要工程师手动修改。

第二条,是运行时拦截。不改源代码,而是在程序运行的时候,悄悄拦截所有对CUDA的调用,实时转发给国产GPU的驱动。程序以为自己在调英伟达的库,背后已经被偷梁换柱了。这就像同声传译——你说英文,翻译官在旁边同步翻成中文,对方听到的是中文,整个过程你毫无感知。摩尔线程的MUSA、沐曦的MXMACA走的都是这条路,用户体验好,改动极少甚至零改动,但翻译层本身有性能开销,复杂的CUDA特性也可能翻译不了。

第三条,是干脆重建生态。不翻译,直接重新写一遍。华为的MindSpore框架是这条路的代表,思路最彻底,但现实很骨感——MindSpore的用户量和PyTorch相比差距悬殊,工程师们不愿意学一套新框架,除非被迫。所以这条路更多是长期战略,短期内解决不了兼容问题。

在这几条路之外,有一家公司走了一条完全不同的路,值得单独说说,那就是海光。

海光的DCU系列,底层架构脱胎于AMD,AMD有一套开源的GPU计算平台叫ROCm,其中有个接口叫HIP,HIP的API设计和CUDA高度相似,官方还提供了hipify工具,可以自动把CUDA代码转成HIP代码,转换率相当高。

海光DCU正是基于这套体系,推出了自己的软件栈DTK(DCU Toolkit)。不过在极致性能调优上也不如完全自研的架构灵活。但在短期内,这是国产卡里CUDA兼容性最好的方案之一。

兼容CUDA这个说法,其实是个程度问题,不是非黑即白。

CUDA经过二十年发展,API数量庞大,功能极其复杂。国产厂商的兼容层,通常能覆盖最常用的那20%接口,而这20%能跑通80%的主流模型。但如果你的代码深度依赖NVIDIA特有的硬件特性,比如Tensor Core的特定指令集,兼容层就可能翻车。更准确的说法是:国产卡在主流AI训练和推理场景下,已经能做到较好的CUDA兼容;但在边缘场景和极致性能优化上,仍有差距。

这件事之所以难,根本原因在于CUDA和国产GPU的底层架构存在根本性差异。NVIDIA GPU有自己独特的线程层级模型,国产GPU的硬件架构各不相同,有的更像DSP,有的更像向量处理器,CUDA的很多优化技巧在国产GPU上可能根本没有对应的硬件支持,细腻的表达,注定会丢失。

CUDA的护城河,本质是二十年的生态积累。国产GPU厂商正在做的事,是先用"翻译"让用户能用起来,再慢慢建立自己的生态。这条路很难,但没有捷径。






阅读全文
相关推荐

总投资约50亿!交通银行贵安数据中心正式接入电网

总投资约50亿!交通银行贵安数据中心正式接入电网
2026年5月23日消息,交通银行贵安数据中心于近日已圆满完成全流程通电调试,正式接入电网,目前相关带电设备运行安全稳定。交通银行贵安数据中心项目位于贵安新区马场产业新城,是交通银行总行异地数据中心,也是贵州省重点工程。项目总投资约50亿元,总建筑面积约18万平方米,整体规划部署服务器超20万台,按照“整体规划、...

万亿空间!NVIDIA 2027财年第一季度财务报告深度解读!

万亿空间!NVIDIA 2027财年第一季度财务报告深度解读!
AI基础设施的投资浪潮,早已跨过概念炒作阶段,进入实打实的业绩兑现周期。美东时间5月20日,英伟达发布2027财年第一季度重磅财报,交出了一份颠覆行业预期的成绩单。即便彻底失去中国主流AI芯片市场,英伟达依旧创下单季营收、净利润双历史新高,用硬核数据印证了自身在全球AI产业链的绝对统治力。更值得关注的是,这份财报...

上新!移动模型服务平台MoMA上架多款千问旗舰模型

上新!移动模型服务平台MoMA上架多款千问旗舰模型
AI“超级入口”再迎重磅升级!移动模型服务平台MoMA集中上架三大品类、多款千问优质旗舰模型,进一步扩充模型储备、拓宽应用场景,让用户便捷对接顶尖AI算力与模型资源,精准匹配各类AI使用需求。丰富模型矩阵,适配多元使用场景本次上新打破单一模型类型局限,以“汇聚更多模型能力”为核心,精准覆盖旗舰模型的高效适配与...

GPU显卡驱动如何安装?

GPU显卡驱动如何安装?
注:GPU服务器建议不要升级内核版本,一旦升级内核后需要重新安装GPU驱动安装GPU驱动$apt-getinstallgccmake$apt-getupdate$wgethttp://cn.download.nvidia.com/XFree86/Linux-x86_64/440.44/NVIDIA-Linux-x86_64-440.44.run$sudochmod+xNVIDIA-Linux-x86_64-440.44.run$s...

极智算算力平台|硬核算力底座,赋能 AI 全域高效落地

极智算算力平台|硬核算力底座,赋能 AI 全域高效落地
随着人工智能技术飞速普及,大模型训练、模型微调、AI 推理、高性能计算、数字孪生等场景迎来爆发式增长,稳定、合规、高性价比的算力资源,已成为企业、科研机构与开发者发展的核心刚需。极智算算力平台深耕 GPU 算力服务赛道,聚焦合规算力供给、整机租赁、服务器托管、大模型一站式部署,以顶尖硬件配置、灵活服务模式、...

全球巨头砸钱超3800亿 工业富联涨停引爆算力板块

全球巨头砸钱超3800亿  工业富联涨停引爆算力板块
5月13日,A股市场274.18亿元的成交额,让一只股票刷新了历史纪录——这个数字,相当于当天所有A股总成交额的近1%,全部涌向了同一家公司:工业富联。这只市值超过1.4万亿元 的巨头在午后涨停,并带动整个算力产业链集体爆发。全球巨头“烧钱”竞赛,钱会流向哪里?这场行情最直接的导火索,是市场对国内科技巨头即将公布“成...

总投资24亿!中国银联黄山数据中心园区项目正式通电

总投资24亿!中国银联黄山数据中心园区项目正式通电
2026年5月23日消息,银联黄山园区项目10KV开关站A/B双回路于近日成功完成高压送电。据悉,银联黄山园区项目位于安徽省黄山市高新技术产业开发区丹霞路与银蝶湖北路交口东北侧部分地块(烟草公司和中科创新广场用地东侧,百川路南侧),是国家关键金融基础设施重要组成部分,也是安徽省重点项目和黄山市头号工程。该项目总投...

GTX显卡和RTX显卡的区别是什么?

GTX显卡和RTX显卡的区别是什么?
TX 与 RTX 的核心差异在于架构代际、专用硬件单元与新技术支持:RTX 具备硬件级光线追踪与AI 超分(DLSS),GTX 无专用单元,仅能软件模拟光追、不支持 DLSS。核心差异速览关键技术解释RT Core(光线追踪核心):RTX 专属,加速光线求交与反射 / 折射 / 阴影计算,光追效率远高于 GTX 的软件模拟。Tensor Core(张量核心):...

AutoDL 算力平台|弹性普惠算力,让 AI 开发零门槛

AutoDL 算力平台|弹性普惠算力,让 AI 开发零门槛
在 AI 技术普及的浪潮中,个人开发者、高校科研团队与中小企业,常面临算力成本高、环境配置复杂、资源弹性不足的痛点。AutoDL 作为国内领先的 C 端 AI 算力云平台,以 “弹性、好用、省钱” 为核心定位,深耕轻量化算力服务,凭借万卡级算力储备、开箱即用的开发环境、极致性价比的计费模式,成为 AI 开发者的首选算力伙伴...

呼和浩特 H100*8卡 45台 现货出租

呼和浩特 H100*8卡 45台 现货出租
GPU裸金属服务器-A100*8CPU: 2*Intel Xeon Gold 6248R(24Core,3.0GHz)内存:24*32GB系统盘:2*480GBSATA SSD数据盘:4*1.92TB NVMe SSD显卡:Nvidia A100 PCIE 40G *8网卡:1 x2*25GE...
返回顶部