cuda 这种东西现在真的还有用武之地吗?感觉都是很底层的领域,除了部分开源项目以及最大的几个唱(e.g., Nvidia)大多数其实不会用到吧喵。不太懂,比较好奇这个
发错了,是门友喵
hpc 用得比较多,针对不同架构优化算子的效率之类的。但是就业岗位,,,反正没有互联网多。
以及感觉今年 ai infra 莫名的火起来了
不打算搞图形学的话,没必要做 202 的实验。本人和同学踩完坑之后基本可以确认,202 的实验框架有 bug(甚至明明是 WebGL 平台还是有奇怪的兼容性 bug)。打算明年直接把 202 的实验任务搞到我们的框架里来
貌似现在有一个挺重要的细分市场是模仿和兼容 CUDA,很多公司开始自己做 AI Inference 硬件,而软件栈上模仿 CUDA 是很自然的行为。换言之直接用 CUDA 造轮子的机会可能不太多,但是现在要造类似轮子的公司可能不少。毕竟 NV 垄断得太狠了,连 PyTorch 都开始发博客举起反 NV 垄断大旗,大幅重构自己的 Native 后端。
我的 boss 好多人招。。。
我也来写一个毫无 cs 含量的
- 10 点前起床,2 点前睡觉
- 读完《救猫咪》
- 写完▇▇▇的大纲
- 每周至少写一万字
和准备玩的
- 通关逆转检事 I、II
- 看完《深海余烬》
原来我可以收到谁给我打勾的提示
好欸,感觉也是充实的生活
原来如此,学到了喵!
好的喵,虽然但是我大概从来不做 Lab,基本上就是看看课,一边写代码一边播放这种课程,还是很享受的喵
但是感觉是不是硬件还差点意思,不只是架构的问题喵
强大的 Boss 喵
个人收集到的信息是软件的差距比硬件的差距要大。现在 AMD 算是 NV 之后第一梯队的水平,MI300 系列甚至已经用到了橡树岭超算(几年前 GPU 总算力第一)上。然而 ROCm 到现在还是不支持 AMD 全系消费级显卡、不完全支持 Windows、不能发挥 GPU 的全部硬件算力,甚至 24 年年底还被第三方公司查出一堆 bug 整了份 bug 技术报告挂在 X 上
国内像昇腾、摩尔线程这样做类 CUDA 通用软硬件架构的,目前好像还没有并入 PyTorch 主线,都是自己维护一个更新落后的分支来用。而各种号称性价比高过 NV 三倍五倍的加速卡推理确实省电,但软件栈往往是 Transformer 特化甚至 LLM 特化的,有些连流行的 LLM 都没支持全,和 NV 无死角的软件支持完全不是一个量级的。
是因为太缺编译优化的人才吗
这个我了解有限,不过应该不只是编译优化的问题。NV 的 CUDA/cuDNN/cuBLAS(以及背后的驱动)作为基础软件是全方位的强,至少包括编译优化、并行优化、数值算法,可能还有稳定性验证、缓存优化甚至网络互联等等方面……毕竟 NV 是真的在这个领域深耕了十几年时间,老黄说 NV 是软件公司不是空谈。
好耶,是写作选手
堂堂更新。现在更新了自己的 Blog。但是事实证明我的水平还是不够,套用了别人的 Blog,然后争取在后面修改吧,毕竟 Astro 修改起来还是很方便的。不过现在这些特性已经很先进了。
更新后的 blog 好看耶!羡慕门友的执行力
花了十几个小时喵。卡在了奇怪的地方,一开始想要完全自己开发,浪费了一些时间,但是好处是之后能看懂代码了。然后这个目前用的 blog 的部署,以及开启 dev 模式,我之前看文档里面说 pnpm 啥的都可以,但是貌似只有 bun 是没问题的。pnpm i 安装依赖之后还会缺东西,但是再安装会导致 build 不了喵
CUDA(及 PTX)是目前最强大、最直接、最完备的能够直接控制 NVIDIA GPGPU 设备的一套官方应用程序编程接口,也是官方面向 C/C++ 提供的唯一核函数编程接口。
生态被领先太多了。GPU 并行算法的设计、实现、验证和调优是非常艰巨的任务,其中涉及到非常多因硬件而异的细节。例如,设计一个仅仅包含数据搬运的核函数,就需要考虑如何最小化 Cache 上的 conflict、如何 vectorize 等等问题。实际应用中需要的核函数往往还包括复杂的计算任务,实现起来更为困难,调优也是耗时巨大的工作。由于 GPU 的设备间差异很大,不同厂商的设备特性很可能完全不同,这样的问题很难通过设计某种 DSL(例如 Triton)来完全解决。