大三寒假计划贴!

cuda 这种东西现在真的还有用武之地吗?感觉都是很底层的领域,除了部分开源项目以及最大的几个唱(e.g., Nvidia)大多数其实不会用到吧喵。不太懂,比较好奇这个

发错了,是门友喵

「いいね!」 1

hpc 用得比较多,针对不同架构优化算子的效率之类的。但是就业岗位,,,反正没有互联网多。
以及感觉今年 ai infra 莫名的火起来了 :mouse_hole:

不打算搞图形学的话,没必要做 202 的实验。本人和同学踩完坑之后基本可以确认,202 的实验框架有 bug(甚至明明是 WebGL 平台还是有奇怪的兼容性 bug)。打算明年直接把 202 的实验任务搞到我们的框架里来 :rofl:

貌似现在有一个挺重要的细分市场是模仿和兼容 CUDA,很多公司开始自己做 AI Inference 硬件,而软件栈上模仿 CUDA 是很自然的行为。换言之直接用 CUDA 造轮子的机会可能不太多,但是现在要造类似轮子的公司可能不少。毕竟 NV 垄断得太狠了,连 PyTorch 都开始发博客举起反 NV 垄断大旗,大幅重构自己的 Native 后端。

我的 boss 好多人招。。。

我也来写一个毫无 cs 含量的 :kissing_heart_mouse:

  • 10 点前起床,2 点前睡觉
  • 读完《救猫咪》
  • 写完▇▇▇的大纲
  • 每周至少写一万字

和准备玩的 :_1_smiley:

  • 通关逆转检事 I、II
  • 看完《深海余烬》

原来我可以收到谁给我打勾的提示

「いいね!」 2

好欸,感觉也是充实的生活

原来如此,学到了喵!

好的喵,虽然但是我大概从来不做 Lab,基本上就是看看课,一边写代码一边播放这种课程,还是很享受的喵

但是感觉是不是硬件还差点意思,不只是架构的问题喵

强大的 Boss 喵

个人收集到的信息是软件的差距比硬件的差距要大。现在 AMD 算是 NV 之后第一梯队的水平,MI300 系列甚至已经用到了橡树岭超算(几年前 GPU 总算力第一)上。然而 ROCm 到现在还是不支持 AMD 全系消费级显卡、不完全支持 Windows、不能发挥 GPU 的全部硬件算力,甚至 24 年年底还被第三方公司查出一堆 bug 整了份 bug 技术报告挂在 X 上 :rofl:

国内像昇腾、摩尔线程这样做类 CUDA 通用软硬件架构的,目前好像还没有并入 PyTorch 主线,都是自己维护一个更新落后的分支来用。而各种号称性价比高过 NV 三倍五倍的加速卡推理确实省电,但软件栈往往是 Transformer 特化甚至 LLM 特化的,有些连流行的 LLM 都没支持全,和 NV 无死角的软件支持完全不是一个量级的。

是因为太缺编译优化的人才吗

这个我了解有限,不过应该不只是编译优化的问题。NV 的 CUDA/cuDNN/cuBLAS(以及背后的驱动)作为基础软件是全方位的强,至少包括编译优化、并行优化、数值算法,可能还有稳定性验证、缓存优化甚至网络互联等等方面……毕竟 NV 是真的在这个领域深耕了十几年时间,老黄说 NV 是软件公司不是空谈。

好耶,是写作选手

堂堂更新。现在更新了自己的 Blog。但是事实证明我的水平还是不够,套用了别人的 Blog,然后争取在后面修改吧,毕竟 Astro 修改起来还是很方便的。不过现在这些特性已经很先进了。

「いいね!」 1

更新后的 blog 好看耶!羡慕门友的执行力 :sob:

花了十几个小时喵。卡在了奇怪的地方,一开始想要完全自己开发,浪费了一些时间,但是好处是之后能看懂代码了。然后这个目前用的 blog 的部署,以及开启 dev 模式,我之前看文档里面说 pnpm 啥的都可以,但是貌似只有 bun 是没问题的。pnpm i 安装依赖之后还会缺东西,但是再安装会导致 build 不了喵

「いいね!」 1

CUDA(及 PTX)是目前最强大、最直接、最完备的能够直接控制 NVIDIA GPGPU 设备的一套官方应用程序编程接口,也是官方面向 C/C++ 提供的唯一核函数编程接口。

生态被领先太多了。GPU 并行算法的设计、实现、验证和调优是非常艰巨的任务,其中涉及到非常多因硬件而异的细节。例如,设计一个仅仅包含数据搬运的核函数,就需要考虑如何最小化 Cache 上的 conflict、如何 vectorize 等等问题。实际应用中需要的核函数往往还包括复杂的计算任务,实现起来更为困难,调优也是耗时巨大的工作。由于 GPU 的设备间差异很大,不同厂商的设备特性很可能完全不同,这样的问题很难通过设计某种 DSL(例如 Triton)来完全解决。