大三寒假计划贴！

Forever · January 8, 2025, 12:58pm

cuda 这种东西现在真的还有用武之地吗？感觉都是很底层的领域，除了部分开源项目以及最大的几个唱（e.g., Nvidia）大多数其实不会用到吧喵。不太懂，比较好奇这个

Forever · January 8, 2025, 12:59pm

发错了，是门友喵

Lorange · January 8, 2025, 1:16pm

hpc 用得比较多，针对不同架构优化算子的效率之类的。但是就业岗位，，，反正没有互联网多。
以及感觉今年 ai infra 莫名的火起来了

greyishsong · January 8, 2025, 1:35pm

不打算搞图形学的话，没必要做 202 的实验。本人和同学踩完坑之后基本可以确认，202 的实验框架有 bug（甚至明明是 WebGL 平台还是有奇怪的兼容性 bug）。打算明年直接把 202 的实验任务搞到我们的框架里来

greyishsong · January 8, 2025, 1:39pm

貌似现在有一个挺重要的细分市场是模仿和兼容 CUDA，很多公司开始自己做 AI Inference 硬件，而软件栈上模仿 CUDA 是很自然的行为。换言之直接用 CUDA 造轮子的机会可能不太多，但是现在要造类似轮子的公司可能不少。毕竟 NV 垄断得太狠了，连 PyTorch 都开始发博客举起反 NV 垄断大旗，大幅重构自己的 Native 后端。

Hypocrisy · January 8, 2025, 2:00pm

我的 boss 好多人招。。。

Quit · January 8, 2025, 3:12pm

我也来写一个毫无 cs 含量的

10 点前起床，2 点前睡觉
读完《救猫咪》
写完▇▇▇的大纲
每周至少写一万字

和准备玩的 :_1_smiley:

通关逆转检事 I、II
看完《深海余烬》

原来我可以收到谁给我打勾的提示

Forever · January 8, 2025, 4:49pm

好欸，感觉也是充实的生活

原来如此，学到了喵！

好的喵，虽然但是我大概从来不做 Lab，基本上就是看看课，一边写代码一边播放这种课程，还是很享受的喵

但是感觉是不是硬件还差点意思，不只是架构的问题喵

强大的 Boss 喵

greyishsong · January 9, 2025, 3:01am

个人收集到的信息是软件的差距比硬件的差距要大。现在 AMD 算是 NV 之后第一梯队的水平，MI300 系列甚至已经用到了橡树岭超算（几年前 GPU 总算力第一）上。然而 ROCm 到现在还是不支持 AMD 全系消费级显卡、不完全支持 Windows、不能发挥 GPU 的全部硬件算力，甚至 24 年年底还被第三方公司查出一堆 bug 整了份 bug 技术报告挂在 X 上

国内像昇腾、摩尔线程这样做类 CUDA 通用软硬件架构的，目前好像还没有并入 PyTorch 主线，都是自己维护一个更新落后的分支来用。而各种号称性价比高过 NV 三倍五倍的加速卡推理确实省电，但软件栈往往是 Transformer 特化甚至 LLM 特化的，有些连流行的 LLM 都没支持全，和 NV 无死角的软件支持完全不是一个量级的。

shared_user · January 9, 2025, 5:22am

是因为太缺编译优化的人才吗

greyishsong · January 9, 2025, 9:13am

这个我了解有限，不过应该不只是编译优化的问题。NV 的 CUDA/cuDNN/cuBLAS（以及背后的驱动）作为基础软件是全方位的强，至少包括编译优化、并行优化、数值算法，可能还有稳定性验证、缓存优化甚至网络互联等等方面……毕竟 NV 是真的在这个领域深耕了十几年时间，老黄说 NV 是软件公司不是空谈。

uika_winwing · January 9, 2025, 3:22pm

好耶，是写作选手

Forever · January 10, 2025, 9:01pm

堂堂更新。现在更新了自己的 Blog。但是事实证明我的水平还是不够，套用了别人的 Blog，然后争取在后面修改吧，毕竟 Astro 修改起来还是很方便的。不过现在这些特性已经很先进了。

Harbour · January 11, 2025, 5:40am

更新后的 blog 好看耶！羡慕门友的执行力

Forever · January 11, 2025, 6:51am

花了十几个小时喵。卡在了奇怪的地方，一开始想要完全自己开发，浪费了一些时间，但是好处是之后能看懂代码了。然后这个目前用的 blog 的部署，以及开启 dev 模式，我之前看文档里面说 pnpm 啥的都可以，但是貌似只有 bun 是没问题的。pnpm i 安装依赖之后还会缺东西，但是再安装会导致 build 不了喵

ucw · January 13, 2025, 7:57pm

CUDA（及 PTX）是目前最强大、最直接、最完备的能够直接控制 NVIDIA GPGPU 设备的一套官方应用程序编程接口，也是官方面向 C/C++ 提供的唯一核函数编程接口。

ucw · January 13, 2025, 8:05pm

生态被领先太多了。GPU 并行算法的设计、实现、验证和调优是非常艰巨的任务，其中涉及到非常多因硬件而异的细节。例如，设计一个仅仅包含数据搬运的核函数，就需要考虑如何最小化 Cache 上的 conflict、如何 vectorize 等等问题。实际应用中需要的核函数往往还包括复杂的计算任务，实现起来更为困难，调优也是耗时巨大的工作。由于 GPU 的设备间差异很大，不同厂商的设备特性很可能完全不同，这样的问题很难通过设计某种 DSL（例如 Triton）来完全解决。

Topic		Replies	Views
操作系统推荐：Arch Linux 深入交流 linux , arch	15	425	June 24, 2023
云厂能不能自己 ddos 自己的机器，让用户买自己的高防或者收大量流量费？谈笑风生	14	225	July 23, 2024
比较大的 Discourse 中文站 Collection 网站 discourse	13	299	February 20, 2025
功能更新 CHANGE LOG 网站 updates , devops , system	5	1859	March 25, 2024
（转载）当我在运营产品时，我在做什么？谈笑风生	3	142	February 14, 2024
[破事氵] 你为什么喜欢二次元谈笑风生	37	181	April 20, 2025
发现一个很有意思的博客谈笑风生	20	455	February 16, 2024
关于网站运行的两条意见调研和个人拙见网站	41	293	August 8, 2024
用 tauri 做一个交大門跨平台应用网站 app	0	234	April 30, 2024
实验 2.2 release 构建模式渲染异常及修复计算机图形学	4	164	October 17, 2024

大三寒假计划贴！

Related topics