CUDA 今でもまだ実用的な場面があるのでしょうか?底层の分野に限られているように感じられます(例:一部のオープンソースプロジェクトやNVIDIAなどの大手企業を除いて、ほとんどの企業で使われていないのでは?)。よく分からないので、興味があります。
発信ミスです、友達の猫です。
HPC(ハイパフォーマンスコンピューティング)は比較的多用途で、異なるアーキテクチャ向けに演算子の効率を最適化するなどの分野で活用されます。しかし、就職の機会は、インターネット関連の仕事に比べると決して多くありません。
そして今年、AIインフラがなぜか急に注目されてきました:rabbit_hole:
グラフィックスをやるつもりでないなら、202の実験をする必要はありません。私と同級生はすでにトラブルを経験した後、202の実験フレームワークにバグがあることをほぼ確認しています(WebGLプラットフォームでさえも奇妙な互換性のバグがある場合があります)。来年は202の実験課題を私たちのフレームワークに移行するつもりです ![]()
現在、CUDA を模倣・互換性を持たせた市場が注目されており、多くの企業が独自の AI 推論(Inference)ハードウェアを開発しています。ソフトウェア面では CUDA を模倣する動きも自然な流れとなっています。言い換えれば、CUDA 自体を直接開発する機会は減っているかもしれませんが、CUDA に類似した「輪」を作る企業は増えている可能性があります。NVIDIA(NV)の独占が過度に強すぎるため、PyTorch 自体が NVIDIA に対する独占反対を掲げ、自身のネイティブバックエンドを大幅に再構築する動きを見せていることも背景にあります。
私のボスはとても人気があります(人員をたくさん募集しています)。。。
我也来写一个完全无需 CS 的 ![]()
- 10 時までに起床、2 時までに就寝
- 『救猫咪』を読み終える
- ▇▇▇の大綱を完成させる
- 毎週少なくとも一万字書く
そして遊ぶための準備 :_1_smiley:
- 『逆転検事』I、II をクリア
- 『深海余烬』を読み終える
どうやら誰かがチェックマークを付けてくれたようだ
なるほど、充実した生活だね
なるほど、勉強になったね!
了解ね。でもほとんどラボはしないから、ほとんどは講義を見ながらコードを書いたり、講義を聴きながらコードを書いたりしながら楽しんでいるんだ。
でもハードウェアはまだまだ意味があると思うんだ、単にアーキテクチャの問題じゃないんだよね
強力なボスね
個人的に集めた情報では、ソフトウェアの差がハードウェアの差より大きいようです。現在はAMDはNVIDIA(NV)以降のトップクラスに到達し、MI300シリーズはすでにオークリッジスーパーコンピューター(数年前のGPU総計算力1位)で使用されています。しかしROCmは現在でもAMDの全消費者向けGPUをサポートしていないほか、Windowsでのサポートも不完全で、GPUのフルパフォーマンスを引き出せないうえ、24年末には第三者企業からバグの技術報告書が公開され、X上で公開されてしまいました。
国内では昇腾や摩尔线程(モールスレッド)など、CUDA互換のソフトハードウェアアーキテクチャを開発しているものの、現在でもPyTorchのメインストリームに統合されることはなく、自前で更新遅れの分岐を維持して使用しています。また、NVIDIAの3倍から5倍と称する高性価比の加速カードは推論時の省電力には優れていますが、ソフトウェアスタックはTransformerやLLMに特化したものが多く、流行りのLLMすらサポートが不完全なものもあり、NVIDIAの死角のないソフトウェアサポートとは全く比較にならないレベルです。
はコンパイル最適化の人材が不足しているからなのでしょうか?
この分野でのNVの経験は限定的ではありますが、問題は単にコンパイル最適化に留まらないはずです。NVのCUDA/cuDNN/cuBLAS(そしてその背後にあるドライバー)は、基盤となるソフトウェアとして全面的な強みを持っています。少なくとも、コンパイル最適化、並列処理最適化、数値アルゴリズム、さらには安定性検証、キャッシュ最適化、ネットワーク接続など、多岐にわたる領域をカバーしています。NVはこの分野で実に10数年もの時間を積み重ねてきたため、黄氏が「NVはソフトウェア企業であり、空論ではない」と指摘するのは当然です。
素晴らしい、ライティングコンテストの参加者です
アップデート完了。
自分のブログを更新しましたが、まだ実力不足で、他人のブログのテンプレートを使用してしまいました。
後で修正していきますが、Astroはカスタマイズが比較的容易なので、その点は助かります。
とはいえ、現在の機能はとても進化しています。
更新後のブログ、とても素敵ですね!友達の執行力に羨ましいです ![]()
花了十数時間喵。卡在了奇怪的地方,最初想要完全自己開發,浪費了一些時間,但優點是之後能看懂代码了。然後目前用的 blog 的部署,以及開啟 dev 模式,我之前看文檔裡面說 pnpm 之類的都可以,但看起來只有 bun 沒問題。pnpm i 安裝依賴之後還會缺東西,但再安裝會導致 build 不了喵。
CUDA(および PTX)は現在、NVIDIA GPGPU デバイスを直接制御するための最も強力で直接的で完備な公式のアプリケーションプログラミングインターフェースであり、C/C++向けに提供される唯一のカーネル関数プログラミングインターフェースです。
GPUの並列アルゴリズムの設計、実装、検証、最適化は非常に困難な課題であり、ハードウェアごとに多くの異なる詳細を考慮する必要があります。例えば、データ転送のみを含むカーネル関数を設計する場合でも、キャッシュ上のコリジョンを最小化したり、ベクトル化の方法など、多くの問題を解決する必要があります。実際の応用では、複雑な計算タスクを含むカーネル関数が必要となり、実装や最適化の作業はさらに困難で時間を要するものとなります。GPUのデバイス間の差異が大きいため、異なるメーカーのデバイス特性は完全に異なる場合があり、DSL(例えばTriton)のような設計手段でこれらの問題を完全に解決することは難しいです。