主题
从硬件架构到算子开发,系统梳理昇腾 AI 全栈技术
深入解析昇腾 AI 处理器与达芬奇架构,理解 NPU 底层设计原理。
全面覆盖驱动层、Runtime、AscendCL 等核心软件组件。
掌握 TBE DSL 与 Ascend C 两种算子开发范式,提升计算性能。
学习 HCCL 集合通信与多机多卡分布式训练策略。
了解 MindSpore、PyTorch 在昇腾平台上的适配与最佳实践。
使用 AOE、Profiling 工具进行性能调优,掌握生产环境部署方案。