PyTorch Monarch 教程
欢迎来到 PyTorch Monarch 教程中心。无论你是分布式编程的新手,还是寻求构建千卡级集群的专家,这里都有适合你的内容。
📚 教程目录
🌱 初级教程 (Beginner)
适合刚刚接触 Monarch 的开发者。
- 01 - 简介与安装: 了解单控制器模型并完成环境配置。
- 02 - Actor 基础: 学习如何定义和启动第一个分布式 Actor。
- 03 - 远程调用与异步: 掌握 Future 模式和异步消息传递。
🚀 中级教程 (Intermediate)
适合希望管理多 GPU 资源的开发者。
- 01 - 核心概念:网格: 深入理解 Process Mesh 和 Actor Mesh。
- 02 - 网格操作: 学习网格切片、广播和复杂索引。
- 03 - 分布式张量: 像操作本地张量一样操作分布式数据。
🛠️ 高级教程 (Advanced)
适合构建生产级系统和架构师。
- 01 - 架构揭秘: 探索控制平面/数据平面分离与 Rust/RDMA 后端。
- 02 - 渐进式容错: 使用 Try-Except 和监督树构建不中断的训练系统。
- 03 - 生态集成: TorchTitan LLM 训练与强化学习工作流实战。
