Appearance
让分布式 AI 训练像单机一样简单
以数组形式组织分布式进程与任务,支持切片与并行操作
在大规模训练中自动处理主机或进程中断,可在数分钟内恢复运行
无缝集成 PyTorch,让分布式张量操作像本地张量一样自然
开发者可直接在 Jupyter Notebook 上操控和调试分布式集群
将集群资源抽象为可编程数组, 像操作张量一样操控整片 GPU 网格,实现代码的高度可扩展性
简洁的 API 设计,快速构建分布式应用
高性能通信引擎,保证并发安全