Appearance
像编写单机程序一样,轻松编排大规模 GPU 集群
告别复杂的 SPMD。使用单一 Python 脚本协调整个集群,支持标准的控制流与异常处理。
将物理资源抽象为多维网格。像操作 NumPy 数组一样,对成百上千个 GPU 进行切片、广播和调度。
控制平面与数据平面分离。底层 Hyperactor 引擎利用 Rust 和 RDMA 实现零拷贝的高吞吐通信。
节点故障不再是灾难。捕获 ActorDeadError 异常,通过监督树机制实现不中断的热恢复。
需要 Python 3.8+ 与 PyTorch 2.0+
将集群资源抽象为可编程数组。 无需关心 Rank ID,像操作 Tensor 一样操作整片 GPU 网格,实现代码的极致简洁与可扩展性。
符合直觉的 API 设计,无缝集成 PyTorch 生态
Hyperactor 引擎提供无畏并发与内存安全