岗位信息(1个)
【快Star-X实习】大模型云原生调度Infra工程师-Golang
岗位大类:
GO,Kubernetes
岗位子类:
-
所属部门:
-
学历要求:
硕士
专业要求:
-
毕业年份:
-
招聘人数:
-
工作地点:
北京
薪资说明:
-
岗位描述
【岗位职责】
团队介绍:快手AI云原生架构团队负责快手训推一体的调度引擎,支撑可灵、搜推广等核心业务的GPU资源优化。
1、为快手打造大模型AI云原生K8s 基础设施建设,具备万卡以上规模的CPU/GPU调度能力,支撑包括 可灵大模型、搜推广 等核心模型的训练与推理调度;
2、支撑数据、训练、推理等全场景AI负载生命周期管理,构建训推一体的统一调度架构,落地统一的配额和算力管理机制,实现负载高效协同与资源精准管控;
3、深耕 GPU 调度与性能优化,落地 GPU 拓扑感知、优先级、抢占、QoS 感知等调度能力,支撑万卡级大规模 AI 任务高效运行;
4、聚焦大模型云原生基础设施建设,负责高性能网络与存储加速、多云部署与调度能力,解决大模型训推理在通信、调度上的关键挑战,持续推动云原生与 AI 技术深度融合与架构创新。
【任职要求】
1、硕士及以上学历,计算机相关专业;
2、熟悉Golang/Java/Python至少一种编程语言,具备基础代码编写能力;
3、了解Kubernetes基本原理,对GPU优化、云原生领域有浓厚兴趣,愿意主动学习;
4、有算法模型研发/数据领域经验优先;
5、学习能力强,有责任心,具备良好的沟通协作能力和团队配合意识。
团队介绍:快手AI云原生架构团队负责快手训推一体的调度引擎,支撑可灵、搜推广等核心业务的GPU资源优化。
1、为快手打造大模型AI云原生K8s 基础设施建设,具备万卡以上规模的CPU/GPU调度能力,支撑包括 可灵大模型、搜推广 等核心模型的训练与推理调度;
2、支撑数据、训练、推理等全场景AI负载生命周期管理,构建训推一体的统一调度架构,落地统一的配额和算力管理机制,实现负载高效协同与资源精准管控;
3、深耕 GPU 调度与性能优化,落地 GPU 拓扑感知、优先级、抢占、QoS 感知等调度能力,支撑万卡级大规模 AI 任务高效运行;
4、聚焦大模型云原生基础设施建设,负责高性能网络与存储加速、多云部署与调度能力,解决大模型训推理在通信、调度上的关键挑战,持续推动云原生与 AI 技术深度融合与架构创新。
【任职要求】
1、硕士及以上学历,计算机相关专业;
2、熟悉Golang/Java/Python至少一种编程语言,具备基础代码编写能力;
3、了解Kubernetes基本原理,对GPU优化、云原生领域有浓厚兴趣,愿意主动学习;
4、有算法模型研发/数据领域经验优先;
5、学习能力强,有责任心,具备良好的沟通协作能力和团队配合意识。
快
快手
77
笔试题目
847
面试经验
228
面经短评
生涯星