职位描述
1、项目全周期管理:
1)负责机器学习平台团队横向项目的规划、执行与交付,确保项目按既定目标推进,把控关键里程碑(如数据准备、模型训练、上线部署等);
2)协调跨团队(算法、工程、Infra等)合作,识别潜在风险并推动解决,保障项目按时高质量交付;
3)深入理解机器学习开发全流程(数据准备→模型训练→部署推理),能够识别关键技术风险并推动解决;
2、AI资源与运维管理:
1)熟悉并可以管理GPU/CPU、存储等计算资源,优化分配策略,平衡效率与成本;
2)熟悉多地域/多机房的服务部署与容灾方案,协助提升资源利用率和运维效率;
3、流程与协作优化:
1)建立项目管理的标准化方法论,通过工具链优化和流程改进提升团队人效;
2)跟踪项目进展,定期输出关键指标(如资源使用率、项目里程碑达成率等)。
职位要求
1、本科及以上学历,3年以上技术项目管理经验,熟悉AI/机器学习项目流程(如模型开发、训练、部署等);
2、有大规模GPU集群管理实战案例;
3、了解机器学习平台运作机制,具备GPU集群或AI Infra(如K8S、分布式训练等)相关经验;
4、能够独立推进复杂项目,具备良好的跨团队协调能力,确保关键节点按时交付。
...