岗位职责:
1、负责LLM和Diffusion Model的性能优化;
2、通过TensorRT、量化、剪枝、算子融合、CUDA算子编写等性能优化的手段,结合业务需求,将GPU性能发挥到极致;
3、负责团队推理优化技术的调研和引入;
4、与算法部门深度合作,进行算法与系统的联合优化。
职位要求
1、本科及以上学历,计算机/电子/自动化/软件等相关专业,有AI工程优化经验的优先;
2、精通C/C++,精通算法与数据结构,熟悉Python;
3、熟练GPU的高性能计算优化技术,深入理解计算机体系结构,熟悉并行计算优化、访存优化,低比特计算等;
4、具备丰富的基于CUDA的GPU性能优化经验;
5、了解深度学习算法基本原理,熟悉神经网络基本架构和各算子计算方式,了解至少一种深度学习训练框架及其模型文件的解析,如Pytorch、Tensorflow;
6、熟悉TensorRT-LLM、ORCA、VLLM等;了解主流LLM 、Diffusion Model,有LLM 、Diffusion Model加速优化经验者优先。
...