工作职责
1、优化深度模型,降低推理时延,提升吞吐,包括但不限于模型剪枝、模型量化、模型蒸馏、模型压缩等。
2、适应并充分利用光计算硬件资源,控制模型部署成本;
3、对模型量化和部署时存在的精度与性能问题进行分析和调优,识别和解决瓶颈问题,提高模型速度;
任职要求
1、相关领域专业硕士或者博士
2、有深度学习应用加速和优化的经验,熟悉常见的模型优化技术如量化、稀疏等,并能够根据不同场景和硬件平台进行针对性的优化;
3、 熟悉各类深度学习网络结构和算子底层实现细节;
4、熟练掌握TensorFlow、PyTorch等至少一种深度学习框架;
5、有机器学习方面如 CV, NLP等领域的相关经验;.
6、熟练的Python和C++编程能力;
7、优秀的文档文献阅读学习能力;
加分项
1、 熟悉GPU硬件结构,有CUDA开发、优化经验。熟悉TensorRT/Triton/Cutlass经验者优先;
2、熟悉LLM主流推理引擎,如FasterTransformer/vLLM。熟悉常见的推理优化方法,如FlashAtention、PageAttention、Continuous Batching、Speculative Decoding优先;
3、有算法框架底层优化/研发经验者优先;