职位描述
- 发表算法相关优秀论文
- 分布式训练
- 算法工程化经验
- 大模型算法
- 参加算法相关竞赛/获奖
- 深度学习训练框架
1. 负责大模型分布式训练框架的开发和优化,构建一流和稳定的分布式能力。包括但不限于功能特性开发、通信和计算性能优化等。
2. 参与大模型训练各个环节的工程开发,处理训练过程中遇到的技术挑战。
3. 跟进和引入业界先进的分布式训练相关的技术,做前沿的技术创新。
职位要求
1. 熟悉常见的深度学习训练框架,如PyTorch、Megatron、Deepspeed等,并具有相关分布式3D并行训练开发和调试经验。
2. 熟悉NVIDIA CUDA的开发流程和kernel优化,对常用GPU Library有使用和开发经验,如cuDNN/cuBlas/NCCL/Cutlass等。
3. 有大模型训练的项目开发经验,熟悉常见的Transformer架构实现。
4. 具有良好的团队合作精神,能够跨团队紧密合作,共同推动项目的成功。
认证资质
![](https://img.bosszhipin.com/beijin/upload/avatar/20230209/607f1f3d68754fd06f4c0e04d646275b5993fe26aada714e99896642fd1009df6276bae2b16_b.jpg?x-oss-process=image/resize,w_100,limit_0)
杨先生
竞争力分析
![](https://img.bosszhipin.com/static/file/2022/4jo15bijai1661828091546.png)
![](https://img.bosszhipin.com/static/file/2022/4jo15bijai1661828091546.png)
BOSS 安全提示
BOSS直聘严禁用人单位和招聘者用户做出任何损害求职者合法权益的违法违规行为,包括但不限于扣押求职者证件、收取求职者财物、向求职者集资、让求职者入股、诱导求职者异地入职、异地参加培训、违法违规使用求职者简历等,您一旦发现此类行为, 请立即举报
了解更多职场安全防范知识精选职位
页面更新时间:2025-02-14