招聘中 猎头职位

大模型强化学习专家

30-60K·16薪

代招公司:某大型知名O2O上市公司北京 5-10年 本科

...
交通补助生日福利节日福利高温补贴有无线网住房补贴宿舍有空调团建聚餐零食下午茶餐补员工旅游带薪年假全勤奖工龄奖法定节假日三薪底薪加提成绩效奖金年终奖意外险五险一金
交通补助生日福利节日福利高温补贴有无线网住房补贴宿舍有空调团建聚餐零食下午茶餐补员工旅游带薪年假全勤奖工龄奖法定节假日三薪底薪加提成绩效奖金年终奖意外险五险一金
大模型强化学习专家 30-60K·16薪
...
交通补助生日福利节日福利高温补贴有无线网住房补贴宿舍有空调团建聚餐零食下午茶餐补员工旅游带薪年假全勤奖工龄奖法定节假日三薪底薪加提成绩效奖金年终奖意外险五险一金
交通补助生日福利节日福利高温补贴有无线网住房补贴宿舍有空调团建聚餐零食下午茶餐补员工旅游带薪年假全勤奖工龄奖法定节假日三薪底薪加提成绩效奖金年终奖意外险五险一金

各大行业职位任你选

首次验证通过即注册BOSS直聘账号
+86
已阅读并同意BOSS直聘《用户协议》 《隐私政策》,允许BOSS直聘统一管理本人账号信息
计算

职位描述

  • 强化学习
岗位职责
1.负责大模型强化学习方向技术研发,包括数据探索与增强、奖励模型优化、强化策略迭代及效果评估等,持续提升算法的效率与效果;
2.强化学习技术前瞻探索,包括但不限于离线强化学习、环境模型学习、约束强化学习等方向;
3.基于强化学习技术,利用人类反馈信号提升语言模型能力
岗位基本需求
1.五年以上相关工作经验,具备强化学习的业务实践并取得较好的业务价值;
2.扎实的算法基础,熟悉强化学习、自然语言处理和机器学习技术,对技术开发及应用有热情;
3.具备强化学习算法优化经验,熟悉DQN、TRPO、PPO、SAC、BCQ、MCQ、SUNRISE等强化学习算法,能够基于实际业务问题优化算法;
4.熟悉Python、Java等至少一种编程语言,具有良好的编程能力和扎实的数学理论基础;
5.关注行业前沿进展,对技术开发及应用有热情,有自己的想法并乐于挑战自我;
6.良好的沟通能力和跨团队协作能力,能够梳理繁杂的工作并建立有效机制,推动上下游配合完成目标;
具备以下者优先
1、有大语言模型算法优化和大规模分布式强化学习框架优化经验优先
2、有强化学习相关方向的团队或项目管理经验者优先

认证资质

  • 人力资源服务许可证

王先生

BOSS直聘猎头·猎头顾问

竞争力分析

加载中...
个人综合排名:人中排名第
一般 良好 优秀 极好

BOSS 安全提示

BOSS直聘严禁用人单位和招聘者用户做出任何损害求职者合法权益的违法违规行为,包括但不限于扣押求职者证件、收取求职者财物、向求职者集资、让求职者入股、诱导求职者异地入职、异地参加培训、违法违规使用求职者简历等,您一旦发现此类行为, 请立即举报

了解更多职场安全防范知识

精选职位

更新于:2024-11-04

快速完善简历,与Boss开聊

与在线Boss直接聊,最快当天拿offer

快速完善信息