招聘中 猎头职位

SRE运维工程师(AI-GPU/大规模/大厂智算)

40-70K·15薪

代招公司:某人工智能公司上海 3-5年 本科

SRE运维工程师(AI-GPU/大规模/大厂智算) 40-70K·15薪

各大行业职位任你选

首次验证通过即注册BOSS直聘账号
+86
已阅读并同意BOSS直聘《用户协议》 《隐私政策》,允许BOSS直聘统一管理本人账号信息
计算

职位描述

  • Golang
  • Docker
  • K8s
  • 运维开发经验
  • 自动化运维
  • GPU
工作职责:
1.负责构建和运维大型高可靠的自动化、智能化GPU调度K8S平台;
2.负责平台容量规划、配置管理及可用性保障,包括但不限于K8S集群、监控及日志相关组件;
3.负责优化并持续改进现有的K8S容器平台与工具架构;4.持续跟进K8S平台架构应用部署以及平台组件优化,跟进K8S维工具开发;
5.参与平台SRE轮值OnCall,完成运维工作文档编写;6.持续关注井跟进CNCF社区的云原生应用GAl以及Bug Fix;
任职资格:
1.计算机相关专业,统招本科以上,3年以上容器运维经验,精通Linux操作系统;2.K8S及云原生组件运维技能:熟悉etcd,apiserver,scheduler,controller,kubelet,kube-proxy组件基本工作原理,能够独立做Troubleshooting;
3.对GPU容器、镜像、网络、存储、持久化、监控、安全有深入的理解;
4.熟悉K8S常见应用部署模板配置(Deployment/DaemonSet/StatefulSet);
5.熟悉常见开源中间件的配置(例如Ingress),能够做应用层面的Troubleshooting,熟悉tcp/http 协议,擅长tcpdump/wireshark/httpwatch工具使用;
6.熟悉Python、Golang等至少一种语言开发,有做过自动化运维的经验;
7.掌握Prometheus监控系统的使用及配置;
8.能够承受较高工作压力,有强烈的工作责任心,有较好的沟通能力、有良好的团队合作精神;
有以下一项或多项经验者优先:
1.掌握GPU服务器硬件运维管理和性能调优,具备丰富的排障经验;
2.掌握 Kafka、Zookeeper、Elasticsearch 中一种或多种开源软件的运维管理和性能调优,具备丰富的排障

认证资质

  • 人力资源服务许可证

刘先生

上海伯周人力资源·猎头顾问

竞争力分析

加载中...
个人综合排名:人中排名第
一般 良好 优秀 极好

BOSS 安全提示

BOSS直聘严禁用人单位和招聘者用户做出任何损害求职者合法权益的违法违规行为,包括但不限于扣押求职者证件、收取求职者财物、向求职者集资、让求职者入股、诱导求职者异地入职、异地参加培训、违法违规使用求职者简历等,您一旦发现此类行为, 请立即举报

了解更多职场安全防范知识

精选职位

页面更新时间:2025-03-03

快速完善简历,与Boss开聊

与在线Boss直接聊,最快当天拿offer

快速完善信息