职位&公司对比
职位详情
- 北京
- 3-5年
- 本科
- 爬虫工程师
- Python
- Golang
- 爬虫开发经验
- 反爬策略和实践经验
职位描述: 1、负责分布式网络爬虫系统平台的架构设计与开发(如抓取调度,多样化抓取直聘,页面解析和结构化抽取,海量数据存储和读boss取等)、技术选型、现有框架优化; 2.研究及制定爬虫策略和防屏蔽规则,提升各端抓取的效率和质量及对各类互联网数据的采集抓取。 3、利用主流的大数据相关技术,对抓取后的网页数据进行清洗、存储等;并持续优化平台,以便满足各种爬取业务需求; 4、把握网络爬虫核心技术研究方向,研究优化算法,提升爬虫系统的稳定性、可扩boss展性; 5、开发结构化数据抽取和解析的可视化平台,提升数据抓取解析开发运营效率; 职位要求: 3~5年工作相关工作经验; 良好的代码能力,扎实的数据结构和算法功底,有快速迭代、逐步优化的工程项目经验; 精通爬虫和反爬技术,精通http底层协议; 精通APP抓取,深度抓取、动态网页技术抓取、浏览器模拟抓取技术等,从结构化的和非结构化的数据中获取信息; 熟悉分布式系统、多线程,精通一种开源爬虫框架,熟练scrapy、pyspider、webmagic、nutch等其中一个或多个爬虫框架以及原理,有开发爬虫框架经验; 对主流爬虫架构有深入研究,具有成熟爬虫工具的设计及运维经验; 有很强的学习能力和技术钻研能力,积极主动,思维灵活开放,有良好的沟通能力,善于跨团队合作;
职位详情
- 北京
- 5-10年
- 大专
- 爬虫
- Python
- 数据采集
- 机票
- 电商
- 廉价航空
(需要先做机试测试,再约面试) 岗位职责: 1.对指定的网站进行网页抓取、数据提取、破解反爬策略; 2.负责多平台信息抽取、数据清洗、入库、服务化等研发和优化工作; 3.参与开发和设计分布式网络爬虫系统,进行信息的抓取和分析工作; 4.研究优化爬虫算法,提升爬虫系统的稳定性、可扩展性; 5.独立解决实际开发过程中碰到的各类产品数据需求和接口问题。 任职要求: 1.全日制专科及以上学历,计算机相关专业,5年以上相关工作经验; 2.精通 Python 语言,精通常见开源爬直聘虫框架; 3.熟悉Charles等抓包工具,精通网页抓取原理及技术,精通正则表达式,熟练从结构化和非结构化的数据中获取信息kanzhun; 4.精通 selenium 网页自动化抓取技术; 5.熟悉破解网站验证码、绕过机器人检测等技术; 6.熟悉JS debugger、JS解密逆向 7.熟悉 cloudFlare, cloudfront 等cdn安全防护产品 和 PerimeterX, Akamai, Incapsula 等web安全产品,有破解方案者优先 BOSS直聘8.具备优秀的逻辑思维能力,对解决挑战性问题充满热情,善于分析问题/解决问题。 加分项: 1.熟悉APP脱壳、APP逆向反编译者优先; 2.有浏览器插件采集数据经验者优先。
技能解析
- 海量数据
- 数据结构和算法
- 思维灵活
- 优化算法
- 运营效率
- 技术研究
- 架构设计
- 数据结构和算
- 熟悉分布式
- 团队合作
- 数据结构
- 代码能力
- 数据存储
- 学习能力和
- 沟通能力
- 研究方向
- 海量数据存储
- 数据相关
- 分布式系统
- 学习能力
- 好的沟通
- 可扩展性
- 获取信息
数据来自CSL职业科学研究室
技能解析
- 善于分析
- 解决问题
- 逻辑思维能力
- 开发过程
- 安全产品
- 数据清洗
- 安全防护
- 独立解决
- 分析问题
- 抓包工具
- 善于分析问题
- 逻辑思维
- 可扩展性
- 获取信息
数据来自CSL职业科学研究室
工作时间
工作时间
公司福利
- 五险一金
- 补充医疗保险
- 定期体检
- 股票期权
- 员工旅游
- 节日福利
- 零食下午茶
公司福利
- 加班补助
- 带薪年假
- 员工旅游
- 餐补
- 节日福利
- 工龄奖
- 底薪加提成
- 绩效奖金
- 定期体检
- 五险一金
- 培训计划