职位&公司对比
职位详情
- 北京
- 1-3年
- 本科
- JS逆向
- 反爬
- APP逆向
- 数据采集
岗位描述: 1.负责AMiner产品的科技类数据、产业类数据采集。包括不限于论文、专利、咨询、智库等。 2.负责大模型的语料数据采集,包括不限于Code、文章、字幕、评论等。 3.负责全球化信息采集平台的开发,完成并维护调度、代理、解析等功能。 4.对于网页数据、pdf数据等进行解析。 任职要求: 【必要条件】 1.近期2年以上爬虫经验,对最新爬虫动向熟悉; 2.精通JS逆向,熟悉常加解密算法,有抖音、小红书、快手等主流网站web端采集经验; 3.有APP逆向经历,熟悉反编译工具jadx、jeb;熟悉Xposed,Frida 等Hook框架, 熟悉 Android 系统架构,有Xposed模块编写经验; 4.精通网页抓取原理及技术,熟练直聘掌握正则表达式,xpath,cssBeautifulsoup等网页解析技术;熟练从结构化和非结构化的数据中获取信息; 5.精通Python,具备扎实的编码能力,熟悉Linux环境,了解基本的指令; 6.熟悉常用库mongodb、mysql、kafka、redis、Elasticsearch等;熟悉数boss据库性能优化与常见缓存技术与策略; 7.熟悉tcp,http协议原理;熟悉ajaBOSS直聘x工作原理;熟悉fiddler,charles等抓包工具;熟悉常见反爬封禁策略,并具备相关的实战经验; 8.熟练掌握http/https等网络通信原理;对加密、解密等原理有一定的了解。 【加分项】 1.熟悉scrapy爬虫框架; 2.二开发scrapy爬虫框架; 3.验证码处理经验(极验滑块、点选,googbossle recaptcha、百度旋转验证码); 4.大规模分布式采集经验。
职位详情
- 北京
- 1-3年
- 本科
- 爬虫
- Python
岗位职责: 1. 设计与开发爬虫系统:负责设计、开发、维护分布式爬虫系统,确保系统的高效、稳定运行。 参与爬虫项目的架构设计,优化爬虫策略,提升爬虫效率。 2. 数据采集与处理:使用Python编程语言编写爬虫程序,自动BOSS直聘爬取网页、APP等数据源的信息。对爬取的数据进行清洗、去重、分来自BOSS直聘类等处理,确保数据质量。 3. 反爬虫策略应对:研究并应对各种反爬虫策略,如验证码识别、IPboss封禁、JS加密等。 设计并实施反反爬策略,确保爬虫能够稳定获取数据。 4. 性能优化与监控:对爬虫系统进行性能调优,提升数据抓取速度和处理能力。开发爬虫系统的后台监控、报警模块,及时发现并解决问题。 5. 协作与沟通:与产品经理、数据分析师等团队成员紧密合作,根据业务需求调整爬虫策略。 任职资格: 1. 计算机科学、软件工程或相关专业本科及以上学历。 2. 精通Python编程语言,熟悉网络编程和HTTP协议。 3. 熟练掌握至少一种开源爬虫框架(如Scrapy、WebMagic、Seleniu来自BOSS直聘m 、 Playwright等来自BOSS直聘)等),有自主研发爬虫框架经验者优先。 4. 熟悉HTML、CSS、JavaScript等前端技术,能够处理复杂的网页结构。 5. 具有2年以上爬虫开发或相关工作经验,有大型分布式爬虫平台设计、开发经验者优先。 6. 有主流社交、电商等平台数据爬取经验者优先。
技能解析
- 熟悉数据库
- 信息采集
- 获取信息
- 系统架构
- 缓存技术
- 熟悉数据
- 抓包工具
- 数据库性能
- 通信原理
- 编码能力
- 网络通信
- 性能优化
- 数据采集
数据来自CSL职业科学研究室
技能解析
- 性能调优
- 协作与沟通
- 处理复杂
- 数据质量
- 编程语言
- 解决问题
- HTTP协议
- 架构设计
- 软件工程
- HTML
- 网络编程
- 平台数据
- 前端技术
- 数据分析
- 及时发现
- 紧密合作
- 开发经验
- 熟悉HTML
- 熟悉网络编程
- 性能优化
- 数据采集
数据来自CSL职业科学研究室
工作时间
工作时间
公司福利
- 生日福利
- 节日福利
- 免费工装
- 团建聚餐
- 零食下午茶
- 餐补
- 包吃
- 带薪年假
- 股票期权
- 年终奖
- 定期体检
- 补充医疗保险
- 五险一金
- 定期团建
公司福利
- 股票期权
- 绩效奖金
- 年终奖
- 定期体检
- 意外险
- 补充医疗保险
- 五险一金