数据爬虫工程师
相关职位简介
- 来源:山东贝赛信息科技有限公司
数据爬虫工程师
岗位要求:1.熟悉Linux操作系统;2.掌握python或java语言,有crapy或者其他爬虫开发经验;3.熟悉网页抓取原理及技术,熟悉基于Cookie的网站登录原理,熟悉基于正则表达式.Xpath.CSS等网页信息抽取技术;4.有全站爬虫开发经验优先。5.本科以上学历6.2年以上爬虫开发经验工作内容:1.负责公开数据微博微信工商企业爬虫并发2.参与开发和优化分布式爬虫系统;3.参与攻克反爬虫策略;4.参与数据抽取算法研发;5.参与通用性爬虫研发。
所需技能: 数据库开发、MySQL、数据库
- 来源:大连塞特斯科技有限公司
数据爬虫工程师
岗位职责:负责为NLU算法团队爬取训练数据任职资格:2年工作经验,Java要达到中级水平,有爬虫经验
所需技能: Java、数据爬虫
- 来源:上海笃诚投资管理有限公司
数据爬虫工程师
工作职责:1.负责投研平台网络来源数据的抓取.清洗.入库;2.负责搭建和维护分布式网络爬虫平台和任务系统;3.不断改善和优化爬虫系统,提升抓取的效率和质量;任职要求: 1.计算机相关专业本科以上,2年以上的爬虫开发经验;2.熟练掌握Python或Java等语言,精通正则表达式;3.精通网页抓取原理和技术,熟悉HTML/JavaScript/CSS/xpath/Ajax等Web技术;4.熟悉常用爬虫框架如Scrapy等一种或多种;5.对网站.App有一定分析和爬取经验,熟知各种反爬策略;6.有大型分布式爬虫架构经验者优先;7.熟悉大数据框架.有大数据处理经验优先。
所需技能: Python、Java、大数据
- 来源:深圳索信达数据技术有限公司
数据爬虫工程师
职位描述:1.负责设计和开发网络爬虫系统,进行电商或社会化媒体等平台信息的抓取和分析;2.设计爬虫策略和防屏蔽规则,提升网页抓取的效率和质量;3.能独立解决实际开发过程碰到的各类问题。任职要求:1.本科及以上学历,2年以上爬虫相关工作经验;2.熟练python.java等编程语言,有1年以上的crapy框架开发经验;3.熟悉linux操作系统,了解web及相关技术和原理;4.熟练运用正则表达式和xpath表达式;5.熟练使用myql数据库,熟悉redi等noql数据库;6.构建过分布式爬虫系统,参与过数据分析者优先。
所需技能:
- 来源:武汉镝次元数据科技有限公司
数据爬虫工程师
岗位职责:1.负责网络数据的采集与爬取.解析处理.入库及备份等数据日常工作;2.负责公司各类业务数据的接入.整理.转换以及分析工作;3.负责公司官网的反爬建设工作;4.完成上级交派的其他数据工作。任职要求:1.相关专业本科以上学历,两年以上工作经验;2.熟练使用Python,掌握至少一种爬虫框架(比如crapy.pypider等);3.较强的自学能力,开放的学习心态;4.熟悉MySQL.redi等主流数据库,有数据库性能调优经验;5.熟悉Linux开发环境,能够在Linux环境下完成开发.部署等日常工作;6.有分布式爬虫开发.架构.优化经验优先。
所需技能: python、爬虫
- 来源:浙江泰隆商业银行股份有限公司
数据爬虫工程师
工作职责:.专注于垂直领域数据爬取,进行多平台信息的抓取和分析;2.参与爬虫系统的架构设计与开发;3.研究优化爬虫算法,提升爬虫系统的稳定性.可扩展性;4.设计爬虫策略和防屏蔽规则,提升网页抓取的效率和质量;5.能独立解决实际开发过程中碰到的各类问题。任职资格:1.统招大学本科及以上学历,计算机.数据等相关专业;2.3年以上爬虫工程师相关工作经历;3.熟练使用Python语言,熟悉常用爬虫框架如Scrapy等,熟悉反爬虫技术及破解方法;4.熟练掌握JAVA.C++.PYTHON任意一种编程语言进行爬虫任务;5.具有较强的责任心和团队精神,敬业务实,工作细致认真,良好的语言表达能力和沟通协调能力。
所需技能: 数据抓取、风险管理
- 来源:平安国际智慧城市科技股份有限公司
数据爬虫工程师
职责描述1.负责多平台信息爬取和页面内容的提取分析;2.参与爬虫系统的架构设计和研发,独立进行抓取和清洗工作;3.负责技术难点的攻克;4.负责大规模数据爬虫的性能优化工作;岗位要求:1.计算机相关专业,本科及以上学历;2年以上实际爬虫开发.内容提取工作经验;2.熟悉Python.Java等语言的开发,熟悉Linux命令;3.深入了解Http协议,熟悉web项目原理;4.了解多线程.多进程.网络通信编程相关知识,有过海量数据爬取经验;5.掌握网页抓取原理及技术,熟悉基于正则表达式.XPath.CSS.pyquery等网页信息抽取技术;6.掌握elenium,phantomj等模拟浏览器行为技术;7.有移动端爬取经验,了解APP模拟及接口验签破解技术,了解APP用户授权访问机制;8.工作认真细致踏实,优秀的学习能力与抗压能力;9.掌握机器学习.验证码识别技术.爬虫高并发技术,有web开发经验优先。
所需技能:
- 来源:未来地图(深圳)智能科技有限公司
数据爬虫工程师
岗位职责:1.研究各种网页.微信.微博.app接口,实现多通道抓取;2.负责爬虫核心算法的策略优化,提升网页抓取的效率和质量;解决数据的重复.垃圾数据的识别;3.负责抓取数据的深度提取和挖掘;4.负责设计和开发分布式的网络爬虫应用;5.负责自动化爬虫业务系统的开发和搭建;6.负责抓取的数据持久化处理,并提供接口供上层业务调用。岗位要求:1.熟悉TCP/IP网络协议,熟悉Linux操作系统;2.熟练掌握搜索引擎和网络爬虫相关技术;3.具有多年Python或JAVA开发爬虫技术经验;4.熟悉word.xl.PDF等文档解析;5.熟悉MySQL等关系数据库,大数据库框架,并有实际工作经验;6.拥有良好的代码编写习惯,逻辑性强;7.工作认真负责,具备自我驱动和积极性,有良好的团队合作意识。8.具有较好英语读写能力;9.计算机.人工智能.数学.信息系统或相关专业本科或以上学历。我们公司文化:学习型.扁平化.自管理,定期学习世界一流AI-MBA。公司福利包括五险一金.工资.期权.绩效提成等等。有创业诉求的优秀人才可以考虑成为公司的合伙人。
所需技能: Python、Java、数据库、网络爬虫、AI算法、Hadoop、Spark、Storm
- 来源:北京云脊智能科技有限公司
数据爬虫工程师
职位描述1.负责大型爬虫系统的架构设计和开发;2.负责网页信息抽取.数据清洗等研发和优化工作;3.研究各种网站.网页.链接的形态,发现它们的特点和规律;4.负责爬虫核心算法的策略优化研究,提升网页抓取的效率和质量。职位要求1.熟悉Linux平台开发,3年以上python经验,熟悉crapy框架。2.对算法设计和系统架构有深刻的理解,熟悉链接的过滤,去重等工作。3.精通网页抓取原理及技术,精通正则表达式,从结构化的和非结构化的数据中获取信息;4.熟悉HTML/DOM/XPATH/CSS;
所需技能: 数据挖掘、数据处理、数据分析
入门书籍
- 数据之巅
- Hadoop权威指南:大数据的存储与分析(第4版)(修订版)(升级版)
- Hive编程指南
职业晋升路径
横向职业发展
职业问答
数据获取
数据清洗
数据可视化
数据分析(描述统计,定义指标,挖掘,建模…)
常用的工具:Excel,PPT,sql,bi 报表工具,Hadoop 生态圈,xmind,Python,spss……
广义来说工具太多了,但是要做的事就这几件,岗位的分支也很多,就题而论,数据开发应该偏后台