欢迎光临杨雨的个人博客站!

杨雨个人网站-杨雨个人博客-杨照佳

杨雨个人博客网站

关注互联网和搜索引擎的个人博客网站

首页 > WEB开发 > Python教程 >

python爬虫和八爪鱼哪个快

发布时间:2019-06-15  编辑:杨雨个人博客网站   点击:   

八爪鱼有一些优势,比如学习成本低,可视化流程,快速搭建采集系统。能直接导出excel文件和导出到数据库中。降低采集成本,云采集提供10个节点,也能省事不少。

python爬虫和八爪鱼哪个快

八爪鱼采集器还提供了云采集服务,在很短的时间内就可以完成你可能需要几天的时间来采集的工作量。(推荐学习:Python视频教程

不好的地方就是,即使看似很简单了,而且还有更傻瓜化的smart模式,但是里面的坑只有用的多的人才清楚。

首先里面的循环都是xpath元素定位,如果用单纯的傻瓜化点击定位的话,很死板,大批量采集页面的时候很容易出错。另外用这个工具的,因为方便,小白太多,成天有人问普通问题,他们都不会看页面结构,也不懂xpath,很容易出现采集不全,无限翻页等问题。

但是八爪鱼采集器的ajax加载,模拟手机页面,过滤广告,滚动至页面底端等功能堪称神器,一个勾选就能搞定。写代码很麻烦的,实现这些功能费劲。

八爪鱼毕竟只是工具,自由度肯定完败编程。胜在方便,快速,低成本。

八爪鱼判断语录较弱,无法进行复杂判断,也无法执行复杂逻辑。还有就是八爪鱼只有企业版才能解决验证码问题,一般版本无法接入打码平台。

还有一点就是没有ocr功能,58同城和赶集网采集的电话号码都是图片格式,python可以用开源图像识别库解决,对接进去识别便可。

数据采集的需求才是决定最终使用什么工具的。如果我是大量数据采集需求的话,爬虫一定是不可避免的,因为代码的自由度更高。八爪鱼的目标我觉得也不是取代python,而是实现人人都能上手的采集器这个目标。

另一点就是python学习容易,部署简单,开源免费。即使只学了scrapy也能解决一些问题了,不过麻烦的就是本来一些工具里很简单选择就能搞定的功能,必须靠自己写或者拷贝别人的代码才能实现,如果不是专职写爬虫的话,很快就想从入门到放弃了……

更多Python相关技术文章,请访问Python教程栏目进行学习! 本文地址:http://itbyc.com/Python/21629.html
转载请注明出处。

分享是一种快乐,也是一种美德:
博客首页 | WEB开发 | 网站运营 | CMS使用教程 滇ICP备14002061号-1