欢迎光临杨雨的个人博客站!

杨雨个人网站-杨雨个人博客-杨照佳

杨雨个人博客网站

关注互联网和搜索引擎的个人博客网站

首页 > cms使用教程 > 织梦仿站教程 >

dedecms自带的采集系统用法

发布时间:2017-06-17  编辑:杨雨个人博客网站   点击:   

本来没有打算写这么早的,想先从安装慢慢讲起,一个朋友问了,并且答应他今天为他出一个教程,就写到这里了。
首先进入织梦后台,采集模块——采集节点管理

1.找到要采集的目标网站,本次以新浪各地新闻为例: (最好为新闻列表页面)。

2.点击增加新节点,进入下面这个页面:

dedecms自带的采集系统用法


就选择普通文章,点击确定(当然如果采集图片,另说,本文不谈)。进入下一个界面,先看节点基本信息:

dedecms自带的采集系统用法


节点名称,就是以后采集的时候可以看到是哪个节点,没有别的含义,不过最好输入相关的采集名称,方便以后能够知道,这个节点采集的是什么信息。
目标页面编码:这个一定要填写准确,不然采集到的会是乱码,查看方法:
在目标页面,点击鼠标右键——查看页面源代码
在head标签里面会看到这样一段代码:
[代码]xml代码:
charset=gb2312这个就是目标页面编码,如果看到的是gbk,同样可以认为是gb2312,都是代表简体中文。一般常见的就是gb2312与utf8。
下面的都可以不填写。

3.下面看列表网址获取规则

dedecms自带的采集系统用法


个人比较喜欢用手工指定列表网址,就是在手工指定网址框里面,输入要采集的目标网站网址就行了。

4.文章网址匹配规则。

dedecms自带的采集系统用法


区域开始的HTML里面填写目标网址文章列表前的一段代码。
区域结束的HTML里面,填写目标网址文章列表后的一段代码。
此处记得,开始前与结束后的这两段代码,都必须是在本目标页面源代码里面独一无二的。否做会采集到别的内容。
打开目标页面源代码页面,找到文章列表所在的区域:
[代码]xml代码:

国家海洋局公布钓鱼岛及其部分附属岛屿坐标(09月15日 09:31)

。。。。。。。。。。。。。。。。
因为太多,下面用省略号代替。他这个列表时用li标签做的,一般看到class我就比较高兴,因为这个一般都是在本页面独一无二的。先尝试一下
开始区域就填写这句代码:


结束区域往下看,可以看到这样一句:


暂时可以先选定这句。填写完成。
下面先不填,点击保存进入下一步设置
如果能看到下面这个画面,表示我们采集文章列表网址成功:

dedecms自带的采集系统用法


如果是空表,即表示失败,需要重新填写。
看来我们成功了,然后点击保存信息,进入下一步设置。

5.进入这个页面,看文章标题匹配规则

dedecms自带的采集系统用法


随便打开我们目标页面列表中的一篇文章,然后点击鼠标右键,查看页面源代码,找到文章titile所在的位置

[代码]xml代码:国家海洋局公布钓鱼岛及其部分附属岛屿坐标 能够看到这样一段代码。他这个还不太好弄,did这个属性估计是变动的,不太好锁定。

如果不是变动的,我们直接这样写就可以:

[代码]xml代码:[内容] 既然是变动的,我们就采集他的title吧,就采用默认的标题采集方法:
[代码]xml代码:[内容]
注意:填写代码的时候,一定要注意大小写,如果源文件是大写,填入的时候也一定要大写


然后再看文章内容的匹配规则


dedecms自带的采集系统用法

找到正文的所在位置:[代码]xml代码:

外交部亚洲司司长罗照辉约见东北亚、东南亚、南亚、欧盟及俄罗斯等驻华使节,就近期钓鱼岛及中日关系问题作通报

  外交部亚洲司司长罗照辉约见东北亚、东南亚、南亚、欧盟及俄罗斯等驻华使节,就近期钓鱼岛及中日关系问题作通报

  原标题:外交部亚洲司司长就钓鱼岛问题向驻华使节吹风

  中新网9月15日电 据外交部网站消息,2012年9月14日,外交部亚洲司司长罗照辉约见东北亚、东南亚、南亚、欧盟及俄罗斯等驻华使节,就近期钓鱼岛问题和中日关系作专门通报,并回答了使节们的相关提问。


看到这样一段代码,我很高兴,以你为太好写入规则了。我们可以这样写入正文的匹配规则:

[代码]xml代码:[内容]

怎么样,简单吧?
然后下面的过滤规则要填写以下,一般会过滤掉js代码,及文章中的链接代码。

dedecms自带的采集系统用法

点击常用规则,会看到这样一个界面:

dedecms自带的采集系统用法

把超链接和javascript脚本两项勾上,然后点击确定即可。此时就会看到过滤规则里面自动填入了内容,然后关闭此窗口即可。
然后点击保存配置并预览。会看到这样一个界面:

dedecms自带的采集系统用法


此时代表内容采集成功,如果为空,则表示要重新填写了。呵呵。。。。。
好了,列表与内容都采集好了,我们就配置成功了,采集就行了。

提示:现在百度对采集特反感,不建议网站采集内容。




本文地址:http://itbyc.com/web/dedecms/16768.html
转载请注明出处。
分享是一种快乐,也是一种美德:
评论列表(网友评论仅供网友表达个人看法,并不表明本站同意其观点或证实其描述)
博客首页 | WEB开发 | 网站运营 | CMS使用教程 滇ICP备14002061号-1