操作指南:列表采集--添加采集器--列表规则--采集范围设置
通过列表规则获取需要采集的页面链接。有四种方式: 从分页列表采集 从URL范围采集 从RSS地址采集 从多层列表采集 1、从分页列表采集 站点通常包含有内容页链接的列表页(栏目首页
通过列表规则获取需要采集的页面链接。有四种方式:
- 从分页列表采集
- 从URL范围采集
- 从RSS地址采集
- 从多层列表采集
1、从分页列表采集
站点通常包含有内容页链接的列表页(栏目首页),某个栏目内容页较多时,需要用多个列表页面来显示,这样的每个页面称为”分页“。
以人民网“文化”栏目为例,这些分页地址为
http://culture.people.com.cn/index1.html
http://culture.people.com.cn/index2.html
http://culture.people.com.cn/index.html
...
从这些分页获取内容页链接就是”从分页列表采集“。
2、从URL范围采集
如果要采集的站点内容页链接仅用连续(或有规则的间断)的数字加以区分,以“飞卢小说网”为例,某个小说的内容页
https://b.faloo.com/1029709_85.html
https://b.faloo.com/1029709_86.html
https://b.faloo.com/1029709_87.html
....
直接指定这些内容页链接中数字的范围获取内容页链接就是“从URL范围采集”。
3、从RSS地址采集
RSS是站点用来和其他站点之间共享内容的一种简易方式(也叫聚合内容),通常被用于新闻和其他按顺序排列的网站。 例如
百度新闻国内集点 https://news.baidu.com/n?cmd=1&class=civilnews&tn=rss&sub=0
人民网国内新闻 http://www.people.com.cn/rss/politics.xml
使用这些rss地址获取内容页链接为“从RSS地址采集“。
4、从多层列表采集
某些站点会将多个栏目加以聚合,使用频道列出当前所属栏目,例如人民网,导航栏中的频道包括“经济科学”、“社会法制“、”文旅体育“等,其中“文旅体育”频道有文化、旅游和体育三个栏目,其地址分别为
http://culture.people.com.cn/
http://travel.people.com.cn/
http://sports.people.com.cn/
使用“从多层列表采集获取频道所属的所有栏目内容页链接。
一、从分页列表采集
从分页列表采集是最常用的方式。
1、指定要采集的列表分页链接。
以人民网“体育”频道为例,打开http://sports.people.com.cn/,在页面下方有分页导航,如下所示
其中数字对应的分页链接分别为:
http://sports.people.com.cn/index1.html
http://sports.people.com.cn/index2.html
http://sports.people.com.cn/index3.html
....
使用(*)替代index后面的数字,这些链接的通用形式为
http://sports.people.com.cn/index(*).html
将上述通用形式输入“网址范围“,并在”网址扩展设置“中指定数字范围和步长,如下所示
点击测试,在弹出的窗口中显示获取到的分页列表。
2、指定网页列表获取规则
在“测试列表地址“中输入一个分页链接,或直接点击自动获取,从上述指定的网址范围中随机选取一个。
点击访问该页面,右键在弹出的菜单中点击查看网页源代码。
通过分析,内容页的获取规则为DOM获取
div.ej_list_box ul li
a
点击测试结果
二、从URL范围采集
以“飞卢小说网”为例,某个小说的内容页
https://b.faloo.com/[url=https://b.faloo.com/1029709_87.html]1311567_1.html[/url]
https://b.faloo.com/[url=https://b.faloo.com/1029709_87.html]1311567_2.html[/url]
https://b.faloo.com/[url=https://b.faloo.com/1029709_87.html]1311567_3.html[/url]
...
使用(*)替代1311567_后面的数字,这些链接的通用形式为
https://b.faloo.com/1311567_(*).html
将上述通用形式输入“网址范围“,并在”网址扩展设置“中指定数字范围和步长,如下所示
点击测试,在弹出的窗口中显示获取到的内容页链接列表。
三、从RSS地址采集
点击测试
四、从多层列表采集
点击测试