当前位置:首页 > 列表采集 >

操作指南:列表采集--添加采集器--列表规则--采集范围设置

通过列表规则获取需要采集的页面链接。有四种方式: 从分页列表采集 从URL范围采集 从RSS地址采集 从多层列表采集 1、从分页列表采集 站点通常包含有内容页链接的列表页(栏目首页

admin

    通过列表规则获取需要采集的页面链接。有四种方式:

  •     从分页列表采集
  •     从URL范围采集
  •     从RSS地址采集
  •     从多层列表采集


1、从分页列表采集   

    站点通常包含有内容页链接的列表页(栏目首页),某个栏目内容页较多时,需要用多个列表页面来显示,这样的每个页面称为”分页“。

    以人民网“文化”栏目为例,这些分页地址为

    http://culture.people.com.cn/index1.html
    http://culture.people.com.cn/index2.html
    http://culture.people.com.cn/index.html
    ...

    从这些分页获取内容页链接就是”从分页列表采集“。

2、从URL范围采集

    如果要采集的站点内容页链接仅用连续(或有规则的间断)的数字加以区分,以“飞卢小说网”为例,某个小说的内容页

    https://b.faloo.com/1029709_85.html
    https://b.faloo.com/1029709_86.html
    https://b.faloo.com/1029709_87.html
    ....

    直接指定这些内容页链接中数字的范围获取内容页链接就是“从URL范围采集”。

3、从RSS地址采集

    RSS是站点用来和其他站点之间共享内容的一种简易方式(也叫聚合内容),通常被用于新闻和其他按顺序排列的网站。 例如

    百度新闻国内集点   https://news.baidu.com/n?cmd=1&class=civilnews&tn=rss&sub=0
    人民网国内新闻    http://www.people.com.cn/rss/politics.xml

    使用这些rss地址获取内容页链接为“从RSS地址采集“。

4、从多层列表采集

    某些站点会将多个栏目加以聚合,使用频道列出当前所属栏目,例如人民网,导航栏中的频道包括“经济科学”、“社会法制“、”文旅体育“等,其中“文旅体育”频道有文化、旅游和体育三个栏目,其地址分别为

    http://culture.people.com.cn/
    http://travel.people.com.cn/
    http://sports.people.com.cn/

    使用“从多层列表采集获取频道所属的所有栏目内容页链接。

一、从分页列表采集

  从分页列表采集是最常用的方式。

   1、指定要采集的列表分页链接。

    以人民网“体育”频道为例,打开http://sports.people.com.cn/,在页面下方有分页导航,如下所示
    
 

    其中数字对应的分页链接分别为:

    http://sports.people.com.cn/index1.html
    http://sports.people.com.cn/index2.html
    http://sports.people.com.cn/index3.html
    ....

    使用(*)替代index后面的数字,这些链接的通用形式为

    http://sports.people.com.cn/index(*).html

    将上述通用形式输入“网址范围“,并在”网址扩展设置“中指定数字范围和步长,如下所示
    

    点击测试,在弹出的窗口中显示获取到的分页列表。
    

    2、指定网页列表获取规则

    在“测试列表地址“中输入一个分页链接,或直接点击自动获取,从上述指定的网址范围中随机选取一个。
    

    点击访问该页面,右键在弹出的菜单中点击查看网页源代码。

    通过分析,内容页的获取规则为DOM获取

    div.ej_list_box ul li
    a
    
    点击测试结果
      

二、从URL范围采集

  以“飞卢小说网”为例,某个小说的内容页

    https://b.faloo.com/[url=https://b.faloo.com/1029709_87.html]1311567_1.html[/url]
    https://b.faloo.com/[url=https://b.faloo.com/1029709_87.html]1311567_2.html[/url]
    https://b.faloo.com/[url=https://b.faloo.com/1029709_87.html]1311567_3.html[/url]
    ...

    使用(*)替代1311567_后面的数字,这些链接的通用形式为

    https://b.faloo.com/1311567_(*).html

    将上述通用形式输入“网址范围“,并在”网址扩展设置“中指定数字范围和步长,如下所示
    

    点击测试,在弹出的窗口中显示获取到的内容页链接列表。
    

三、从RSS地址采集

 只需要在“RSS地址”框中输入rss地址链接即可。
    

   点击测试

    

四、从多层列表采集

  将需要采集的频道链接作为采集入口地址。

    
    指定获取上述入口地址页面中栏目首页链接的规则,
    
   点击测试
    

 

    点击增加规则,用于指定获取内容页的规则
    
    点击测试
      


返回顶部