操作指南:规则管理--添加规则--网址设置
设置列表页(或搜索页)网址的通用形式。 当列表采集器的采集模式设置为规则模板时采集范围指定其中变量的具体值来确定采集范围。 链接中的变量用(*)代替,可以有多个变量,
设置列表页(或搜索页)网址的通用形式。
当列表采集器的采集模式设置为“规则模板”时“采集范围”指定其中变量的具体值来确定采集范围。
链接中的变量用(*)代替,可以有多个变量,“点击生成变量”设定变量的配置类型,步长表示数字增加量。
示例
某站点列表页链接为:
http://www.baidu.com/s?wd=1
可以表示为
http://www.baidu.com/s?wd=(*)
在列表采集器配置中可以指定(*)为任意一个页数或页数范围。
也可以表示为:
(*)/s?wd=(*)。
其中第一个(*)为一个具体的域名,第二个(*)指定任意一个页数或页数范围。
以人民网为例,其列表页地址通用形式可以写为:
http://(*).people.com.cn/index(*).html
点击生成变量如下图所示: