操作指南:列表采集--添加采集器--内容规则
通过列表规则获取需要采集的页面链接。有四种方式: 从分页列表采集 从URL范围采集 从RSS地址采集 从多层列表采集 1、从分页列表采集 站点通常包含有内容页链接的列表页(栏目首页
在测试地址中输入一个页面链接。
也可能点击自动获取从“网页列表链接获取设置”中指定的列表页链接根据“网页列表获取规则”获取的内容页链接列表中随机选取一个链接。
1、标题获取规则
标题获取规则和进一步处理标题请参考"操作指南:单页采集--创建采集器--标题获取规则"。
2、内容获取规则
内容获取规则和进一步处理内容请参考"操作指南:单页采集--创建采集器--内容获取规则"。
可以对内容进行替换和剔除,还可以进行格式化(即去除源代码中的标签)。
3、采集发贴者信息
采集发贴者信息请参考“操作指南:规则管理--添加规则--采集发贴者用户信息”。
4、采集文章其它信息
采集文章其它信息请参考“操作指南:单页采集--创建采集器--采集文章其它信息”。
5、采集分类信息
采集分类信息请参考“操作指南:规则管理--添加规则--采集分类信息”。
6、回复识别设置
1)回复/回贴获取规则
2)进一步处理回复
3)最大采集回复数
4)是否设置回答采集
回复/回贴获取规则和进一步处理回复请参考“操作指南:规则管理--添加规则--采集回复”。
设置回答采集请参考“操作指南:规则管理--添加规则--设置问答采集”。
7、分页获取设置
分页获取设置和进一步处理链接请参考"操作指南:单页采集--创建采集器--分页获取设置"。
8、特殊图片获取设置
特殊图片获取设置请参考"操作指南:单页采集--创建采集器--特殊图片获取设置"。