当前位置:首页 > 列表采集 >

操作指南:列表采集--添加采集器--内容规则

通过列表规则获取需要采集的页面链接。有四种方式: 从分页列表采集 从URL范围采集 从RSS地址采集 从多层列表采集 1、从分页列表采集 站点通常包含有内容页链接的列表页(栏目首页

admin

    在测试地址中输入一个页面链接。

    

    也可能点击自动获取从“网页列表链接获取设置”中指定的列表页链接根据“网页列表获取规则”获取的内容页链接列表中随机选取一个链接。

    1、标题获取规则

    标题获取规则和进一步处理标题请参考"操作指南:单页采集--创建采集器--标题获取规则"。

    2、内容获取规则

    内容获取规则和进一步处理内容请参考"操作指南:单页采集--创建采集器--内容获取规则"。

    可以对内容进行替换和剔除,还可以进行格式化(即去除源代码中的标签)。

    3、采集发贴者信息

    采集发贴者信息请参考“操作指南:规则管理--添加规则--采集发贴者用户信息”。

    4、采集文章其它信息

    采集文章其它信息请参考“操作指南:单页采集--创建采集器--采集文章其它信息”。

    5、采集分类信息

    采集分类信息请参考“操作指南:规则管理--添加规则--采集分类信息”。

    6、回复识别设置

    1)回复/回贴获取规则

    2)进一步处理回复

    3)最大采集回复数

    4)是否设置回答采集

    回复/回贴获取规则和进一步处理回复请参考“操作指南:规则管理--添加规则--采集回复”。

    设置回答采集请参考“操作指南:规则管理--添加规则--设置问答采集”。

    7、分页获取设置

    分页获取设置和进一步处理链接请参考"操作指南:单页采集--创建采集器--分页获取设置"。

    8、特殊图片获取设置

    特殊图片获取设置请参考"操作指南:单页采集--创建采集器--特殊图片获取设置"。


返回顶部