当前位置:首页 > 单贴采集 >

操作指南:单页采集--创建采集器--内容获取规则

可以通过DOM获取、字符串获取和智能获取三种方式。 有关DOM获取请参考 操作指南:DOM获取规则 。 有关字符串获取请参考 操作指南:字符串获取规则 。 特别提示 : 智能获取选项 需要

admin

 

      可以通过DOM获取、字符串获取和智能获取三种方式。


    有关DOM获取请参考"操作指南:DOM获取规则"。

    有关字符串获取请参考"操作指南:字符串获取规则"。

    特别提示

    “智能获取”选项需要升级为VIP用户

     可以进一步对内容进行处理。

      1、内容替换。

   

    用@@隔开搜索字符串与替换字符串,搜索字符串中变化的区域用(*)代替。

    比如 aa@@bb,表示将aa替换成bb

    搜索字符串中有需要保持不变的字符串,可以使用占位符代替。

    比如:aa{1}bb@@cc{1}dd

    注意:

    1、占位符由花括号和一个字符组成,例如{1}、{2}、{3}

    2、搜索字符串中不允许存在相同的占位符

    3、占位符代替的字符串在@@前后对应保持不变,与所在位置无关。

    4、占位符与(*)之间至少有一个字符间隔。

    每行一组,顺序替换,即替换后再用下一组替换。

    替换字符串可以不写,作用相当于剔除。

    例如:aa@@

    提示:替换的字符串在测试窗口中使用绿色显示。

     2、格式化内容。

        去除内容中无效的标签。

     3、内容剔除规则。

        可以使用DOM获取和字符串获取需要剔除的内容。

        可以点击“增加一组规则”设置额外的剔除规则。

       “点击查看测试结果”可以在跳出的窗口中显示根据上面指定的替换和剔除规则获取的内容。

      提示:替换的字符串在测试窗口中使用红色显示。

      

 



返回顶部