当前位置:首页 > 单贴采集 >

操作指南:单页采集--创建采集器--采集文章其它信息

包括来源、原作者和发布时间获取规则。此功能采集到的数据仅适用于发布到门户的文章。 特别提示 : 使用本功 能需要升级为VIP用户 发布时间获取规则的说明: 1、如果要采集时间,

admin

      包括来源、原作者和发布时间获取规则。

      提示:

      此功能采集到的数据仅适用于发布到门户。

      特别提示

      使用本功能需要升级为VIP用户


    提示:

    根据上述规则获取的字符串中包含空格,将自动删除第一个空格前面的字符。

    例如获取的字符串为“发表于 2023-7-14 14:22",则视为“2023-7-14 14:22”。

    发布时间获取规则由获取规则和转换后的时间格式组成,使用“@@”间隔,例如

        div.authi em@@y:m:d h:i:s

    1、如果要采集时间,需要指定目标站点的时间格式,必须按此指定的时间格式进行转换才能使用。

    2、时间格式使用y,m,d,h,i,s分别代表年,月,日,小时,分钟,秒,年月日之间用”:“分隔,时分秒之间用“:”分隔,日期和时间之间用空格间隔。如果转换后为空值或不正确,可能是指定的格式不标准。

    3、系统的时区设置不当有可能导致日期转换之后偏差。

    4、获取的时间用刚刚、多少分钟前、多少小时前、昨天、前天、几天前等文字表述会自动转换成与之相对应的随机时间。如果是目标站点为DZ,则可以自动获取准确时间。

   如果直接获取到下述格式的时间字符串,不要写转换格式。

    (1)使用中文,例如2022年10月27日16点12分53秒

    (2)日期使用“/”或“-”间隔,时间使用“:”间隔,日期和时间使用空格间隔,例如2022-10-27 16:12:53或2022/10/27 16:12:53

    (3)日期使用8位数字,例如20221027,时间使用“:”间隔,并且日期和时间使用空格间隔

    有关DOM获取请参考"操作指南:DOM获取规则"。

    有关字符串获取请参考"操作指南:字符串获取规则"。


返回顶部