发新话题 回复该主题

想请教一下,如何入库列表页,然后不重复采集?谢谢~ [复制链接]

1#
想请教一下,如何入库列表页,然后不重复采集?谢谢~
1.循环提取列表页,下次采集他还从开始起。
2.这个深入采集内容页之后他会马上返回列表页,再采集下一个内容页,这中间如何指定延迟时间?
希望得到您详细的回复,详细。
分享 转发
TOP
2#

已经采集过的 文章页入库,然后每次采集文章的时候查询数据库是否存在 如果存在就跳过,并且计数, 如果连续跳过大于10   就暂停脚本。
TOP
3#

回复 2楼88520的帖子

感谢回复,已经学会了。知识例表页还不知道怎么续集,火车头我到时会,这个还在熟悉中
TOP
发新话题 回复该主题