首先说下这个采集插件有啥用,相信不少朋友用wordpress做博客,写博文更新嫌弃太慢,那么你可以用这个插件,花个半天配置好,以后就不用操心了,采集一下几百篇文章来了〔做原创的博主可以略过〕

使用教程:如何安装

首先去长腿蜘蛛-CTspider官网下载插件

然后到WordPress插件页面点击上传,安装启用即可。
如果使用FTP上传,请使用二进制上传协议。
如何授权

登录长腿蜘蛛-CTspider官网注册账号(PS:注册账号需要邮箱验证激活码,请认真填写邮箱账号)。

点击用户中心->添加授权域名(PS:目前每位用户可以授权3个域名)。
得到授权码后,点击CTspider插件->系统配置->授权码配置->填入授权码->保存配置->验证授权

最近有很多网友问:为什么点击采集后显示没有任何数据只有两种可能

采集规则没有设置好。
如果确定采集规则没问题,请查看当前采集的网址是否是Ajax动态渲染加载(PS:目前长腿蜘蛛-CTspider 不支持动态渲染加载采集)
新建项目 / 基本配置

接下来我们详细说下如何采集一个项目

我们使用新浪科技为示例:

首先基本配置

任务名称:新浪科技(PS:自定义即可)
更新时间:默认60分钟(PS:当前任务60分钟自动执行一次)
字符集:默认选项就可以(PS:如果出现乱码情况,请针对当前web网页字符集选择即可)
随机IP:开启(PS:开启随机IP会在每次采集的时候自动更换IP,减少服务器IP被封的几率)
多线程采集:开启 (PS:开启后可提高采集速度)
多线程数量:默认10(PS:根据自己服务器配置酌情使用)

列表设置

列表URL: http://roll.tech.sina.com.cn/internet_all/index.shtml (PS:如需多个,可换行添加)
列表区域选择器:.contList>ul>li (PS:【完全和CSS选择器用法一样】【可填,可不填】如果采集当前页面有多个相同列表DOM节点就要填写,确保采集精准度)用谷歌浏览器右键审查元素,可以看出当前列表数据都在.contList>ul>li下面

列表缩略图:如果有图可以直接填写当前缩略图CSS选择器
文章网址匹配:a (PS:由于上面区域选择器已经定位,我们可以直接填入a标签即可,如果区域选择器没有定位则设置:.contList li a 或者.contList a 具体根据你采集页面dom结构自己分析)
添加来源网址到自定义字段:source_url(PS:【自定义】可开启或不开启,设置后会在每天文章添加一个自定义字段source_url并且会把当前采集到网址链接赋值给该字段用于前台调用显示)如: get_post_meta(‘source_url’) 可调用该字段的值。
点击列表测试可以查看当前项目列表配置情况

标题匹配规则:h1

文章内容设置:#article_content
可以看到标题在h1标签下,也可使用.main-title来获取标题

正文内容看上去有好多 class和id 如果有id属性尽量采用id,毕竟id是唯一性,定位精准。

我们还可以增加规则来采集TAG标签

长腿蜘蛛-CTspider 提供了6总规则添加采集,并且可以自定义字段规则(PS:自定义字段规则可以添加多个)

点击采集测试

采集结果完美呈现(原文:标题:TAG)正确显示

但是我们发现结果中出现了a链接和一些多于的css属性和id属性还有span标签

我们可以利用长腿蜘蛛-CTspider强大的内容过滤模块进行数据清洗工作

内容过滤

首先删除数据中所有a链接但不删除a标签内容
删除数据中span标签并且也不删除内容
删除数据中无用的class属性和id属性
最后在进行采集测试(得到纯净的数据)
——————-注意!——————–
这个是官网,里面联系方式与我本人无关,这个插件完全免费!

夜河资源网提供的所有内容仅供学习与交流。通过使用本站内容随之而来的风险以及法律责任与本站无关,所承担的法律责任由使用者承担。
一、如果您发现本站侵害了相关版权,请附上本站侵权链接和您的版权证明一并发送至邮箱:yehes#qq.com(#替换为@)我们将会在五天内处理并断开该文章下载地址。
二、本站所有资源来自互联网整理收集,全部内容采用撰写共用版权协议,要求署名、非商业用途和相同方式共享,如转载请也遵循撰写共用协议。
三、根据署名-非商业性使用-相同方式共享 (by-nc-sa) 许可协议规定,只要他人在以原作品为基础创作的新作品上适用同一类型的许可协议,并且在新作品发布的显著位置,注明原作者的姓名、来源及其采用的知识共享协议,与该作品在本网站的原发地址建立链接,他人就可基于非商业目的对原作品重新编排、修改、节选或者本人的作品为基础进行创作和发布。
四、基于原作品创作的所有新作品都要适用同一类型的许可协议,因此适用该项协议, 对任何以他人原作为基础创作的作品自然同样都不得商业性用途。
五、根据二〇〇二年一月一日《计算机软件保护条例》规定:为了学习和研究软件内含的设计思想和原理,通过安装、显示、传输或者存储软件等方式使用软件的,可不经软件著作权人许可,无需向其支付报酬!
六、鉴此,也望大家按此说明转载和分享资源!本站提供的所有信息、教程、软件版权归原公司所有,仅供日常使用,不得用于任何商业用途,下载试用后请24小时内删除,因下载本站资源造成的损失,全部由使用者本人承担!