MD5值:0FA0463417A72D84375C4B5D2FC49465
上传插件
方法一
直接通过后台的【本地后台上传插件】,将下载过来的ZIP包直接上传解压。
优点:操作便捷!
缺点:部分主机会解压失败
方法二
下载插件后,本地解压,并通过FTP将 文件夹 上传到 plugins 目录下。
优点:安装比较顺利。
缺点:可能需要你懂点网建知识,会一点点小编程
安装插件
上传成功后的插件会在【未安装插件】列表中,请点击安装
安装后,会显示到【已安装列表】,这时候插件是不可用状态,请点击状态,变成【绿标】即表示插件安装成功
参数调整
您在安装过程中,因为一些原因,没有配置好参数,可以在这里进行配置
快捷栏目管理
系统支持插件的一些配置信息自定义到:左侧菜单/全局区/内容区,这大块上,以方便维护人员快速进入
内容介绍
建站过程中,我们会无数次的碰到这样的问题:如何把旧网站的数据迁移到新网站上来,数据迁移历来是产品迭代更新时最棘手的。官方从实际入手,编写相应的数据采集插件,只要做简单的页面标识,即可快速将数据迁移到新平台上来!也方便开发人员填充数据(不至于大量填写:测试测试,Demo,Demo)
新版修正
字段规则引用
规则数据导入导出
特别说明
本插件从一开始的定位方向很明确,用于平台网站迁移,功能简陋,性能一般。如果您的网站有大量数据需要采集,建议您使用火车头采集器
请合理使用,勿使用于非法!
采集教程
采集原理
程序通过 curl 远程获取网页数据(HTML),然后通过正则方式获取筛选自己相要的内容信息(比如一些文本信息,图片信息,文件信息等)。为简化操作,本系统使用通配符:(*) 来表示任意值,其他正则表达式未深入测试。
在这里,再次声明下,本工作功能脆弱,仅适合网站搬家,不支持现在流行的异步获取数据,不支持JSON解析!
本程序所有的列表+内容采集原理:
通过【采集范围】的左侧(又称开始标识符,或开始字符串)删除在这个代码块之前的所有的数据!通过【采集范围】的右侧(又称结束标识符,或结束字符串)删除在这个代码块之后的所有数据,仅保留在这两个代码块之间的数据!
列表中:剩余的代码,则通过正则获取URL信息(列表仅仅采集网址,不能采集其他)
采集内容的原理和列表一样,因为内容有多个字段组成,每个字段的规则基本上都是这样子走的!
删除代码块前+后的代码
去除一些多余的代码
替换一些代码(简单的文本替换)
格式化获取到的内容:1)文本,2)HTML,3)文本转时间戳,4)整数格式化,5)浮点格式化,6)取前80字,用于摘要,7)取图片,基本上就这样子了
项目维护
右上解点击【添加采集项目】或各个项目的【编辑】,即可进入采集项目维护界面。
标题:(方便管理)
网址:其作用是补全相对地址,因此要求填写:http://域名/目录/ 或 https://域名/目录/,或直接填写:http://域名/ 或 https://域名/,以方便地址补全(此项操作要求使用者自己测试,主要用于图片文件获取)
发布目标:即您要将发布的信息保存到哪个项目中(系统会根据指定的项目,创建要采集的字段),注意分类的选择!
列表网址:通常我们说的列表页,下有分页的那个页面,像新闻一般都是:标题+摘要+图片+链接组成(例如网址:https://www.phpok.com/website-knowledge.html,这就是一个列表页),一行一个列表。如果列表太多,请选择旁边的【网址生成器】快速生成有规律的页面
采集范围:设定网页中要采集的某个区块
项目复制
我们一直强调,本插件主要为搬家服务,自然有一些自己的特色,比如当前的项目复制功能,即可实现同一个项目类型不同分类的快速定位!
字段管理
创建完成项目后,系统会自动把需要采集的内容字段都统一写到字段管理,这个些管理相当于火车头的【内容采集规则】里的标签列表,我们对要采集的字段进行规则处理!处理原则和上述的采集原理是一模一样的!
这里画了一张图和火车头采集器内容规则采集的对比图(当然,我们的程序功能是弱爆了)
A,B,C,D四个部分功能基本上是和火车头一一对应的!
采集测试
写好规则后,我们要需要对数据进行测试验证,以确保采集的数据是我们想要的
请点击【测试】在打开的标签页里输入要测试的网址!注意,列表采集测试请点击【采集列表】,内容采集测试请点击【采集内容】
采集并发布
上述准备工作做好后,我们就可以开始采集数据了!
采集的先后顺序是:
1、【采网址】,先通过列表采集,获取我们要采集的内容页网址
2、【采内容】,网址采集完后,请点击采内容,进行内容采集,直接采集结束
3、【发布内容】,发布前先随机查验,请点击内容,随机抽样检查采集的内容是否符合要求。确保数据符合,我们再点发布
网站迁移
迁移条件
1、关闭防采集功能
2、能手动修改旧版网站模板信息(或是内容)(用于改造我们需要的的网址及内容信息)
3、仅限开发人员使用
网站迁移
在旧站页面上将要采集的列表加上唯一标签,以方便采集时不会有太多垃圾数据及遗漏数据。大要说明如下图
看到上面的源代码图片,我们一般会在后台设置这样子的标签:
但实际过程中,一个页面这重复的标签就多了,于是我们对源代码页进行改造(目前网上大部分程序源码对应的页面都是模板的),我们模板代码里加上开头标识符和结束标识符
<div class="phpok-list-start"></div><ul class="list">
</ul><div class="phpok-list-stop"></div>
这样子,我们就可以在【采集范围】设置如下
于是我们采集的定位就确保准确!
同样的原理也适合采集内容字段。这个方法甚至可以用于采集完整的时间(因为页面一般呈现的时间只有年月日,但我们数据库存的是年月日时分秒,甚至是时间戳格式,我们可以自己重新定义标签及内容,然后再执行采集!
注意,此方法要求必须是开发人员!普通用户慎用
特别提醒
1、列表或详细页采集Ajax异步加载的,当前系统无力采集(例如点击数)也就是说现代绝大多数酷炫特效类的网站,基本上可以排除了,获取不到数据
2、请使用右键查看源代码或按CTRL+U获取源代码的格式,不要通过F12或检查模式获取代码(如下图)
所以,这里再次说明下,本工具仅用于网站搬家!因为刚刚上面碰到的问题,如果有代修改权限,这些都不是问题!
效果截图
