- 积分
- 19840
- 经验
- 1998 点
- 热情
- 1989 点
- 魅力
- 145 点
- 信誉
- 1406 度
- 金币
- 2571 枚
- 钻石
- 41 颗
- 蓝光币
- 10 ¥
Forum CEO
- 金币
- 2571 枚
- 体力
- 12433 点
|
一.需要的工具
1.火车采集器最新免费版本 下载地址:https://www.locoy.com/Down/
2.office access 2003或者以上版本
3.windows自带的记事本,开始--所有程序--附件里面
二.采集准备与测试
1.点击新建站点
站点名称:maxcms采集,采集深度:0,其他默认,点击保存
2.采集规则网址
点击maxcms采集--右键--从该站点下新建任务--任务名称 优酷专辑大于200集,任务分步进行中去掉发布内容的勾选,编码--utf8--点击向导添加,我们以喜羊羊与灰太狼为例,专辑地址
https://www.youku.com/playlist_show/id_5091008.html
经过观察,我们发现专辑里面的视频地址都为
https://v.youku.com/v_playlist/f ... f5091008o1p529.html
变化的部分只有红色的0-529,因此我们在批量/多页采集中添加多页采集地址形式 https://v.youku.com/v_playlist/f5091008o1p(*).html 其中(*)代替了上面0-529的数字,下面选择数字变化填写0-529,点击添加--完成
以后采集别的专辑的时候我们只需要点击修改即可修改这个采集的地址
注意,有的地址是001 002这样的地址的时候,我们需要勾选补零,优酷这个不需要勾选
然后点击保存
3.采集内容规则
双击优酷专辑采集大于200即可继续编辑任务,点击第二步,采集内容规则
看左侧选中所有标签,右键删除标签支持全选
我们以第一集为例,第一集的地址为 https://v.youku.com/v_playlist/f5091008o1p0.html
我们知道maxcms数据地址的格式为第X集$数据地址$播放来源标识,因此我们需要组合成这样的地址形式maxcms才会识别
点击添加标签,标签名称输入url,勾选使用正则匹配内容,填写- (*)<title>喜羊羊与灰太狼 - 喜羊羊与灰太狼[参数] - 视频 - 优酷视频 - 在线观看</title>(*)var VideoId = '[参数]';(*)
复制代码 解释这个代码的含义,前面(*)表示任意源代码,<title>喜羊羊与灰太狼 - 喜羊羊与灰太狼表示,从这里开始匹配网页源代码,[参数]表示这个是我们需要截取的第x集这个数字集数的参数,后面 - 视频 - 优酷视频 - 在线观看</title>表示第一个参数匹配源代码结束,第二个(*)标识下面任意代码
在源代码中找到youku的url地址看下面的部分- <script type="text/javascript">
- var un_ame='';
- var videoId = '36484485';
- var videoId2= 'XMTQ1OTM3OTQw';
- var version="/v1.0.0654";
- var tags="%E5%96%9C%E7%BE%8A%E7%BE%8A%E7%81%B0%E5%A4%AA%E7%8B%BC|%E5%96%9C%E7%BE%8A%E7%BE%8A|%E7%81%B0%E5%A4%AA%E7%8B%BC|%E5%9B%BD%E4%BA%A7%E5%8A%A8%E7%94%BB|%E7%BB%8F%E5%85%B8%E5%8A%A8%E7%94%BB|%E7%BB%8F%E5%85%B8|%E5%A5%BD%E7%9C%8B|%E6%8E%A8%E8%8D%90|";
复制代码 但是有时候这么写第二个参数会无效,有的版本好用,有的不好用,为了避免这个问题,我们改为把参数前面的$改成了@这样参数就正常了,我们点击确定按钮保存
最后我们在右边的采集页面测试中输入第一页的采集地址看看是否可以得到我们需要的地址格式,典型页面中粘贴第一集的地址 https://v.youku.com/v_playlist/f5091008o1p0.html 点击测试,得到了第01集@36484485$youku说明采集正常,我们点击更新保存,弹出对话框提示成功,点击确定即可
3.开始采集
在我们刚才建立的任务名称(优酷专辑大于200),在这个名称上点击右键---开始任务采集
此时已经开始采集,自动添加网址--自动开始采集,进度条和上面的消息面板开始显示采集进度,我们需要等待采集结束,
采集内容全部完成√ ,载入网址530条,采集到有效内容530条,保存失败0条
该任务您没有选择发内容,程序将跳过发内容
任务成功完成
三.打开access数据库,添加到maxcms后台
1.在优酷专辑大于200上点击右键--打开data文件夹,打开这个mdb数据库--双击content打开这个表格,在url列上右键点击复制,打开记事本粘贴,粘贴完毕,记事本第一行上的url删除,点击记事本上的编辑--替换(ctrl+h)功能@替换为$就可以了,就可以添加到maxcms的后台中了
这里只是提供一个思路,此方法不仅适合优酷,也适合土豆,奇艺,新浪等采集,制作好一个规则以后,其他的直接添加即可,自己琢磨下吧
可以直接导入写好的规则,左侧空白,右键导入规则,规则看附件
火车采集器maxcms采集规则.rar
(1.43 KB, 下载次数: 4)
|
|