火车头傻瓜教程.docx
- 文档编号:5866228
- 上传时间:2023-01-01
- 格式:DOCX
- 页数:13
- 大小:911.61KB
火车头傻瓜教程.docx
《火车头傻瓜教程.docx》由会员分享,可在线阅读,更多相关《火车头傻瓜教程.docx(13页珍藏版)》请在冰豆网上搜索。
火车头傻瓜教程
火车头2010简单采集教程
首先我们打开软件
红色的就是程序了
接下来我们会进入到火车头的操作界面
我上面有2个站点,一般火车头打开都会有一个测试站点。
那么我们今天就直接用测试站点
1.选中测试站点》右键点击测试站点》新建任务就会出现如下的界面
那么我们先写好任务名:
我写的是尖尖的诊断
2.网站编码因为我的目标站是http:
//www.zg-这个医院的站。
那么我先查看这个站的源码
这里显示源码是GB2312的,那么我在界面上也选择GB2312
2.开始采集地址
点击向导添加或者双击空白的地方可以进入采集地址的界面
因为我要采集的是整个栏目,所以我查看了一下栏目第一页的地址是
http:
//www.zg-
第二页的是http:
//www.zg-
最后一页是http:
//www.zg-
因此得出结论:
后面的是变量的。
那么我们在添加地址的时候可以在变量数这里加入通配符
数字变化默认是1到5但是我们要采集整个栏目所以写了21个,因为整个栏目有21页
然后随便点击一个地址点击添加
再完成我们第3部就OK了。
第4:
文章内容页面地址必须包含
我随便挑了一个列表的文章http:
//www.zg-
他的URL结构都是最后的8116这里变量,其他的都一致。
那么我们就可以继续用通配符
OK。
然后第一步采集网址规则已经写好了。
是不是很简单呢。
接下来第二步采集内容规则
默认有很多标签但是我们只需要2个标题和内容所以其他的我们都可以删掉
好的接下来我们来做一个title的设置
这里面的我想,应该都看的懂吧.我就直接讲操作
.我们打开之前的那个文章,然后查看源代码
他们的标题后面都有_北京尖锐湿疣医院_生殖器疱疹-北京湿疣疱疹医院
所以我们在设置title的时候就把这一段排除
替换的话自己看文章一些固定的东西,然后自己看着办
接下来是内容
这一段是文章的代码从中选择整个页面唯一的一段开头码填到下面的框里
然后就是文章里面会残留一些代码
我们在这选择所有标签。
。
然后确定
第3步:
我是保存到本地的所以选择了保存为本地文件。
然后自己设置个文件夹就OK了
第4步:
很多都不用管。
直接设置一个保存到文件夹然后就OK。
接下来我们可以开始采集了
开始采集
好了。
因为我也做昨天晚上刚学会用,所以还有很多地方有些问题。
欢迎大家互讨论
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 火车头 傻瓜 教程