
 1、添加项目:
(1)基本设置
1. 项目名称:起个看一眼就明白的名称,如:IT世界-业界新闻(来自IT世界的业界新闻)。
2.所属栏目:采集的新闻属于哪个栏目。
3.所属专题:采集的新闻属于哪个专题。
4.目标文档编码:采集目录网页所用的编码。
5.远程列表URl:采集网页的网址。
6.是否列表分页采集:
书一般都有目录吧?列表就像一本书的目录,目录可以有一页,也可以有很多页,列表也一样。 (1)批量生成 如有些列表是这种形式: 第一页http://www.it.com.cn/news/cyxw/yejie/index_1.html 第二页http://www.it.com.cn/news/cyxw/yejie/index_2.html 第三页http://www.it.com.cn/news/cyxw/yejie/index_3.html
那么可以这设置:{$ID}是必须的
原字符串:http://www.it.com.cn/news/cyxw/yejie/index_{$ID}.html
生成范围:1--3
结果程序会生成:http://www.it.com.cn/news/cyxw/yejie/index_1.html
http://www.it.com.cn/news/cyxw/yejie/index_2.html
http://www.it.com.cn/news/cyxw/yejie/index_3.html
这样的几个列表页面
(2)手动添加
输入一页网址后按回车再输入另一页,如此反复可以输入多个网址。
7.采集图片保存地址: 图片保存到本地的目录地址 后面必须带"/"符号
8、新闻设置: 立即发布:自动审核采集数据。 图片保存:选中的话,如果采集的新闻正文中有图片,图片保存到本地。 倒序采集:选中的话,如果采集的新闻时从最尾页开始采集。
7.标签过滤:
这里是常见的要过滤的html标签。 广告过滤:如果没有选择,那么过滤设置中的过滤将不起作用,下一版中将去掉。 IFRAME:如--<IFRAME SRC="广告地址">,比较常见的广告代码。 OBJECT:如--<Object 代码>代码</Object>,注意--有些正文中有Flash动画、又有这个广告代码,此时推荐使用过滤功能。 s cript :如--<s cript LANGUAGE="Javas cript1.1" SRC="广告地址"></s cript>,常见的广告代码。 FONT :如--<font style="font-size:12px;line-height:150%;">,常用于去掉文字的大小、颜色等属性。 A :如--<a href="http://pic.scuta.net">查看更多图片</a>,常用于去掉文字、图片上的链接,但不会去掉“查看更多图片”。
2、 第一步 :
1.列表开始/结束标记:
平面上的两点确定一条直线,学过几何吧?用在这里是一样的道理,开始/结束标记可以确定你要采集的新闻,有的这里没有设置好结果采集到其它新闻去了。 比如这是某一列表页面的主要部分代码: <table width="98%" border="0" cellspacing="0" cellpadding="3"> <tr> <td align="left" valign="top"><br> <a href="News.asp?id=1" target=_blank>新闻标题</a><br> <a href="News.asp?id=2" target=_blank>新闻标题</a><br> ....省略 <a href="News.asp?id=50" target=_blank>新闻标题</a> </td> </tr> </table> 红色部分就是我们要的列表开始标记和结束标记,是不是把你想要的新闻夹在中间了?按照这样的取法可以选择好多对开始标记和结束标记,也就是说它们并不是唯一的。但是它们又是相对唯一的,这里的唯一是指,开始标记在第一条新闻以上的代码中唯一,结束标记在开始标记到结束标记之间的是唯一的。 2.链接开始/结束标记: <a href="News.asp?id=1" target=_blank>新闻标题</a><br> 2、 第二步 :
1.正文设置
标题、正文、作者、来源、是否正文分类设置、关键字及正文分页设置同上,不想重复,这里就不说了。
2.采样测试
正确采样后完成添加操作。
|