|
使用指南-----点击新闻采集

使用指南-----新闻项目设置

1.设置采集保存的地址

一、添加项目:


(1)基本设置
1. 项目名称:起个看一眼就明白的名称,如:IT世界-业界新闻(来自IT世界的业界新闻)。
2.所属栏目:采集的新闻属于哪个栏目。
3.网站地址:采集网页的网址。
4.目标文档编码:采集目录网页所用的编码。
5.远程列表URl:采集网页的网址。
6.是否列表分页采集:
书一般都有目录吧?列表就像一本书的目录,目录可以有一页,也可以有很多页,列表也一样。 (1)批量生成 如有些列表是这种形式: 第一页http://www.it.com.cn/news/cyxw/yejie/index_1.html 第二页http://www.it.com.cn/news/cyxw/yejie/index_2.html 第三页http://www.it.com.cn/news/cyxw/yejie/index_3.html
那么可以这设置:{$ID}是必须的
原字符串:http://www.it.com.cn/news/cyxw/yejie/index_{$ID}.html
生成范围:1--3
结果程序会生成:http://www.it.com.cn/news/cyxw/yejie/index_1.html
http://www.it.com.cn/news/cyxw/yejie/index_2.html
http://www.it.com.cn/news/cyxw/yejie/index_3.html
这样的几个列表页面
(2)手动添加
输入一页网址后按回车再输入另一页,如此反复可以输入多个网址。
7.采集图片保存地址: 图片保存到本地的目录地址 后面必须带"/"符号
8.标签过滤:对新闻内容进行过滤。如一些广告.
9.显示源码:显示采集目标测试效果。
10.设置完成请按"下一步"
(2)列表连接设置
1.列表开始代码--列表结束代码:
平面上的两点确定一条直线,学过几何吧?用在这里是一样的道理,开始/结束代码可以确定你要采集的新闻,有的这里没有设置好结果 采集到其它新闻去了。 比如这是某一列表页面的主要部分代码: <table width="98%" border="0" cellspacing="0" cellpadding="3"> <tr> <td align="left" valign="top"><br> <a href="News.asp?id=1" target=_blank>新闻标题</a><br> <a href="News.asp?id=2" target=_blank>新闻标题</a><br> ....省略 <a href="News.asp?id=50" target=_blank>新闻标题</a> </td> </tr> </table> 红色部分就是我们要的列表开始代码和结束代码,是不是把你想要的新闻夹在中间了?按照这样的取法可以选择好多对开始代码和结束代码 也就是说它们并不是唯一的。但是它们又是相对唯一的,这里的唯一是指,开始代码在第一条新闻以上的代码中唯一,结束代码在开始代码到 结束代码之间的是唯一的。
2.链接开始代码--链接开始代码: 以上面设置相同 <a href="News.asp?id=1" target=_blank>新闻标题</a><br>
3.设置完成请按"下一步"

(3)正文设置
1.标题开始标记-标题结束标记:
设置方法以列表开始代码--列表结束代码设置差不多.
<title>新闻标题</title>
2.正文开始标记-正文结束标记:
设置方法以上面一样。不用介绍了
3.正文分页设置:

分页开始标记--分页结束标记: 设置方法以上相同 <div id="ArticlePageLinkA">第1 <a href="/a/20060803/000075_1.htm">2</a> <a href="/a/20060803/000075_2.htm">3</a> <a href="/a/20060803/000075_3.htm">4</a> <a href="/a/20060803/000075_4.htm">5</a> <a href="/a/20060803/000075_5.htm">6</a> <a href="/a/20060803/000075_6.htm">7</a> <a href="/a/20060803/000075_7.htm">8</a> <a href="/a/20060803/000075_8.htm">9</a>页</div>
分页链接开始标记--分页链接结束标记
<a href="/a/20060803/000075_8.htm"> 4.时间设置 5.作者设置 6.来源设置 7.关键字词设置 设置方法都和以上设置一样
采集测试无错就可以采集!ok
|