您现在的位置: 网页吧 > 网站运营 > 建站经验 > 正文
  • 站内搜索:

免费采集规则活动之:跟我学新云采集入门

[作者:边缘元素 | 点击数: | 时间:2007-4-12]【
免费采集规则活动之:跟我学新云采集入门

白天要整理点东西,没有时间帮论坛里的一位朋友写采集规则,刚在QQ上教他,不知道他学的怎么样。

其实采集规则并不难,只要你能看懂一点HTML就行了。下面把教学内容发出来和大家分享一下。

新手站长朋友把后台打开,我们也一起操作一遍吧!


首先进入新云管理系统后台,在“文章中心”找到“文章采集管理"这一项,选择顶部的”添加采集项目“

这次采集我们以http://news.sina.com.cn/health/yy/index.html新浪健康栏目作为目标站。

下面开始写这个规则:

项目名称:健康

目标站点URL:http://news.sina.com.cn/health/yy/index.html

所属分类:选择你所要添加到的栏目。

所属专题:假如你设置了专题,也可以选择。

远程列表URL:http://news.sina.com.cn/health/yy/index.html

其他的不用管,点下一步,我们来看列表文件的采集代码:

在目标页面空白处点右键,点”查看源文件”调出列表页面的源代码,我们根据列表页面很容易看出,文章列表的开始部分就在

<div align=left class=title14>,假如这个还不是很清楚的话,我们可以加上<!--开始新闻列表-->,那么完整的别表开始代码就可

以写成:
<div align=left class=title14>
<!--开始新闻列表-->


再来看获取列表结束代码:
<!--结束新闻列表-->
</div>

获取连接开始代码:
<li><a href=

获取连接结束代码:
TARGET=_blank>

下一步,我们来看文章页面的规则。在写的过程中要注意“代码的唯一性”。

http://news.sina.com.cn/w/h/2007-04-10/115712742951.shtml

点开内容页面,同样的方法调出内容的“源文件”。

获取文章标题开始代码<title>

获取文章标题结束代码:_新闻中心_新浪网</title>

获取文章内容开始代码:

<!--正文内容开始-->
   
  <div class="artibody" id="artibody">

获取文章内容结束代码:
<!--正文内容结束-->
  
  <div align="center">

指定演示URL:  http://news.sina.com.cn/w/h/2007-04-10/115712742951.shtml

下一步点演示,看看有能不能看到预览的采集效果页面。如果可以,那么恭喜你已经成功了。

我们再点采集,出现下面的信息:

文章标题:曰本科学家研发出新疫苗 称有望治愈老年痴呆症   
文章作者:佚名
文章来源:不详
采集时间:2007-4-11 0:01:04
目标地址:http://news.sina.com.cn/w/h/2007-04-10/103112742342.shtml
恭喜您!采集成功

教学到此结束,欢迎大家关注免费采集规则活动!

站长自习室 http://www.zixishi.net  草根站长QQ群:8530681
免费采集规则活动之:跟我学新云采集入门网友评论
发表评论
  • 姓 名 :* (必填项)
  • E-mail: QQ:
  • 评 分 : 1分 2分 3分 4分 5分
  • 评论内容:
·请遵守《互联网电子公告服务管理规定》及中华人民共和国其他各项有关法律法规。
·用户发表意见仅代表其个人意见,并且承担一切因发表内容引起的纠纷和责任。
·本站管理人员有权在不通知用户的情况下删除不符合规定的评论信息或留做证据。
·请客观的评价您所看到的资讯,提倡就事论事,杜绝漫骂和人身攻击等不文明行为。
网页吧·中国站长第一门户