精典的ASP传奇的J2EE新生的NETFTP服务器服务器安全WINDOWSB/S 模式WEB安全WAP世界动态网站推广宣传
空间服务器数据库技术邮局服务器站長工具硬设与组建Alexa专题DHTML项目管理WEB标准电脑硬件
病毒知识电脑使用布线协议接入交换路由局域网无线网络网络规划
Visual BasicVisual C/C++MssqlMySqloracleSybase 存在安全风险进程系统进程列表应用程序进程列表其它进程列表
黑客编程漏洞分析本地提权免杀技术脚本漏洞数据库注入安全防护内网渗透加密解密工具使用
WAP技术WAP入门
 您的位置:   >> 相关知识 >> 开发技术 >> 精典的ASP >>

四步教会您制作采集器

合金网络科技

 
  添加日期:2007-3-30 点击次数:67次  
   
    很多朋友在论坛上发贴询问采集器的制作方法和一些细节问题。为了使得更多的站长更加方便地使用SupeSite的采集功能,特作此教程。

  首先简单说一下制作采集器的基本原理和思路:

  1、确定您要采集哪个页面的新闻,将这些页面的地址填入到“索引页面url地址(图4和5)”;





  2、确定在这些页面您要采集的内容区域,因为不是一个网页所有的内容都要采集回来,而是采集一个网页的一部分内容,所以您必须告诉程序您要采集的区域,也就是“列表区域识别规则”;(图4和5)

  3、第2步确定区域之后,还要告诉程序您要采集的文章链接,也就是“文章链接url识别规则”。(图4和5)

  4、现在已经确定了大的采集框架,接下来要告诉程序在一个文章页面,文章的标题,文章的来源和作者分别是什么。然后就是一篇文章内容的范围,也就是说一个文章页面内,真正您需要采集的范围,就是“文章内容识别规则”。最后设置分页的区域和分页的链接地址。(图6)。



  5、以上4个步骤已经确定了采集的范围,如果您需要过滤标题和内容,请根据您的要求设置“内容页面整理设置”。

  以上几个步骤确定范围都是通过查看页面源码,进行设置的,截取的方法需要一些经验,练习2--3次就可以领悟到了。

  接下来介绍采集器的基本原理和步骤:

  第一:打开后台的采集器,点击“添加新机器人”。(图1)


   第二:填写基本设置:(图2)



  这里需要特别指出的有两个地方:单次采集个数和采集页面编码。单次采集个数尽量设置较小的数字,以免超时。采集页面编码是您采 集网页的编码,并不是您站点的编码。这里切记!!

  查看采集页面编码的方法:点击网页头部的“查看”,然后点击“源文件”,然后找到类似“” ,charset后面的就是这里需要填写的“采集页面编码”。(如图3)



  第三:列表页面采集设置:(如图4)和(如图5)

  这里设置的是采集页面的url地址,采集内容的区域范围,采集文章标题的url地址。

  采集页面的url地址有两种设置方法:手动输入(如图4)和自动增长(如图5)。手动输入需要您自己将所需采集的地址逐行输入。自动增长 只需填入采集页面的地址和页面页码。详见图5。用[page]代替分页变量。

  采集内容的范围用[list]代替,采集文章的标题用[url]代替。

  第四:内容页面采集设置:(如图6)

  这里需要设置的采集规则有:文章标题,文章来源(选填),文章作者(选填),文章内容,分页设置(选填)。

  文章标题用[subject]代替,文章来源用[from]代替,文章作者用[author]代替,文章内容用[message]代替,分页区域用[pagearea]代 替,分页链接用[page]代替。

  之后的过滤设置可以根据您的需要和采集页面的具体情况进行填写。

  设置完毕之后点击提交,然后点击“开始采集”(图7),(图8)是采集的过程,采集完毕之后点击“查看结果”(图9),如果您的采集规 则正确,可以得到(图10)的页面,最后将采集的内容导入资讯。这里说明一点:采集的内容只能够导入资讯这个频道。



 



 



 

精典的ASP精选TOP
· 利用ADODB.Stream 防盗链
· Adodb.Stream说明手册
· 采集需要登录
· ASP 判断远程图片是否存在
· 在ServerXMLHTTP组件中使用代理服务器
· 用XMLHTTP通过代理服务器从服务提取数据的一些问题
· objXML.readystate的值
· 互联网HTTP连接等出错代码大全
· 利用XMLHTTP实现的二级连动Select
· 利用 xmlhttp 分块上传文件
 
服务器安全点击TOP
· 新云最新漏洞总结篇
· 各类网站的默认数据库和密码
· Windows Server2003 防木马权限设置IIS服务器安全配置整理
· 针对ASP网站的Win 2003硬盘安全设置
· IIS 6 的PHP 最佳配置方法
· 利用SA.exe 将Iusr_victim克隆为Administrator
· Cmd模式下的入侵技术大全
· 破解网页代码加密
· SERV-U 6.4提权方法,通杀SERV-U版本
· 新云网站管理系统文件注入漏洞
 
硬设与组建点击TOP
· 从头到尾教你组建小型局域网20
· 从头到尾教你组建小型局域网19
· 从头到尾教你组建小型局域网18
· 从头到尾教你组建小型局域网17
· 从头到尾教你组建小型局域网16
· 从头到尾教你组建小型局域网15
· 从头到尾教你组建小型局域网14
· 从头到尾教你组建小型局域网13
· 从头到尾教你组建小型局域网12
· 从头到尾教你组建小型局域网11
 
病毒知识点击TOP
· 不再重装 手动清除顽固病毒AutoRUN
· 木马静态变动态 DLL木马程序大揭秘
· 详解一个很牛X的网马
· 一个网马
· Trojan-Downloader.Win32.Delf.bab
· 抓了一个AJAX的网马
· 迅雷5 最新0day利用程序
· 自动关掉270种杀毒软件
· RealPlayer 最新网马
· 五个反弹型后门的源代码
 
WINDOWS点击TOP
· 4【系统知识】常见文件扩展名及简要说明!!! ==超详尽==
· 3【系统知识】常见文件扩展名及简要说明!!! ==超详尽==
· 2【系统知识】常见文件扩展名及简要说明!!! ==超详尽==
· 1【系统知识】常见文件扩展名及简要说明!!! ==超详尽==
· Capture an HTML document as an image
· 如何给eWebEditor编辑器加上运行代码框功能
· 给CuteEditor5增加了高亮代码显示功能
· CuteEditor6.0使用配置心得体会
· 关于IE插件的CLSID问题
· 对开发的程序(制作CAB)进行签名,并允许网站中使用
  "凌风微型文章系统",针对"搜索引擎"完美设计,提高"搜索引擎"对网站容量,质量的评估值,"扁平化,转静态 ..."