搜索引擎是不可能将Web上的网页搜集完全的,通常都是在其他条件的限制下决 定搜集过程的结束(例如磁盘满,或者搜集时间已经太长了)。因此就有一个尽量 使搜到的网页比较重要的问题,这对于那些并不追求很大的数量覆盖率的搜索引 擎特别重要。研究表明[Najork and Wiener,2001],按照先宽搜索方式得到的网页集 合要比先深搜索得到的集合重要(这里当然有一个重要性的指标问题)。这种方式 的一个困难是要从每一篇网页中提取出所含的URL 。由于HTML的灵活性,其中 出现URL的方式各种各样,将这个环节做得彻底不容易(例如我们现在还没有很 好的简单办法从JavaScript脚本中提取URL )。同时,由于Web的“蝴蝶结”形状 [Broder, et al.,2000],这种方式搜集到的网页不大会超过所有目标网页数量2 的2/3。 另外一种可能的方式是在第一次全面网页搜集后,系统维护相应的 URL 集 合 S,往后的搜集直接基于这个集合。每搜到一个网页,如果它发生变化并含有 新的URL,则将它们对应的网页也抓回来,并将这些新URL 也放到集合S 中; 如果 S 中某个url 对应的网页不存在了,则将它从 S 中删除。这种方式也可以看 成是一种极端的先宽搜索,即第一层是一个很大的集合,往下最多只延伸一层。 还有一种方法是让网站拥有者主动向搜索引擎提交它们的网址(为了宣传自 己,通常会有这种积极性),系统在一定时间内(2 天到数月不等)定向向那些网 站派出“蜘蛛”程序,扫描该网站的所有网页并将有关信息存入数据库中。大型 商业搜索引擎一般都提供这种功能。 第三节 预处理 得到海量的原始网页集合,距离面向网络用户的检索服务之间还有相当的距 离。宏观地看,服务子系统是一个程序。采用Wirth 关于“程序 = 算法+数据结 构”的观点来考察这个程序,一个合适的数据结构是查询子系统工作的核心和关 键。这里只是指出:现行最有效的数据结构是“倒排文件”(inverted file);倒排 文件是用文档中所含关键词作为索引,文档作为索引目标的一种结构(类似于普 通书籍中,索引是关键词,书的页面是索引目标)。我们在第八章中有进一步分析。 下面讨论从网页集合形成这样的倒排文件过程中的几个主要问题,即我们所说的 “预处理”。主要包括四个方面,关键词的提取,“镜像网页”(网页的内容完全相 同,未加任何修改)或“转载网页”(near-replicas,主题内容基本相同但可能有 一些额外的编辑信息等,转载网页也称为“近似镜像网页”)的消除,链接分析和 网页重要程度的计算。 1.关键词的提取 2 所谓“目标网页”指的是搜索引擎设计覆盖的网页范围。例如Google是全球,天网是全中国。 本文出自:亿恩科技【www.enkj.com】
服务器租用/服务器托管中国五强!虚拟主机域名注册顶级提供商!15年品质保障!--亿恩科技[ENKJ.COM]
|