始创于2000年 股票代码:831685
咨询热线:0371-60135900 注册有礼 登录
  • 挂牌上市企业
  • 60秒人工响应
  • 99.99%连通率
  • 7*24h人工
  • 故障100倍补偿
您的位置: 网站首页 > 帮助中心>文章内容

搜索引擎原理(六)

发布时间:  2012/9/3 11:01:43
  搜索引擎是不可能将Web上的网页搜集完全的,通常都是在其他条件的限制下决 定搜集过程的结束(例如磁盘满,或者搜集时间已经太长了)。因此就有一个尽量 使搜到的网页比较重要的问题,这对于那些并不追求很大的数量覆盖率的搜索引 擎特别重要。研究表明[Najork and Wiener,2001],按照先宽搜索方式得到的网页集 合要比先深搜索得到的集合重要(这里当然有一个重要性的指标问题)。这种方式 的一个困难是要从每一篇网页中提取出所含的URL 。由于HTML的灵活性,其中 出现URL的方式各种各样,将这个环节做得彻底不容易(例如我们现在还没有很 好的简单办法从JavaScript脚本中提取URL )。同时,由于Web的“蝴蝶结”形状 [Broder, et al.,2000],这种方式搜集到的网页不大会超过所有目标网页数量2 的2/3。 另外一种可能的方式是在第一次全面网页搜集后,系统维护相应的 URL 集 合 S,往后的搜集直接基于这个集合。每搜到一个网页,如果它发生变化并含有 新的URL,则将它们对应的网页也抓回来,并将这些新URL 也放到集合S 中; 如果 S 中某个url 对应的网页不存在了,则将它从 S 中删除。这种方式也可以看 成是一种极端的先宽搜索,即第一层是一个很大的集合,往下最多只延伸一层。 还有一种方法是让网站拥有者主动向搜索引擎提交它们的网址(为了宣传自 己,通常会有这种积极性),系统在一定时间内(2 天到数月不等)定向向那些网 站派出“蜘蛛”程序,扫描该网站的所有网页并将有关信息存入数据库中。大型 商业搜索引擎一般都提供这种功能。 第三节 预处理 得到海量的原始网页集合,距离面向网络用户的检索服务之间还有相当的距 离。宏观地看,服务子系统是一个程序。采用Wirth 关于“程序 = 算法+数据结 构”的观点来考察这个程序,一个合适的数据结构是查询子系统工作的核心和关 键。这里只是指出:现行最有效的数据结构是“倒排文件”(inverted file);倒排 文件是用文档中所含关键词作为索引,文档作为索引目标的一种结构(类似于普 通书籍中,索引是关键词,书的页面是索引目标)。我们在第八章中有进一步分析。 下面讨论从网页集合形成这样的倒排文件过程中的几个主要问题,即我们所说的 “预处理”。主要包括四个方面,关键词的提取,“镜像网页”(网页的内容完全相 同,未加任何修改)或“转载网页”(near-replicas,主题内容基本相同但可能有 一些额外的编辑信息等,转载网页也称为“近似镜像网页”)的消除,链接分析和 网页重要程度的计算。 1.关键词的提取 2 所谓“目标网页”指的是搜索引擎设计覆盖的网页范围。例如Google是全球,天网是全中国。
本文出自:亿恩科技【www.enkj.com】

服务器租用/服务器托管中国五强!虚拟主机域名注册顶级提供商!15年品质保障!--亿恩科技[ENKJ.COM]

  • 您可能在找
  • 亿恩北京公司:
  • 经营性ICP/ISP证:京B2-20150015
  • 亿恩郑州公司:
  • 经营性ICP/ISP/IDC证:豫B1.B2-20060070
  • 亿恩南昌公司:
  • 经营性ICP/ISP证:赣B2-20080012
  • 服务器/云主机 24小时售后服务电话:0371-60135900
  • 虚拟主机/智能建站 24小时售后服务电话:0371-60135900
  • 专注服务器托管17年
    扫扫关注-微信公众号
    0371-60135900
    Copyright© 1999-2019 ENKJ All Rights Reserved 亿恩科技 版权所有  地址:郑州市高新区翠竹街1号总部企业基地亿恩大厦  法律顾问:河南亚太人律师事务所郝建锋、杜慧月律师   京公网安备41019702002023号
      0
     
     
     
     

    0371-60135900
    7*24小时客服服务热线