始创于2000年 股票代码:831685
咨询热线:0371-60135900 注册有礼 登录
  • 挂牌上市企业
  • 60秒人工响应
  • 99.99%连通率
  • 7*24h人工
  • 故障100倍补偿
您的位置: 网站首页 > 帮助中心>文章内容

搜索引擎原理(一)

发布时间:  2012/9/3 11:01:20
 信息的生产、传播、搜集与查询是人类最基本的活动之一。考虑以文字为载 体的信息,传统上有图书馆、相应的编目体系和专业人员帮助我们很快找到所需 的信息,其粒度通常是“书”或者“文章”。随着计算机与信息技术的发展,有了 信息检索(Information   Retrieval,IR)学科领域,有了关于图书或者文献的全文 检索系统,使我们能很方便地在“关键词”的粒度上得到相关的信息。      我们注意到,上述全文检索系统一般工作在一个规模相对有限、内容相对稳 定的馆藏(collection)上,被检索的对象通常是经过认真筛选和预先处理的(例 如人工提取出了“作者”,“标题”等元数据,形成了很好的“摘要”等),并且系 统需要同时响应的查询数量通常都不会太大(例如每秒钟 10 个左右)。      1994 年左右,万维网(World   Wide   Web,简记为WWW 或Web )出现。它 的开放性(openness)和其上信息广泛的可访问性(accessibility)极大地鼓励了 人们创作的积极性。作为一个信息源,Web 和上述全文检索系统的工作对象相比, 具有许多不同的特征,它们给信息检索领域带来了新的发展机遇和技术挑战。      规模大。在短短的 10 年左右时间,人类至少生产了40 亿网页[Google,2004], 而人类有文字上万年以来产生了大约 1 亿本书;中国网上到2004 年初大致有了约 3 亿网页[天网,2004],而中华民族有史以来出版的书籍大约不过 275 万种。尽管 书籍的容量和质量是一般网页不可比的,但在对应的时间背景上考察其文字的总 体数量,我们不能不为人类在Web 上创造文字的激情惊叹!      内容不稳定。除了不断有新的网页出现外,旧的网页会因为各种原因被删除  (有研究指出50%网页的平均生命周期大约为50 天[Cho and Garcia-Molina,2000, Cho,2002]);      从原则上讲,读者数和作者数在同一个量级,形式和内容的随意性很强,权 威性相对也不高,也不太可能进行人工筛选和预处理。      与生俱来的数字化、网络化。传统载体上的信息,人们目前正忙于将它们数 字化、上网(花费极高),而网络信息天生如此。这个特性是一把双刃剑:一方面 便于我们搜集和处理,另一方面也会使我们感到太多,蜂拥而至,鱼目混珠。      而作为要在Web 上提供服务的信息查询系统,如搜索引擎和数字图书馆,通 常要具备同时对付大量访问的能力(例如每秒钟 1000 个查询),而且响应时间还 要足够的快(例如 1 秒钟)。      本书旨在介绍构建这类搜索引擎的有关技术。传统的 IR是其基础,同时也 充分讨论了由上述Web 信息的特征所带来的新问题及其解决方案。
本文出自:亿恩科技【www.enkj.com】

服务器租用/服务器托管中国五强!虚拟主机域名注册顶级提供商!15年品质保障!--亿恩科技[ENKJ.COM]

  • 您可能在找
  • 亿恩北京公司:
  • 经营性ICP/ISP证:京B2-20150015
  • 亿恩郑州公司:
  • 经营性ICP/ISP/IDC证:豫B1.B2-20060070
  • 亿恩南昌公司:
  • 经营性ICP/ISP证:赣B2-20080012
  • 服务器/云主机 24小时售后服务电话:0371-60135900
  • 虚拟主机/智能建站 24小时售后服务电话:0371-60135900
  • 专注服务器托管17年
    扫扫关注-微信公众号
    0371-60135900
    Copyright© 1999-2019 ENKJ All Rights Reserved 亿恩科技 版权所有  地址:郑州市高新区翠竹街1号总部企业基地亿恩大厦  法律顾问:河南亚太人律师事务所郝建锋、杜慧月律师   京公网安备41019702002023号
      0
     
     
     
     

    0371-60135900
    7*24小时客服服务热线