文章内容

搜索引擎原理(一)

发布时间: 2012/9/3 11:01:20

信息的生产、传播、搜集与查询是人类最基本的活动之一。考虑以文字为载体的信息，传统上有图书馆、相应的编目体系和专业人员帮助我们很快找到所需的信息，其粒度通常是“书”或者“文章”。随着计算机与信息技术的发展，有了信息检索（Information Retrieval，IR）学科领域，有了关于图书或者文献的全文检索系统，使我们能很方便地在“关键词”的粒度上得到相关的信息。我们注意到，上述全文检索系统一般工作在一个规模相对有限、内容相对稳定的馆藏（collection）上，被检索的对象通常是经过认真筛选和预先处理的（例如人工提取出了“作者”，“标题”等元数据，形成了很好的“摘要”等），并且系统需要同时响应的查询数量通常都不会太大（例如每秒钟 10 个左右）。 1994 年左右，万维网（World Wide Web，简记为WWW 或Web ）出现。它的开放性（openness）和其上信息广泛的可访问性（accessibility）极大地鼓励了人们创作的积极性。作为一个信息源，Web 和上述全文检索系统的工作对象相比，具有许多不同的特征，它们给信息检索领域带来了新的发展机遇和技术挑战。规模大。在短短的 10 年左右时间，人类至少生产了40 亿网页[Google,2004]，而人类有文字上万年以来产生了大约 1 亿本书；中国网上到2004 年初大致有了约 3 亿网页[天网,2004]，而中华民族有史以来出版的书籍大约不过 275 万种。尽管书籍的容量和质量是一般网页不可比的，但在对应的时间背景上考察其文字的总体数量，我们不能不为人类在Web 上创造文字的激情惊叹！内容不稳定。除了不断有新的网页出现外，旧的网页会因为各种原因被删除（有研究指出50%网页的平均生命周期大约为50 天[Cho and Garcia-Molina,2000, Cho,2002]）；从原则上讲，读者数和作者数在同一个量级，形式和内容的随意性很强，权威性相对也不高，也不太可能进行人工筛选和预处理。与生俱来的数字化、网络化。传统载体上的信息，人们目前正忙于将它们数字化、上网（花费极高），而网络信息天生如此。这个特性是一把双刃剑：一方面便于我们搜集和处理，另一方面也会使我们感到太多，蜂拥而至，鱼目混珠。而作为要在Web 上提供服务的信息查询系统，如搜索引擎和数字图书馆，通常要具备同时对付大量访问的能力（例如每秒钟 1000 个查询），而且响应时间还要足够的快（例如 1 秒钟）。本书旨在介绍构建这类搜索引擎的有关技术。传统的 IR是其基础，同时也充分讨论了由上述Web 信息的特征所带来的新问题及其解决方案。
本文出自：亿恩科技【www.enkj.com】

服务器租用/服务器托管中国五强！虚拟主机域名注册顶级提供商！15年品质保障！--亿恩科技[ENKJ.COM]

上一篇 >> 搜索引擎原理(二)
下一篇 >> Linux Kernel本地拒绝服务漏洞

服务器租用

服务器托管

机柜批发

云服务器

建站侠

空间/域名

安全保姆

帮助类别

帮助中心

文章内容

搜索引擎原理(一)

同类文章

亿恩公告

在线客服