信息的生产、传播、搜集与查询是人类最基本的活动之一。考虑以文字为载 体的信息,传统上有图书馆、相应的编目体系和专业人员帮助我们很快找到所需 的信息,其粒度通常是“书”或者“文章”。随着计算机与信息技术的发展,有了 信息检索(Information Retrieval,IR)学科领域,有了关于图书或者文献的全文 检索系统,使我们能很方便地在“关键词”的粒度上得到相关的信息。 我们注意到,上述全文检索系统一般工作在一个规模相对有限、内容相对稳 定的馆藏(collection)上,被检索的对象通常是经过认真筛选和预先处理的(例 如人工提取出了“作者”,“标题”等元数据,形成了很好的“摘要”等),并且系 统需要同时响应的查询数量通常都不会太大(例如每秒钟 10 个左右)。 1994 年左右,万维网(World Wide Web,简记为WWW 或Web )出现。它 的开放性(openness)和其上信息广泛的可访问性(accessibility)极大地鼓励了 人们创作的积极性。作为一个信息源,Web 和上述全文检索系统的工作对象相比, 具有许多不同的特征,它们给信息检索领域带来了新的发展机遇和技术挑战。 规模大。在短短的 10 年左右时间,人类至少生产了40 亿网页[Google,2004], 而人类有文字上万年以来产生了大约 1 亿本书;中国网上到2004 年初大致有了约 3 亿网页[天网,2004],而中华民族有史以来出版的书籍大约不过 275 万种。尽管 书籍的容量和质量是一般网页不可比的,但在对应的时间背景上考察其文字的总 体数量,我们不能不为人类在Web 上创造文字的激情惊叹! 内容不稳定。除了不断有新的网页出现外,旧的网页会因为各种原因被删除 (有研究指出50%网页的平均生命周期大约为50 天[Cho and Garcia-Molina,2000, Cho,2002]); 从原则上讲,读者数和作者数在同一个量级,形式和内容的随意性很强,权 威性相对也不高,也不太可能进行人工筛选和预处理。 与生俱来的数字化、网络化。传统载体上的信息,人们目前正忙于将它们数 字化、上网(花费极高),而网络信息天生如此。这个特性是一把双刃剑:一方面 便于我们搜集和处理,另一方面也会使我们感到太多,蜂拥而至,鱼目混珠。 而作为要在Web 上提供服务的信息查询系统,如搜索引擎和数字图书馆,通 常要具备同时对付大量访问的能力(例如每秒钟 1000 个查询),而且响应时间还 要足够的快(例如 1 秒钟)。 本书旨在介绍构建这类搜索引擎的有关技术。传统的 IR是其基础,同时也 充分讨论了由上述Web 信息的特征所带来的新问题及其解决方案。 本文出自:亿恩科技【www.enkj.com】
服务器租用/服务器托管中国五强!虚拟主机域名注册顶级提供商!15年品质保障!--亿恩科技[ENKJ.COM]
|