搜索引擎原理(三) |
发布时间: 2012/9/3 11:01:28 |
在许多场合,也称Yahoo!之类的门户网站提供的信息查 找功能为搜索引擎。但从技术上讲,这样的门户中提供的搜索服务和前述搜索引 擎是很不同的。这样的门户依赖的是人工整理的网站分类目录,一方面,用户可 以直接沿着目录导航,定位到他所关心的信息;另一方面,用户也可以提交查询 词,让系统将他直接引导到和该查询词最匹配的网站。图 1-2 就是我们在搜狐上 查询“伊拉克战争”的结果。和图 1-1 相比,不难看到其风格是很不相同的。在 需要区别的场合,我们可以分别称“自动搜索引擎”和“目录搜索引擎”,或者“网 页搜索引擎”和“网站搜索引擎”。一般来讲,前者的信息搜索会更全面些,后者 则会准确些。在没有特殊说明的情况下,本书中所讨论的“搜索引擎”不包括Yahoo! 和搜狐这样的搜索方式。 随着网上信息越来越多,单纯靠人工整理网站目录取得较高精度查询结果的 优势逐渐退化——对海量的信息进行高质量的人工分类已经不太现实。目前有两 个发展方向。一是利用文本自动分类技术,在搜索引擎上提供对每篇网页的自动 分类,这方面最先看到的例子是Google 的“网页分类”选项,但它分类的对象只 是英文网页。在中文方面,文本自动分类的研究工作有很多,但我们知道的第一 个在网上提供较大规模网页自动分类服务的是北大网络实验室冯是聪和龚笔宏等 人的工作[冯是聪,2003],他们于2002 年 10 月在天网搜索上挂接了一个300 万网 页的分类目录。另一个发展方向是将自动网页爬取和一定的人工分类目录相结合, 希望形成一个既有高信息覆盖率,也有高查询准确性的服务。 互联网上信息量在不断增加,信息的种类也在不断增加。例如除了我们前面 提到的网页和文件,还有新闻组,论坛,专业数据库等。同时上网的人数也在不 断增加,网民的成分也在发生变化。一个搜索引擎要覆盖所有的网上信息查找需 求已出现困难,因此各种主题搜索引擎,个性化搜索引擎,问答式搜索引擎等纷 纷兴起。这些搜索引擎虽然还没有实现如通用搜索引擎那样的大规模应用,但随 着互联网的发展,我们相信它们的生命力会越来越旺盛。另外,即使通用搜索引 擎的运行现在也开始出现分工协作,有了专业的搜索引擎技术和搜索数据库服务 提供商。例如美国的Inktomi,它本身并不是直接面向用户的搜索引擎,但向包括 Overture (原GoTo)、LookSmart、MSN、HotBot 等在内的其他搜索引擎提供全文 网页搜集服务。从这个意义上说,它是搜索引擎数据的来源。 搜索引擎出现虽然只有 10 年左右的历史,但在Web上已经有了确定不移的地 位。据CNNIC统计,它已经成为继电子邮件之后的第二大Web应用。虽然它的基 本工作原理已经相当稳定,但在其质量、性能和服务方式等方面的提高空间依然 很大,研究成果层出不穷,是每年WWW学术年会1 的重要论题之一。 本文出自:亿恩科技【www.enkj.com】 |