随便取一篇网页的源文件(例如通过浏览器的“查看源文件”功能),我们 可以看到其中的情况纷乱繁杂。除了我们从浏览器中能够正常看到的文字内容外, 还有大量的HTML标记。根据天网统计,网页文档源文件的大小(字节量)通常 大约是其中内容大小的 4 倍(例如http://net.pku.edu.cn就是如此!)。另外,由于 HTML文档产生来源的多样性,许多网页在内容上比较随意,不仅文字不讲究规 范、完整,而且还可能包含许多和主要内容无关的信息(例如广告,导航条,版 权说明等)。这些情况既给有效的信息查询带来了挑战,也带来了一些新的机遇, 在后面的章节将会有进一步的论述。这里我们只是指出,为了支持后面的查询服 务,需要从网页源文件中提取出能够代表它的内容的一些特征。从人们现在的认 识和实践来看,所含的关键词即为这种特征最好的代表。于是,作为预处理阶段 的一个基本任务,就是要提取出网页源文件的内容部分所含的关键词。对于中文 来说,就是要根据一个词典Σ,用一个所谓“切词软件”,从网页文字中切出Σ所 含的词语来。在那之后,一篇网页主要就由一组词来近似代表了,p = {t , t , …, t }。 1 2 n 一般来讲,我们可能得到很多词,同一个词可能在一篇网页中多次出现。从效果 (effectiveness)和效率 (efficiency )考虑,不应该让所有的词都出现在网页的表示 中,要去掉诸如“的”,“在”等没有内容指示意义的词,称为“停用词”(stop word)。 这样,对一篇网页来说,有效的词语数量大约在200 个左右。 2. 重复或转载网页的消除 与生俱来的数字化和网络化给网页的复制以及转载和修改再发表带来了便 利,因此我们看到 Web 上的信息存在大量的重复现象。天网在 2003 年的一次大 规模统计分析表明,网页的重复率平均大约为4。也就是说,当你通过一个URL 在网上看到一篇网页的时候,平均还有另外 3 个不同的 URL 也给出相同或者基 本相似的内容。这种现象对于广大的网民来说是有正面意义的,因为有了更多的 信息访问机会。但对于搜索引擎来说,则主要是负面的;它不仅在搜集网页时要 消耗机器时间和网络带宽资源,而且如果在查询结果中出现,无意义地消耗了计 算机显示屏资源,也会引来用户的抱怨,“这么多重复的,给我一个就够了”。因 此,消除内容重复或主题内容重复的网页是预处理阶段的一个重要任务。第七章 对此有详细的分析论述。 3. 链接分析 前面提到,大量的HTML 标记既给网页的预处理造成了一些麻烦,也带来了 一些新的机遇。从信息检索的角度讲,如果系统面对的仅仅是内容的文字,我们 能依据的就是“共有词汇假设” (shared bag of words),即内容所包含的关键词集 合,最多加上词频(term frequency 或 tf、TF)和词在文档集合中出现的文档频 率(document frequency 或df、DF)之类的统计量。而TF 和DF 这样的频率信
本文出自:亿恩科技【www.enkj.com】
服务器租用/服务器托管中国五强!虚拟主机域名注册顶级提供商!15年品质保障!--亿恩科技[ENKJ.COM]
|