什么是网页噪音?
在我们浏览网页,从中获取所需信息的同时,还会常常看见大量和我们所关心内容无关的“噪音”内容,如网页的公共部分、广告信息、版权信息等,有效的 去除和网页主题内容无关的噪音内容,提取网页的元数据信息,如关键词、摘要、网页内容类别等,是Web信息处理的一项重要内容,同时也是我们做SEO优化需要重点处理的部分。
网页净化明确搜索引擎重点分析的区域:在前面的文章当中我分别介绍了什么是网页表示模型,网页特征项的提取, 我们在进行SEO优化的时候,为了给搜索引擎搭建一个便于理解和分析的页面我们需要根据关键词的相关算法构建网页表示模型,模型的目的是什么呢?一是帮助 搜索引擎更准确的理解我们的网页,二是能够帮助它快速的提取出网页特征项,三是尽可能的降低网页的噪音。这里我给大家举一个例子,让大家再深入的理解一下 这个噪音问题跟我们搜索优化的关系,当我们建设好一个网站,通常情况下会有导航区域,也许左侧还会有一些公共相关的区域。
我们每个页面都是这样的,大家思考一下,当搜索引擎来抓取和分析我们网站的时候,这样的公共部分会不会再继续分析了,会不会重点分析了,我可以明确 的告诉大家公共区域可能不分析也不会做重点分析了,这样就相当于去除了噪音,而搜索引擎真正重点分析的区域就是那些你实实在在的内容了,如果我们把这个内 容理解成为一个变量,那么你的每一个页面的“内容”这个变量就都要五花八门,尽量不要和其它页面有太多相似的部分,所以我们要注意页面的比例问题,如果你 的“公共变量”大于了“内容”变量,显然这个页面不太健康,搜索引擎会认为你的页面相似度太高,不予重视,不重视就是不会有高权重,如果你的每个页面都如此,那么你的整个网站权重大降,排名就不会好,严重的甚至被降权,被K。
如何加深一下你对网页净化和消重的理解:网页净化和消重是大规模搜索引擎系统预处理环节的重要组成部分。所谓网页净化(noise reduction)就是识别和清除网页内的噪音内容(如广告、版权信息等),并提取网页的主题以及和主题相关的内容;消重(replicas or near-replicas detection)是指去除所搜集网页集合中主题内容重复的网页。建索引一般是在消重后的网页集上进行的,这样就可以保证用户在查询时不会出现大量内容重复的网页。
当我们浏览Web,从中获取所需信息的同时,还会常常看见大量和我们所关心内容无关的导航条、广告信息、版权信息以及调查问卷等,我们称之为“噪 音”内容。有时候,我们可能从这些噪音内容中得到一些意外的惊喜;另一些时候,我们可能不喜欢这些东西消耗人类宝贵的注意力资源。同时,噪音内容往往会导致相互链接的网页常常并无内容相关性。
重庆网络公司立即购买
地址:重庆市渝中区上清寺鑫隆达B座28-8
邮编:400015
电话:023-63612462
EMAIL:cnjl_net@163.com
2022 渝ICP备09007657号-7
网警备案号:500103015-00277