第三届中国IDC产业年度大典(北京 2009年1月7日) 第二届大典回顾 第一届大典回顾

中国IDC圈
 您现在的位置:中国IDC圈 >> SEO(搜索优化)

搜索引擎如何判断核心内容的思考

来源:Seotest 时间:2008-1-29 作者:康轶文 保存本文 进入论坛 

  中国IDC圈1月29日报道:搜索引擎蜘蛛把页面代码送回搜索引擎服务器后,SE是如何判断页面中最核心的内容呢?

  先说下Kyw认为的搜索引擎运作过程的前几个步骤:

  1. 蜘蛛下载A页面,送回服务器;

  2. 服务器寻找A页面的核心内容位置,然后去除HTML代码;

  3. 寻找网页核心内容;……

  我不确定GOOGLE、百度、YAHOO!是否真的有“判断核心内容”这个步骤,但我相信一定有类似的运算机制,因为如果没这个步骤,搜索引擎将耗费大量资源做重复运算。当然KYW不是搜索引擎工程师,下面只是对搜索引擎的一些思考。

  SE面对一整页HTML代码,如何判断核心内容在哪里呢?第一步:拿该页面和同域名、同目录、同文件名格式的页面做对比,去除相似的部分。经过这个步骤,头部的导航条、底部的版权信息、固定位置的广告就被去掉了。我估计搜索引擎在每增加一个新网站的时候,会建立一个对比模板来提高工作效率。如果网站经常改版,在改版刚开始的期间,搜索引擎还没反应过来,就可能造成新收录网页的排名不理想。

  第二步:去掉有大量链接的部分。经过这步,“相关文章”“推荐文章”等都被去掉了,剩下一些包含文字内容的代码。

  第三步:在剩余的代码中判断哪段标签(可能是DIV、TABLE、P或其它标签)中的文字内容最多,因为一般核心内容的文字量会比较多。

  每个页面经过上面3个步骤,应该就能顺利的判断出核心内容所在的位置。经过这样的思考,我们也许可以这样总结:

  1. 同目录下的页面,最好模板一样。

  2. 核心内容文字量不能太少,特别是企业站和B2C网站,只放价格和包含大量说明文字的图片是很不好的。

  3. HTML代码中如果错误很多,可能会影响排名,因为搜索引擎可能在判断核心内容的时候出差错。

  4. 期待你的补充 ^_^

  Kyw把SEO的主要工作理解成帮助搜索引擎更高效的理解网站及页面的内容,所以建议大家有事没事琢磨琢磨搜索引擎,问题想透的越多,SEO的手法也就更加随机应变了。当然也没必要钻牛角尖,有想不通的问题就到我这留言吧。

【责任编辑:junlee】

最新推荐  
 专注服务器让亿恩数据九年成就辉煌
 广州因孚网络科技有限公司诚招代理
 大学生创立IDC公司,90分钟募来120万元风投
 新联通建立专门网站,独立推广其IDC业务
 IDC冬天没到,亿恩科技巨资打造精品机房
 动力六年回赠客户 双线机柜优惠最高六折
 09 IDC大全11月“收官”,赠阅申请近期开通
 刘骅现身首谈网住破产内情,公布联系方式
 抢抢抢!动力互联智圣服务器限量免费赠送
 金秋时节,优时空倾情回馈客户
相关文章  
Google对于搜索引擎作弊的解释
网站不被百度搜索引擎收录的15种原因
搜索引擎仍然是网站推广的重要手段
CNNIC报告:国内视频应用赶超搜索引擎
新闻出版总署:重点发展绿色网游 打击内
Youtube试验开放10分钟以上长视频内容
搜索引擎如何确定你的就是原创内容
优化网站内部链接:有效引导搜索引擎抓
谈谈网站生成HTML与搜索引擎优化
齐宁:搜索引擎知识 网页查重技术
 文章评论
Chinaitlab Group 旗下网站: 中国IT实验室 | 中国IDC圈 | 存储世界 | 数字网校 | 21世纪IT人才网
北京盛世创富广告传媒有限公司
北京运营中心:北京市海淀区中关村南大街9号理工科技大厦2107室 服务电话:86-10-85655622
深圳研发中心:深圳市福田保税区英达利科技数码园C座701D 服务电话:86-755-82044560
Copyright ©2001 - 2008 All Rights Reserved