什么是网络爬虫?网络爬虫是一种程序,它不停在互联网上访问各种网页或文件,并将这些网页或文件存储到自己的数据库中,为搜索引擎分析使用。
网络爬虫在不同的公司又有不同的名字,
百度称之为baiduspider,
Google 称之为Googlebot,
雅虎称之为YST。
付给 Google 一定的资金,就可以提高 Google 搜索结果的排名(左侧排名)
不对 Google 已经明确表示“Google 从未将搜索结果中的较好排名进行出售”。
在网页标题和 META 标签 keywords 属性中填入大量关键词可以增大被搜索到的机会。
不对如果大量的关键词,搜索引擎会认为你烂用关键词,反而会降低你的排名。
每个网页都应该通过一个文本链接到达。
是的一些网站用 Flash 做导航栏,要注意网络爬虫是不会跟踪 Flash 中的链接的。
图片标签的 ALT 属性无意义
不对目前一些搜索引擎已经在关注 ALT 属性了。
避免使用隐藏文本或隐藏链接,比如字体很小的链接。
是的搜索引擎会认为你是在利用这些链接欺骗搜索引擎。
放入 FRAME 或 IFRAME 的网页,不容易被搜索到。
是的不是每一个网络爬虫都会跟踪 SRC 属性的。
ASP 等类型的动态网页,不会被搜索引擎搜索到。
不对搜索引擎一般是支持动态网页的,但建议不要跟太多的参数,因为较短的 URL 利于搜索引擎编录。
与一些新网站建立友情链接,会降低我的排名及 PR 值。
不对新网站不等于低质量网站。
如果我的网站内容更新得很频繁,网络爬虫就会频繁光临。
是的而且,网络爬虫会很“乐于”这样做。
网络爬虫会对我的服务器产生很大压力
一般不会网络爬虫光临得频繁的网站,一定是好网站,好网站一定访问的人多,访问的人多,你的服务器一定不错,所以一般来说应付网络爬虫还是应付得了的。
如果我的网页大部分是从互联网复制的,搜索引擎可能不会收录我的这些网页。
是的所以一定要有自己的内容。
尽量少用自动跳转。
是的欺骗性的自动跳转会降低排名,因为用户看到了用户不想看的内容,而搜索引擎是从用户的角度出发考虑程序的。
网站目录层次应该清晰,链接应该都是有效连接。
是的如果你不能保证某个链接肯定有效(比如友情链接),那么请将在 A 标签中加上 rel="nofollow",如:<a href="" rel="nofollow">。某些搜索引擎会忽略这样的链接,避免给你的网站排名带来影响。
网页下载速度缓慢会降低网站的排名。
不对除非你的网页慢得叫网络爬虫都无法“忍受”。