资讯详情
当前位置:首页 > 行业新闻 > 资讯详情

百度收录网站的要求

行业分类:业内资讯 发布时间:2023-08-17 13:23

解决百度收录的问题,是SEO职业的工作者最为头疼的一件事情。无论文章发布的觉得多有质量都不一定收录,而没有收录何谈排名,下面我们看解决百度收录的核心技巧。

在爬虫抓取网页时,如果根本不知道你的网页内容是什么,那基本上是不会被百度收录的。所以让爬虫识别到我们网页的内容也是较为关键的一个问题。

1、robots协议的封禁

robots是一个txt文件,放置于网站的根目录下。可以通过www.xxx.com/robots.txt进行访问打开。如果你的robots文件封禁了百度爬虫,那么收录简直是不可能的。

因为robots协议文件是搜索引擎与网站之间的协议文件。是网站告知搜索引擎爬虫,哪些内容你可以抓取,哪些内容你是不可以抓取。所以你都告诉爬虫不让它抓取了,他还怎么会抓取呢?

2、影响网站收录的ajax技术

js的ajax技术,其实很多做SEO的都知道不能使用js,但这并不完全是。因为爬虫抓取的是网页源代码,只要你源代码中有这些内容就是可以的。但通过js实现异步加载的内容就不行了。

这里解释一下什么是异步加载,就是当前网页源代码没有的内容。通过触发网页某个事件,js通过ajax技术动态加载出来的内容。例如典型的瀑布流网页,当你鼠标滚动到最底部,然后地步就会出现更多新的内容。多数是采用这个ajax技术。

那被异步加载出来的内容爬虫是看不到的。

3、网站访问速度慢

如果你的网站打开速度很慢的话,也会很大程度上的影响收录。我们举个例子,爬虫每天抓取你网站就给10分钟时间,你的网站访问一次需要1秒钟,和需要100毫秒。这完全是两个层次上的结果。

百度收录前提是网站首页提交给百度的搜索引擎,蜘蛛才会光顾,每次抓取网页时都会向索引中添加并更新新的网站,站长只需提供顶层网页即可,不必提交各个单独的网页。


免责声明:本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知,我们将根据您提供的证明材料确认版权并立即删除内容。