公众号可被搜索引擎抓取,微信或将更加“互联互通”

庆瑞seo博客1年前网站优化352

共计 1999 个字符,预计需要花费 5 分钟才能阅读完成。

尽管官方已经回应,但这也可能是微信进一步“互联互通”的先兆。

微信 公众号 的内容只能在微信中看,这可以说早在多年前就已经成为用户的共识。不过最近有消息显示,微信公众号的内容可以被谷歌和必应等 搜索引擎 搜索到。

公众号可被搜索引擎抓取,微信或将更加“互联互通”

但腾讯方面很快就给出了回应,并表示是因为近期平台技术升级,公众号的 robots 协议出现了漏洞,致使外部爬虫技术可抓取部分公众号内容,但目前漏洞已修复。按照这一说法,这一次的情况只是技术操作失误。

那么,导致公众号内容出现在海外搜索引擎山上的“元凶”robots 协议是什么呢? 事实上,robots 协议也叫 robots.txt,是一种存放于网站根目录下的 ASCII 编码文本文件,它的唯一作用就是告诉搜索引擎的 user-agent(网络蜘蛛),网站中的哪些内容是不对搜索引擎蜘蛛开放,哪些内容又可以被抓取的。

公众号可被搜索引擎抓取,微信或将更加“互联互通”

作为控制网站被搜索引擎抓取内容的一种策略,该文件一般会放在网站的根目录里,也就是 /robots.txt。因此可以直接在网站域名后加上 /robots.txt,就能访问到该网站的 robots 协议页面。

我们以淘宝的“https://www.taobao.com/robots.txt”为例可以看到,这家电商网站采用的 robots 协议其实非常简单,“User-agent”主要作用是告诉网站服务器,访问者是通过什么工具来请求的,而后面的“Baiduspider”就是大名鼎鼎的百度搜索引擎蜘蛛,而最后的“Disallow: /”,按照 robots 协议的规则,是禁止被描述的搜索引擎蜘蛛(百度)访问网站的任何部分。

公众号可被搜索引擎抓取,微信或将更加“互联互通”

其实早在 2008 年 9 月百度搜索引擎就已经被淘宝屏蔽,而这几行简简单单的代码,也让淘宝在战略层面掌握了竞争的主动权,避免了流量被百度搜索引擎拿走,同时也避免了平台内的商家要给百度竞价排名付费的可能,更是间接催生了淘宝的竞价排名体系。

而对于微信来说同样也是如此,此前微信公众号的内容只支持在该应用的搜一搜功能,或是腾讯旗下的搜狗搜索引擎中搜索到。这主要要因为用户上网冲浪的最终目地往往是消费内容,而内容、特别是高质量的原创内容更是天然的流量来源,这些内容可以帮助微信形成封闭的商业生态。所以让用户只能在体系内访问微信公众号的内容,也就成为了微信保护私域流量的关键。

那么问题就来了,robots 协议会出现漏洞吗? 答案是肯定的。robots 协议从本质上来说就是网站运营方提供的规则,然而是规则就免不了出现漏洞。不过 robots 协议也很难出现问题,因为它的书写非常简单、逻辑也很直白,允许什么搜索引擎爬虫访问什么内容都可以清晰地表述出来。特别是微信这种协议非常简单的规则,仅面向自己的应用内搜索和搜狗搜索开放的 robots 协议,基本也不会有什么多余的内容。

公众号可被搜索引擎抓取,微信或将更加“互联互通”

更为重要的一点是,robots 协议本身其实是一个“君子协议”,是一个搜索引擎与网站之间的共识,并没有任何法律效力,也没有任何技术约束。所以换句话来说,这也意味着 robots 协议从技术层面是无法与搜索引擎爬虫对抗的。公众号可被搜索引擎抓取,微信或将更加“互联互通”

例如,一些网站如果不想让爬虫占据自家宝贵的服务器资源,往往就会直接在 robots.txt 文件中写上这样的规则,“User-agent: Googlebot,Allow: /User-agent: *,Disallow: /”,意思是本网站仅允许谷歌爬虫抓取,拒绝其他任何搜索引擎。

然而有意思的事情来了,苹果方面在官网的“Applebot”页面声明中写道,“如果 robots.txt 中没有提到 Applebot,而是提到了 Googlebot,那么 Applebot 将遵循 Googlebot 的指令“,言下之意就是 Applebot 也是 Googlebot。

公众号可被搜索引擎抓取,微信或将更加“互联互通”

公众号可被搜索引擎抓取,微信或将更加“互联互通”

事实上,robots 协议并不会经常修改,毕竟它的内容是与内容运营策略息息相关的。而微信的 robots 协议在平稳运行了多年后,却在此前监管部门要求互联网厂商互联互通的时候出现“漏洞”,这个件事就可以说或非常“巧”了。

9 月 17 日在监管机构的要求之下,在过去数年间各大互联网厂商建立的以邻为壑的“高墙”已经开始逐步坍塌。尽管在要求“互联互通”一个月后,各大互联网厂商之间的藩篱虽然还没有一夜之间倒塌,但也逐渐有了消融的迹象。

对于微信来说,公众号内容开放给外界,或许是腾讯分阶段分步骤实施互联互通中的一个环节。而如今微信公众号的内容出现在谷歌和必应上,也更像是微信在测试新的 robots 协议。毕竟,此前他们的 robots 协议协议可以说是非常简单,只需要允许搜狗搜索一家即可,但现在却需要对外界开放。

公众号可被搜索引擎抓取,微信或将更加“互联互通”

要知道,国内的搜索引擎蜘蛛可不仅仅是百度、搜狗、360 这些大家比较熟悉的,还有包括网易有道的 YoudaoBot、宜搜的 EasouSpider、一搜的 YisouSpider、微软的 Bingbot 和 Msnbot,以及其他大大小小不知名的爬虫。所以有观点认为,这也就使得微信 robots 协议的编写难度将会陡然上升。

备案号:豫ICP备19030587号

相关文章

网站怎么被百度收录(怎么提升网站百度收录)

网站怎么被百度收录(怎么提升网站百度收录)

共计 685 个字符,预计需要花费 2 分钟才能阅读完成。 提升 网站 百度收录 的方法:(推荐教程:CSS 教程)一,优化网站的目录结构 网站的结构是一座房子的根基,好不好直接决定了整站...

网站过度优化有哪些表现?以及解决方法

共计 1082 个字符,预计需要花费 3 分钟才能阅读完成。 网站过度优化是一个既陌生又熟悉的概念,因为没有明确的衡量标准,主要体现在网站权重上,对于一个网站来说非常重要,网站有了权重能很好的...

如何增加网站的收录功能(如何增加网站的收录?)

如何增加网站的收录功能(如何增加网站的收录?)

共计 588 个字符,预计需要花费 2 分钟才能阅读完成。 增加网站收录 的方法:1、增加内页入口,让蜘蛛更轻松的爬取内页内容,达到提高收录的目的;2、增加外部入口,为内页增加一些外部链接,从...

8个SEO要点为您的全新网站快速赢得成功

共计 2000 个字符,预计需要花费 5 分钟才能阅读完成。 网站可能需要时间来回报您投入的金钱和资源。这并不意味着你必须坐下来等待那一天的到来。 事实上,您可以通过搜索引擎优化来控制很多事情...

深入分析企业网站要不要做SEO外包

深入分析企业网站要不要做SEO外包

共计 1128 个字符,预计需要花费 3 分钟才能阅读完成。 做 SEO 的,没被 K 过网站就不算经历过 SEO 的完整职业生涯了。特别是做 SEO 外包的,做得好的能达到 90% 以上的成...

自媒体那么多,我还需要做网站SEO吗?

共计 1784 个字符,预计需要花费 5 分钟才能阅读完成。 消费者购买产品前都会先了解一下品牌的口碑,而 自媒体 真正提供了他们需要的资讯。品牌如果在自媒体以第三身使用者的角度呈现产品资讯...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。