与‘今日头条’有关的日志

网站被今日头条搞挂了!

Poon 发表于 学习备忘录 分类,标签: ,
0

从前天开始,网站连续几次被阿里云强行关闭:

   

看了下昨天的日志,txt文件居然有45M之大,看了一下发现有大量来自Bytespider的访问,上网查询了一下,这个是今日头条的蜘蛛,参考文章:《今日头条的 ByteSpider,怎么就成了小网站的“噩梦”?》 节选部分重点内容如下:

但最近,很多社区用户纷纷跟我反馈,一种名为 Bytespider 的爬虫爬取他们的网站信息的频率太高,直接把网站搞瘫痪了。大家顺着爬虫的 IP 地址查了一下,发现 Bytespider 应该就是今日头条的搜索爬虫。

更有甚者,短短一上午时间就收到了 46 万次请求,消耗掉服务器 7 .42GB 流量。这对平均日活可能都没有过千的小网站来说,已经算得上一次小型的 DDoS 攻击了!

其实从今年 6 月开始就有网站主抱怨了这个 Bytespider。而且从今年 6 月到 10 月,越来越多的人开始在网上爆料自己也遇到了类似的情况。在国外的编程交流网站上大家也有讨论啥是「Bytespider」,并且指出它非常不地道的无视了自己网站的 robots.txt 协议….

  

但我感觉更加纳闷的是,Bytespider为什么专门挑选一些不存在的页面去爬?你看,爬的网页都是404:

  

今天起床洗漱吃完早饭大概11点多,然后打开电脑登陆阿里云开启网站,几分钟后查询日志,发现Bytespider又爬了:

其实我对拼多多跟今日头条都不时很熟,基本没有使用经验,但我之前对拼多多一直是非常反感的,认为它的病毒式营销太让人讨厌了,而对今日头条我之前的态度是中立,不使用但也不反感,然而现在我要改变自己的看法了,没事乱爬我的网站,而且还因为不遵守robots.txt协议丢人丢到外国去了,标准就是个流氓!

  

========================

update 2020/01/05

昨天傍晚有今日头条搜索的工作人员加我QQ,昨天大概的沟通了一下我因为忙别的事也没太搭理,没有过多的交流;今天中午对方再次与我沟通,期初我也懒得搭理,比较客套的敷衍几句,然后我有点不耐烦了我就直接吐槽对方的种种不是,结果对方依旧脾气很好的与我交流,然后我也有点不好意思了……

沟通到最后,对方总结给我三条他们的态度:

1、对于蜘蛛的压力控制他们会不断优化,并且推出了站长平台可以让站长自主控制频率。

2、对于我网站被他们蜘蛛爬瘫痪的事情,他们内部很重视并且已经做了一些处理。

3、为了表示歉意,他们跟我要了地址,将会寄份小礼物给我。

让我有点措手不及,我如此吐槽他们,他们非但没发律师函威胁我删除文章,却还耐心听取我的意见,还给我发放礼品,这完全出乎我的意料之外了……

  

========================

update 2020/01/08

收到了头条寄来的礼品:https://www.mpyes.com/2020.01.08/23:59:00