过河拆桥？为防“爬虫”爬取数据训练AI，百度百科屏蔽了谷歌等友商

来源：六安市叶集区金利木业有限责任公司时间：2024-08-23

近日有报道称，为了防止未经允许的“爬虫”爬取数据用于训练AI，百度百科已经屏蔽了谷歌、必应等大多数搜索引擎。百度啊百度，你也学会过河拆桥了？

有网友扒出了百度百科的robots.txt文件，发现允许放行的白名单中，只有百度搜索、搜狗搜索、中国搜索（Chinaso）、YYSpider和宜搜搜索（EasouSpider）几个搜索引擎，而谷歌、必应、微软MSN、UC的Yisouspider以及其他搜索引擎的爬虫已被列入了禁止名单。

众所周知，搜索引擎的工作原理，就是依靠“爬虫”到不同的网站上爬取数据，然后展示在自己的搜索结果中。

百度曾经能搜到很多内容，但百度的“爬虫”过于高频地访问网站爬取数据，会对网站的服务器产生巨大压力，影响到了正常运转，会主动选择禁止百度爬取数据。此外，一些网站为了占据用户心智、避免影响广告收入等原因，也会主动选择屏蔽百度的爬虫，这就导致百度越来越难搜到想要东西了。

近几年，AI大模型的快速发展，需要不少用户真实数据进行支撑，而包含百度用户自发编辑的百科内容，绝对是一个不小的数据训练宝库，“人均硕博学历、频繁刚下飞机”的知乎也是同理。但据爆料，知乎已经先百度一步禁止了其他搜索引擎的爬虫，把白名单中的谷歌和必应踢掉，只留下了百度和搜狗。

曾经，百度起家靠的就是爬遍全网的“爬虫”们，把自己爬到了“国服第一”的位置。但现在，想在文心一言上发力的百度却反手禁了其他友商的爬虫，把车门给焊死了，谁都别想上来。

对此，我们也只能感叹到，互联网越来越不互联了。

免责声明：作品来源于媒体，转载是出于传递信息之⽬的，版权归原作者所有，如有问题请联系我们。