知识块 #250710S73CZV
“尽量让真人访问官网” 技术需求的崛起
Robin  |  2025-07-10

AI 爬虫这种 “无止尽” 的爬取网站 Web 数据,同时带来极少的用户访问流量。绝大部份回答就在对话框解决,极少有人会不辞辛苦跳转链接到企业官网 ——— 这是与 “传统搜索为大家引流量” 截然不同的模式。

越来越多企业的官网都在用 Cloudflare 的服务来判断每次访问是否是“真人”。

“尽量让真人访问官网” 会成为越来越多的付费类的技术需求。

对于大模型公司,最核心的技能之一就是不断升级的超级爬虫,这些东西在 Paper 和媒体采访时基本不会讲。

但在招聘人员的面试笔试中,爬虫技术就是重点了 ……

#什么是面子上的

#什么是里子内的

数据来源 MIT Technology Review
分享链接 http://robin5G.com/250710S73CZV
延伸阅读
AI Coding METR

以 50% 的成功率为目标,大模型工具来自动完成软件工程的任务的任务时长(Task Duration for Humans)在 GPT-4 及以前都处于很低的状态。

从 Claude 3.5 Sonnet 开始,这个时长在显著增加。即,AI Coding 开始发挥明显作用。而 GPT-5 可以将时长提升到 2 个小时以上。

Gen AI Business of Apps

用户使用 AI 的功能可以通过多种手段,例如网页版、AI App 等。

根据 Business of Apps 的研究,到 2024 年底,全球使用 AI App 的用户人数超过了 3 亿人。

大模型 Dennis Schubert

Mozilla 工程师 Dennis Schubert 通过其参与维护的 diaspora 开源项目的网站访问日志,在过去 60 天的 Web 访问请求中,有 70% 来自大模型公司的爬虫访问。

大模型公司的这种玩法,会在事实上对内容源头的网站产生类似 DDoS 攻击的效果,即大量网站开销来在 bot 机器人。

与之形成对比的,传统搜索引擎 Google 和 Bing 的爬虫只占了网站访问负载的 0.3% 不到。

传统搜索引擎和大模型理论上都可以给内容源网站引流,但大模型爬虫比例如此之大,越来越多网站会思考 “性价比问题”。

所有网站访问中,来自人类的访问小于 30%。这也会引发一个新的思考,现行互联网的商业模式很大比例是基于用户注意力售卖的广告模式,本质是眼球经济。

如果大部分访问都不是人类访问,那广告还能否卖出去呢?