知识块 #C2Z6N5
大模型爬虫对互联网网站资源的访问占比
Robin  |  2025-01-11

Mozilla 工程师 Dennis Schubert 通过其参与维护的 diaspora 开源项目的网站访问日志,在过去 60 天的 Web 访问请求中,有 70% 来自大模型公司的爬虫访问。

大模型公司的这种玩法,会在事实上对内容源头的网站产生类似 DDoS 攻击的效果,即大量网站开销来在 bot 机器人。

与之形成对比的,传统搜索引擎 Google 和 Bing 的爬虫只占了网站访问负载的 0.3% 不到。

传统搜索引擎和大模型理论上都可以给内容源网站引流,但大模型爬虫比例如此之大,越来越多网站会思考 “性价比问题”。

所有网站访问中,来自人类的访问小于 30%。这也会引发一个新的思考,现行互联网的商业模式很大比例是基于用户注意力售卖的广告模式,本质是眼球经济。

如果大部分访问都不是人类访问,那广告还能否卖出去呢?

数据来源 Dennis Schubert
分享链接 http://robin5G.com/C2Z6N5
延伸阅读
生成式 AI Sequoia Capital

附件 PPT 来自红杉资本(Sequoia Capital)美国。

图 1:生成式 AI 目前达到了 30 亿美元的收入,大约花费了一年多时间。而 SaaS 达到类似水平花费了十年。

图 2:CB Insights 统计的已披露大模型相关投资并购案例的数据,大约 200 多亿美元的资金中,有 169 亿美元投向了基础设施,尤其是英伟达的 GPU。

根据红杉资本的研究,其认为过一年一共有 500 亿美元花费在了生成式 AI 上面(包含数据中心配套的机房、供电等)。

500 亿美元 vs. 30 亿美元,是过热了,还是伟大征程的开始?

5G Analysys Mason

普遍而言,移动网络的每 Mbit 流量传输是比固定宽带贵很多的。但,5G FWA 现在在一些地区(尤其是美国)增长很快,这有几方面原因:(1) 当地光纤宽带的覆盖能力有限,有大量地区缺少固定宽带基础设施,这为 5G 带来机会;(2) 5G 移动网络的容量存在空余;(3) 固定宽带 ARPU 高,为 5G FWA 创造了价格空间。

Analysys Mason 的一项研究显示(下图),如果某个网络的负载在 2021-2023 状态,5G 移动网络容量存在空闲,此刻用来发展 5G FWA 是很合算的,因为复用了移动业务的 CAPEX 和 Opex,可认为是零成本。

但如果是 2024-2025 状态,5G FWA 占了流量的大头,通常运营商不愿意为纯固定业务投资建设 5G 网络。

搜索引擎 StatCounter

StatCounter 监测的数据显示,微软 Bing 在中国的市场份额保持持续提升,其中用户通过 PC 访问的桌面版搜索的市场份额已经超过了百度。

百度丢掉了本土市场 PC 搜索第一的位置。