罗宾 5G 知识社群

知识块 #RADC4V

开源大模型正在缩小与闭源大模型的差距

Robin | 2024-07-28

MMLU（大规模多任务语言理解）是一种大模型能力的测试基准，旨在通过在零样本和少样本设置中专门评估模型来衡量预训练期间获得的知识。比较类似评估人类学习能力的方式。该基准涵盖了 STEM、人文科学、社会科学等 57 个学科。

Maxime Labonne 针对主流大模型的 MMLU 测试结果显示，以 Meta Llama 为代表的开源大模型正在缩小与闭环大模型的差距。

大模型评测 MMLU 生成式 AI Llama

数据来源 Maxime Labonne

分享链接 http://robin5G.com/RADC4V

延伸阅读

GPT Bloomberg

ChatGPT 和 GPT-3.5 和 GPT-4 已经给世界展示了强大的生成式 AI 的能力。目前舆论的声音更多是认为 ChatGPT 无所不能。

全球金融数据和信息服务的领头羊，Bloomberg 也发布 BloomergGPT，这是全球首个金融领域的专属 GPT。从披露的研究论文看，对于金融类特定任务执行上，BloombergGPT 显著优于其他通用大模型。

经典桥段可能又要再现了：对于金融行业的问题和内容生成，是应该用 ChatGPT 呢？还是 BloombergGPT？

如果是按照过去 Web1.0 和 Web2.0 时代的经验，通用工具（比如搜索引擎）和专用工具（比如：Bloomberg Terminal）两者是共存的。几乎所有二级市场的投资机构和基金经理们都会购买 Bloomberg 价格不菲的服务。

目测，OpenAI...

生成式 AI WordPress

生成式 AI 工具在内容营销相关领域已经得到了规模应用。附图来自 WordPress 企业客户的调研，Top 5 工具分别为：(1) ChatGPT、(2) Chatfuel；(3) Brand24；(4) DALL-E；(5) HubSpot SEO。

此类工具通常扮演了 “生产力工具” 角色，而生产力工具的付费意愿通常是不错的。

物流快递 WSJ

Amazon 预计 2023 将配送 59 亿个包裹，超过 UPS 2022 年的 53 个和 FedEx 的 33 亿个，而预计后面这两家物流巨头在 2023 年的包裹数会下滑。

电子商务和物流快递配送原本是两个赛道，每个赛道都有自己的主导服务商。而产业边界的模糊在于，超级巨头会不断扩展，而老赛道的原有玩家就很被动了。

#无边界竞争