知识块 #K2PB3Z
语音 AI 的技术栈与代表性玩家
Robin  |  2024-06-02

自电话通信发明起,线上语音就是人类沟通的重要方式。语音作为一种形态,经历了自动化语音(例,呼叫中心的语音菜单)或 Siri 这种基于语音的初级 AI 助理。

风险投资机构 a16z 认为基于大模型 LLM,语音正在成为一种新的与技术互动的方式,并有机会成为新生产力应用的核心。

数据来源 a16z
分享链接 http://robin5G.com/K2PB3Z
延伸阅读
语音 a16z

语音是人类对自然语言,用户通过语音来与 AI Agents 会话并获得相应服务是生成式 AI 的一个重要方向。

附图来自 a16z,其归纳了 B2B 垂直行业和 B2C 消费者领域的 AI Agents 典型案例。

Vide Coding Andrej Karpathy

Andrej Karpathy 提出在 “Vibe Coding 氛围编程” 正在引起越来越多兴趣。原本可能不会编程的用户,通过自己的描述 “需要解决的问题”,由 AI 自动生成程序代码,并且可以运行。

从最早期的数学和计算逻辑,到汇编语言、到 C/C++、到 Python 等,现代编程语言的发展是逐渐脱离硬件和底层逻辑,逐渐贴近应用场景的 “抽象化过程”。

贴近自然语言的 Vibe Coding 看起来也符合这种抽象化趋势。

Gen AI Cerebras

初创公司 Cerebras 披露的数据显示,以 Meta 开源大模型 Llama3.1-70B 为例,其推理解决方案的速度是基于 Nvidia GPU 的公有云服务商速度的 20x 倍以上。

从披露的信息看,Cerebras 制造的推理芯片尺寸比 GPU 要大得多。

附:Llama3.1 有三种规格,8B 适合在消费者级 GPU 上进行高效部署和开发;70B 适合大规模 AI 原生应用;而 405B 则适用于合成数据等。