TG:Sesame AI:红杉资本引领的语音交互新时代

在科技迅猛发展的今天,语音交互技术正经历一场前所未有的变革。最近,红杉资本对Sesame AI的投资,标志着这场变革的进一步深化。这不仅仅是一项商业投资,更是对未来人机交互方式的战略性布局。让我们深入探讨,语音技术如何从单纯的工具演变为一个完整的生态系统。
随着人工智能的飞速发展,用户习惯也在悄然改变。人们已经习惯于通过键盘输入问题,但Sesame AI正在努力改变这一现状。该公司致力于打造一个“会说话、有性格、像朋友一样回应的AI伙伴”。用户只需开口说话,Sesame AI便能理解并作出自然流畅的回应,仿佛在与一个真实的朋友交流。
如果说ChatGPT是“文本界面”的代表,那么Sesame AI则是“语音界面”的先锋。当用户与Sesame AI对话时,无需打字、点击按钮或编写脚本,只需开口,它便能够理解上下文,准确判断语气并实时生成回应。今年2月,该公司在官网上线了两个虚拟角色:Maya和Miles。这两个角色一经推出,便迅速吸引了超过100万用户参与对线万分钟。用户普遍反馈称,它们的声音听起来更像是一个有个性的人,而非冰冷的机器。
与Siri或ChatGPT Voice不同,Sesame AI的语音并非简单的文字转语音播报,而是直接在语音层面生成内容。这包括语气、停顿、呼吸、甚至偶尔的犹豫。这种“人性化”的声音体验,是目前任何语音助手都无法比拟的。同时,Sesame AI的创始团队也相当强大,包括Oculus VR的联合创始人Brendan Iribe和前Ubiquity6 CTO Ankit Kumar。
Sesame AI的技术突破在于其独特的语音生成方式。传统语音助手的工作流程是:先生成文字,再将其转化为语音,最后由机器进行播报。而Sesame AI则直接在语音层面生成思维。这意味着,它并不是简单地“把答案念出来”,而是“用声音思考”。
这种方式使得AI能够自然地加入情绪变化,例如语速的停顿、呼吸的节奏和情绪的轻重。背后是他们自研的Expressive Speech Generation模型,专门为“语音优先”训练,重心不在于理解,而在于如何让AI听起来更加可信。
此外,Sesame AI还在研发一款轻量级的AI智能眼镜,内置麦克风、扬声器和本地算力,用户可以在走路时与AI对话,而无需拿出手机。红杉资本在投资文中提到:“这些眼镜时尚到,就算没有AI功能,你也会想戴着它。”
红杉资本的投资逻辑清晰:要使语音成为主界面,必须从软件走向硬件。在过去十年里,我们与机器的互动主要是“低头打字”。几乎所有AI工具都停留在文字层面,而文字交互有其天然的瓶颈:速度慢、缺乏情感、显得不自然。相比之下,语音是人类最自然的交互方式。语音包含语气、信任感和情感温度。当AI能够“听懂你的呼吸”和“语气中的情绪”,用户体验将被彻底重塑。
因此,从2024年开始,语音AI将成为新的战场。OpenAI推出了GPT-4o Voice,语音创业公司Hume、Suno、ElevenLabs等也在积极开发情绪语音生成技术。而Sesame AI则在语音层面直接构建人格与互动。
从宏观趋势来看,这是一场从文本操作系统(textOS)向语音操作系统(voiceOS)的迁移。每一次输入方式的变化,往往会催生出新的行业巨头:键盘的普及造就了微软,触摸屏的崛起成就了苹果,而语音技术的普及,或许将诞生下一个“AI iPhone”。
目前,Sesame AI依然处于测试阶段,首款iOS应用正在内测中,用户可以在官网申请参与测试。其发展路径与当年的Oculus颇为相似:先通过情感体验吸引早期用户,再通过硬件设备切入更广泛的日常场景。
Sesame AI有潜力成为陪伴型AI赛道的核心参与者,而这一赛道在全球市场的年复合增长率预计超过40%。随着技术的进步和用户习惯的改变,语音交互将迎来更广阔的应用前景。未来,或许我们将不再依赖屏幕,而是通过与AI的对话,来获取信息和解决问题。
猜你喜欢
- 05-21TG“三体计算星座”发射成
- 05-31TG端午团圆幕后的“通信密
- 08-23TG稀宇极智申请一种流式语
- 08-15TG新三板创新层公司中兵通
- 11-05TG宁波警方摧毁一特大通信
- 06-02TG已解锁会员大叔变萌妹绿
- 05-28TG瑞幸首个AI智能体接入豆包
- 06-15TG元道通信419亿元募投项目
- 04-18TG通信新闻_提供通信行业新
