TG:AI语音领域新革命：Cartesia融资1亿美元推出Sonic-3模型

帮助中心 2025-11-05 09:50

AI语音领域新革命：Cartesia融资1亿美元推出Sonic-3模型

　　在科技迅猛发展的今天，AI语音生成领域迎来了又一重要的突破。初创企业Cartesia宣布成功推出其新一代语音模型Sonic-3，并完成了1亿美元的战略融资，英伟达作为核心投资方的参与更是为这项技术的前景增添了更多的光环。

　　Sonic-3模型的最大特点在于其采用了非传统的Transformer架构，而是依托于状态空间模型（SSM）。这一创新使得Sonic-3在实时语音交互中展现出了低延迟的优越特性，引起了广泛的关注。根据数据显示，数千家企业已经将该模型应用于每月数百万次的对话处理中，显示出其强大的市场潜力。

　　Cartesia的技术团队构成可谓是“学术全明星”，由五位斯坦福AI实验室的研究员共同创立。核心成员包括Mamba架构的主要开发者Albert Gu、前谷歌大脑工程师Brandon Yang，以及拥有斯坦福和卡内基梅隆双重学术背景的CEO Karan Goel。团队通过将SSM的研究成果转化为商业应用，迅速在市场中占据了一席之地。值得一提的是，Albert Gu凭借其在技术领域的卓越贡献，被《时代》杂志评选为2024年全球影响力人物。

　　与传统的Transformer模型相比，Sonic-3能够通过持续理解对话脉络，实现高效的语音生成。实测数据显示，Sonic-3在中文生成时的响应时间仅为2秒，虽然流畅度还有待提升，但其英文表现已接近自然语音水平。在纪录片旁白的测试中，几乎无法分辨出AI的痕迹，充分展现了该模型的强大能力。

　　在功能层面上，Sonic-3支持42种语言和500余种音色选择，其中中文提供10种声线种地域口音。用户通过API参数与SSML标签，可以精确控制音量、语速及情感表达，甚至实现笑声、语调等微妙的情感转换。此外，新增的语音克隆功能支持微调，使生成的语音更加贴近参考原声，而自动缓冲技术则显著提升了实时交互的流畅性。

　　在商业应用方面，Cartesia构建了一个企业级平台，将文本转语音（Sonic）和语音转文本（Ink）模型进行了深度整合，支持客户构建具备复杂任务处理能力的语音Agent。知名企业如ServiceNow已将其应用于客户支持和日程管理等场景，产品副总裁Ravi Krishnamurthy对此表示：“SSM架构为企业级应用带来了前所未有的速度与质量。”

　　从融资的进程来看，市场对Cartesia的认可度极高。在2024年12月，Cartesia获得了Index Ventures领投的2700万美元种子轮融资，仅仅在3个月后又完成了6400万美元的A轮融资。而此次1亿美元的战略融资将进一步加速其技术迭代，让Cartesia在MiniMax、ElevenLabs等竞争对手环伺的AI音频生成赛道中，凭借SSM架构开辟出一条独特的差异化竞争路径。

　　总的来说，Cartesia的成功融资和Sonic-3的推出，不仅标志着AI语音生成技术的一次重要飞跃，也为企业在实时语音交互领域的应用提供了新的可能性。随着技术的不断进步，我们有理由相信，未来的语音交互将会更加自然、高效和智能。返回搜狐，查看更多

TGapp