TG:硅谷热议:最快语音转文字模型

要知道,人类眨一次眼的平均时长在100-400毫秒……这就意味着,你说完一句话眨下眼,文字就已经同步到屏幕上了。
据官方数据,Scribev2Realtime在针对前30种常用语言的FLEURS基准测试里,准确率飙到93.5%,在一众同赛道模型中表现突出。
就算环境吵闹,方言讲话、或者说话内容里夹着一堆专业术语,它也能精准抓住每一个关键词,甚至能辨别你的笑声是大笑还是苦笑(doge)。
视频详情适配能力也比较全面。在音频格式方面,像PCM(8-48kHz)、μ-law编码等常用类型都能支持。语音活动检测功能可以精准检测语音起止,手动提交控制能让使用者自主决定何时最终确定转录内容,便于实现定制化的音频流处理和更高精度的微调。
还有90多种语言随意切换,从常见的主流语言到相对小众的语种,基本都能涵盖,对于有跨国需求的用户来说,不用再为了不同语言切换不同工具。
这里提供了一段相声里的绕口令片段,可以看出延迟确实比较低,而且过程中还能对实时转录的文字进行调整。
但对于中文里一些生活化的表达拿捏得还不是很到位,比如“五月单五”这个说法。但整体的准确率还是比较高的。
视频详情其实,在Scribev2Realtime推出前,实时语音转文本赛道已历经多轮技术迭代,但长期存在痛点集群。
早期阶段,该领域以传统统计模型为主,但识别准确率低,在带背景噪音的场景中错误率常超30%,且延迟普遍在1秒以上,难以满足会议记录、实时客服等场景的需求。
随着深度学习技术渗透,模型虽然提升了准确率,但多语言支持能力薄弱,主流模型仅覆盖20-30种语言,且对小众语言或复杂口音的适配性极差。
所以,此前行业内存在速度与精度不可兼得的困境。这一矛盾直至Transformer架构在语音领域应用后才逐步缓解。
虽然官方还没有发布明确的技术报告,但在AI语音这条赛道上,ElevenLabs卷出了新水平。
ElevenLabs成立于2022年,是一家聚焦AI语音技术的科技企业,于2022年在伦敦正式成立。
成立后,公司在商业层面实现快速突破,仅20个月就突破1亿美元营收,后续10个月内进一步增长至2亿美元。
创始人MatiStaniszewski表示,公司创立之初,AI领域的方向多得让人眼花缭乱,而他们一开始就坚定地押注在语音上。目前,公司拥有全球Top100AI语音方向研究员。
ElevenLabs并不把自己看作一个250人的大团队,而是20个5-10人的小团队,且团队内部不设头衔,任何人都可成为关键决策者,灵活调动,高效运作。
该公司之前推出的Elevenv3文本转语音模型,支持70多种语言,还能进行多人对话聊天,因为自然、生动的语言表现力已经大获好评。
如今,在语音实时转录这条赛道上,Scribev2Realtime又成了新的天花板。
?年度科技风向标「2025人工智能年度榜单」申报即将于11月17日截止!点击了解详情
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。
猜你喜欢
- 06-17TG在通信星辰大海中锚定“
- 08-13TG中国移动数智力量:通信
- 06-15TG32万被盗刷!竟因“快递已
- 06-19TG男女叉叉真人教程
- 11-03TG通信ETF(515880)回调超5
- 05-28TG李玟轻生去世!最后一条
- 06-13TG苹果 iOS 26 电话应用新特性
- 07-17TG国家矿山安监局征求意见
- 05-22TG我国科学家实现高效水—
