豆包公司正式发布了其全新的实时语音大模型,并在最新版本的豆包App(版本号为7.2.0 新春版)中全量开放。此次更新标志着豆包在语音理解与生成领域的一次重大突破,使其语音对话能力实现了质的飞跃。
与传统的语音识别和生成模式相比,豆包的实时语音大模型在多个维度上表现出色,尤其是在语音表现力、控制力和情绪承接等方面,展现出惊人的优势。通过这一新技术,豆包能够实现端到端的语音对话,意味着用户与AI之间的互动更加自然流畅。同时,这一技术还具有低时延和在对话中随时打断的特性,进一步提升了对话的实时性和流畅度。
豆包App的此次更新还包括了实时语音通话功能的全面开放。通过这一功能,用户能够体验到前所未有的语音交互体验。得益于最新的实时语音大模型,豆包的中文对话能力在语音的真实感和情绪表现上几乎达到了“人机难辨”的效果。AI不仅能够模仿不同的声线,还能在逻辑思考和情绪感知方面表现出显著提升。这使得豆包的语音系统能够更加生动、丰富地反映出“喜怒哀乐”等情感变化。
更为引人注目的是,豆包的语音模型在细节处理上也达到了新的高度。例如,新的语音通话功能能够根据不同场景自动调整语速、儿化音、音量和气音等语音特征,甚至能够与用户进行“悄悄话”对话。此外,豆包还掌握了部分方言的发音规则,并能够进行英语对话、多角色模仿,甚至演唱部分歌曲,进一步扩展了其语音交互的边界。
这一创新性语音技术的背后,是豆包公司基于端到端框架进行的深度研发。该模型使用原生方法将语音与文本模态进行深度融合,实现了从多模态输入到多模态输出的统一建模,赋予了AI语音对话更加灵动的特性。这种深度融合不仅提升了语音识别和生成的精度,也为用户提供了更为个性化和多样化的语音交互体验。