微软昨晚开源新模型:VibeVoice-1.5B TTS,可一次生成90分钟语音、多人对话 效果听起来质量很高,在说话人一致性和自然轮转上都非常不错 VibeVoice能生成90分钟连续语音,支持4个不同说话人,对像播客这种长篇音频内容生成比较实用 基于Qwen2.5-1.5B理解上下文和语义,有两个连续语音分词器,这两个分词器以 7.5Hz的超低帧率运行,在保证音频质量的同时,提高了计算效率,使得处理长序列成为可能 模型最终输出带 AI 声明水印 支持中/英文 MIT许可证 #TTS #VibeVoice
8
90
343
40K
456
Download Video
@aigclink 引自 GitHub "English and Chinese only: Transcripts in language other than English or Chinese may result in unexpected audio outputs."
@aigclink 确实效果不错,生成的音频里可以中文英文自由切换,用来教英语也不错。vibevoice.info 没啥限制,不用注册登录生成音频。