AIGCLINK @aigclink, Twitter Profile | Instalker

AIGCLINK @aigclink

a month ago

微软昨晚开源新模型：VibeVoice-1.5B TTS，可一次生成90分钟语音、多人对话效果听起来质量很高，在说话人一致性和自然轮转上都非常不错 VibeVoice能生成90分钟连续语音，支持4个不同说话人，对像播客这种长篇音频内容生成比较实用基于Qwen2.5-1.5B理解上下文和语义，有两个连续语音分词器，这两个分词器以 7.5Hz的超低帧率运行，在保证音频质量的同时，提高了计算效率，使得处理长序列成为可能模型最终输出带 AI 声明水印支持中/英文 MIT许可证 #TTS #VibeVoice

8 90 343 40K 456

AIGCLINK @aigclink

a month ago

github：github.com/microsoft/Vibe…

David Wu @DavidWu70

4 weeks ago

@aigclink "基于Qwen2.5-1.5B理解上下文和语义"? 微软？

Dave @Dave3Mush

4 weeks ago

@aigclink 引自 GitHub "English and Chinese only: Transcripts in language other than English or Chinese may result in unexpected audio outputs."

OSDev @OiiDev

4 weeks ago

@aigclink @readwise save thread

Gary @yanaiming

4 weeks ago

@aigclink 确实效果不错，生成的音频里可以中文英文自由切换，用来教英语也不错。vibevoice.info 没啥限制，不用注册登录生成音频。

浮动萤石 @jasspier

2 weeks ago

@aigclink 要你指定发言人和发言内容，这有什么价值？自己选音色使用tts可以实现无限多人聊天