6月18日消息,今日凌晨,谷歌DeepMind发布了一个名为V2A(Video-to-Audio)的系统,能根据画面内容或者手动输入的提示词直接为视频配音。它还可以为任何视频输入生成无限数量的音轨。
谷歌DeepMindV2A系统最大的特点就是无需人工输入提示词也可以为视频配音。DeepMind在博客中称V2A能依靠自己的视觉能力理解视频中的像素。也就是说,V2A能看懂画面,知道画面里正在发生什么
6月18日消息,今日凌晨,谷歌DeepMind发布了一个名为V2A(Video-to-Audio)的系统,能根据画面内容或者手动输入的提示词直接为视频配音。它还可以为任何视频输入生成无限数量的音轨。
谷歌DeepMindV2A系统最大的特点就是无需人工输入提示词也可以为视频配音。DeepMind在博客中称V2A能依靠自己的视觉能力理解视频中的像素。也就是说,V2A能看懂画面,知道画面里正在发生什么