奇客Solidot | 中国创业公司发布类似 Sora 的文本视频模型 Vidu

登录注册

文章
往日文章往日投票
皮肤
蓝色橙色绿色浅绿色

关注我们：

solidot新版网站常见问题，请点击这里查看。

消息

本文已被查看 4041 次

中国创业公司发布类似 Sora 的文本视频模型 Vidu

Wilson (42865)发表于 2024年04月29日 18时40分星期一

来自平行恋人

清华大学联合生数科技发布了 Sora 的文本视频生成模型 Vidu。该模型采用 Diffusion 与 Transformer 融合的架构 U-ViT，支持一键生成长达 16 秒、分辨率高达 1080P 的高清视频内容。Vidu不仅能模拟真实物理世界，还拥有丰富想象力，具备多镜头生成、时空一致性高等特点。清华大学教授、生数科技首席科学家朱军表示，与 Sora一致，Vidu 能够根据提供的文本描述直接生成长达 16 秒的高质量视频。除了在时长方面的突破外，Vidu 在视频效果方面实现显著提升，主要体现在模拟真实物理世界、多镜头语言、时空一致性高、理解中国元素等方面。朱军表示，Vidu 的快速突破源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。其核心技术 U-ViT 架构由团队于 2022 年 9 月提出，早于 Sora 采用的 DiT 架构，是全球首个 Diffusion 与Transformer 融合的架构，完全由团队自主研发。目前使用 Vidu 需要申请。

https://www.shengshu-ai.com/home
https://www.thepaper.cn/newsDetail_forward_27190053

对骄傲的人不要谦逊，对谦逊的人不要骄傲。--托玛斯·杰弗逊

本站提到的所有注册商标属于他们各自的所有人所有，评论属于其发表者所有，其余内容版权属于 solidot.org(2009-) 所有。

京ICP证161336号京ICP备15039648号-15 北京市公安局海淀分局备案号：11010802021500

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱：jubao@zhiding.cn　网上有害信息举报专区：https://www.12377.cn