4月27日,在中关村论坛未来人工智能先锋论坛上,中国第一个长期、高一致性、高动态视频模型Vidu正式与清华大学联合发布。
记者了解到,该模型采用了Diffusion和Transformer结合的结构U。-ViT,高清视频内容支持一键生成长达16秒,分辨率高达1080P。Vidu不仅可以模拟真实的物理世界,而且具有丰富的想象力、多镜头生成和高时空一致性的特点。Vidu是自Sora发布以来,世界上第一个取得重大突破的视频模型。它的性能完全符合国际顶级水平,并且正在加速迭代升级。
具体来说,与Sora一致,Vidu可以根据提供的文本描述直接生成长达16秒的高质量视频。Vidu在视频效果上除了在时长上有所突破外,还主要体现在几个方面:
模拟真实物理世界:能生成细节复杂的场景,并符合真实的物理规律,如合理的光影效果,细腻的人物表情等;
富有想象力:能够生成现实世界中不存在的虚构画面,创造出具有深度和复杂性的超现实主义内容。
多镜头语言:可以生成复杂的动态镜头,不再局限于简单的推、拉、移等固定镜头,而是可以实现远景、近景、中景、特写等不同镜头的切换。围绕统一主体在一个画面中,包括直接生成长镜头、焦点、过渡等效果。,并将镜头语言注入视频;
时间和空间一致性高:在16秒内保持连贯流畅,随着镜头的移动,人物和场景可以在时间和空间上保持一致;
了解中国元素:能产生熊猫、龙等独特的中国元素;
值得一提的是,短片中的片段从头到尾都是连续生成的,没有明显的插帧现象。从这种“一镜到底”的表现可以推断出,Vidu采用了“一步到位”的生成方式。和Sora一样,从文字到视频的转换是直接连续的,在底层算法的实现上,是基于单个模型完全从端到端生成的,不涉及中间的插帧和其他多步处理。
据悉,Vidu的快速突破源于贝叶斯机器学习和多模式模型的长期积累和多项原创成果。其核心技术U-ViT架构由团队于2022年9月提出,其DiT架构早于Sora,是世界上第一个将Diffusion与Transformer相结合的架构,完全由团队自主研发。
数学技术表示,大模型的突破是一个多维度、跨领域的综合过程,需要技术与工业应用的深度融合。因此,在发布之际,学生数学技术正式推出“Vidu大模型合作伙伴计划”,邀请上下游企业和产业链研究机构加入,共同构建合作生态。
数据显示,北京生数科技有限公司成立于2023年年 3 本月致力于打造世界领先的多模式模型和应用产品。公司创始团队来自清华大学人工智能研究所。截至目前,已完成数亿元融资,投资者包括启明风险投资、蚂蚁集团、BV百度风险投资、达泰资本、锦秋基金、卓源亚洲等知名机构。