双赢彩票智东西6月18日报道,6月17日,美国AI视频生成创企Runway推出新的视频生成模型Gen-3 Alpha,支持生成10秒左右的高质量视频。
Runway于2018年底创立于美国纽约,是最早做AI视频生成模型的创企之一。然而,在其2023年2月和6月分别推出第一代和二代模型后,这位昔日王者就被同行压着打,OpenAI的Sora和Luma AI上周发布的Dream Machine,都使Runway此前的模型相形见绌。()
时隔一年,Gen-3 Alpha是Runway的反击之作。Gen-3 Alpha的一大特点是生成的视频具有高精细度,它可以理解并生成复杂的场景和运动画面,还能胜任多种电影艺术手法。
比如在以下视频动图中,Gen-3 Alpha收到的提示词是“一顶卷发假发和墨镜突然落在他的头上,悲伤的秃头中年男子变得高兴起来”,只见生成的视频不仅准确呈现了假发和眼镜的运动路径,而且还将男士由悲到喜的情绪刻画得十分细腻。
▲提示:一顶卷发假发和墨镜突然落在他的头上,悲伤的秃头中年男子变得高兴起来
相较于Gen-2,Gen-3 Alpha在保真度、一致性和运动性能上都有了显著的提升,被Runway称为“构建通用世界模型道路上”的重要一步。如下面的视频所示,Gen-3 Alpha可以模拟出水下色彩斑斓的珊瑚街道,不仅水下街道的建筑、动植物十分还原真实世界,甚至阳光透过水的光影效果也很逼真。
Runway的发言人在邮件中提到:“首批产品将支持5秒和10秒的视频生成,速度很快——5秒的视频只需45秒就能完成,10秒的视频也仅需90秒。”
目前,该模型的确切发布日期还未公布,Runway仅展示了演示视频。Runway联合创始人兼首席技术官Anastasis Germanidis透露,Gen-3 Alpha将在未来几天内首先面向付费用户提供,而免费用户则要再等等。
按照Runway的说法,Gen-3 Alpha是一个能够“表示和模拟各种现实场景和互动”的AI模型,是“向构建通用世界模型迈出的一步”。
Gen-3 Alpha支持细粒度的时间控制。其接受过高度描述性、时间密集的字幕训练,能够实现富有想象力的过渡和场景中元素的精确关键帧。
Gen-3 Alpha可以生成逼真的人类。它擅长创造具有多种动作、手势和情感的富有表现力的人类角色。
训练Gen-3 Alpha的是一支由研究科学家、工程师和艺术家组成的跨学科团队的合作成果,从而使得模型可以诠释各种风格和电影术语。
▲提示:从窗户向外看,看到一个巨大的奇怪生物在夜晚破败的城市中行走,一盏昏暗的路灯照着街区。
在职场社交平台领英上,一位Runway用户预计他将在本周晚些时候获得Gen-3 Alpha的访问权限。
这位用户在X平台上提到,Gen-3 Alpha“很快就会在Runway产品中上线,并将支持所有现有的模式,包括文本转视频、图像转视频、视频转视频,以及一些通过更强大的基础模型才能实现的新功能双赢彩票。”
他还提到,自2023年发布Gen-2以来,Runway发现“视频扩散模型在性能提升方面还有很大的发展空间,而这些模型在学习预测视频的任务时,已经构建出了真正强大的视觉世界表征。”
Runway在其博客文章中提到,Gen 3-Alpha“结合了视频和图像进行训练”,并且“这是由研究科学家、工程师和艺术家组成的跨学科团队共同努力的成果”。
Gen 3-Alpha背后具体的数据集尚未公开,外界也不清楚这些数据是付费的的还是从网上收集的。Runway的发言人通过电子邮件回复外媒VentureBeat:“我们有一个内部研究团队负责监督所有训练过程,使用的是精心挑选的内部数据集来训练模型。”
Runway还公布,他们已经与各大娱乐和媒体组织携手合作,为Gen-3定制了专属版本,据称这有助于在角色风格上实现更统一的控制,并满足特定的艺术和叙事要求等。目前,定制模型的训练费用尚未公开。
Gen-3 Alpha是Runway即将推出的系列模型中的首款,这些模型都在其专为多模态大模型而搭建的新基础设施上训练而来,但具体是如何训练的,以及模型关键技术仍待披露。
AI视频生成领域的大战一触即发,继OpenAI的Sora亮相后,近期Luma AI刚推出的Dream Machine、快手刚推出的可灵又掀起了一波AI生成视频小高潮,本次Runway的动作为赛道再添一把火。模型的实际使用效果如何,我们将持续关注。
(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。