AI导读:

OpenAI的视频生成大模型Sora正式亮相,支持多种视频创作模式和编辑工具,但面临算力需求大、商业化形势不明朗等挑战。

在OpenAI的“12 Days of Christmas”系列发布活动的第三天,备受瞩目的视频生成大模型Sora终于惊艳亮相。今年2月,OpenAI首次公开了Sora的存在,其能够生成长达60秒的视频,并展现出高度精细的背景、复杂的多角度镜头及情感丰富的角色。

OpenAI在官网上发布了多个由Sora生成的视频demo,并在社交平台X上持续推广,这些视频在短短5天内便为OpenAI的TikTok账号赢得了51.3万次点赞,粉丝数也飙升至10.6万。尽管市场上已有文本到视频的模型,但Sora的表现无疑颠覆了现有产品的标准,成为史上最强的文本生成视频产品。

经过近10个月的等待,Sora在万众期待中正式登场。OpenAI推出了Sora的新版本——Sora Turbo,其性能有了显著提升,并将作为独立产品提供给ChatGPT Plus和Pro用户。ChatGPT Plus用户每月可生成最多50个720p、5秒长的视频,而Pro用户则可享受更高规格的待遇,包括每月最多生成500个1080p、20秒长的视频,并可同时生成五个视频及下载无水印版本。

Sora Turbo不仅支持基础的文本转视频模式,还引入了文本+图像转视频和文本+视频转视频模式,让用户能够更灵活地创作视频。此外,它还配备了多种视频编辑工具,如替换、删除或重新构想视频元素,找到并隔离最佳帧,以及使用Loop剪辑创建无缝重复的视频等。

目前,Sora网站已正式上线,美国等市场的ChatGPT付费用户可通过该网站体验Sora的功能,但欧洲大部分地区和英国的用户还需等待,中国用户则依然受限。由于需求超出预期,OpenAI不得不间歇性关闭新用户注册,并降低生成内容的速度。

Sora的成功被业界普遍认为是OpenAI Scaling law法则的又一体现,即通过海量数据、大量算力和大参数模型实现技术突破。OpenAI研究科学家Noam Brown表示,Sora是scale力量的直观展示,而OpenAI CEO山姆·奥特曼则将Sora视为视频版的GPT-1。

市场预计,Sora的发布将对视频制作领域带来革命性影响,降低视频创作门槛,为电影制作、广告、游戏开发和社交媒体等领域创造新的机遇。自今年2月首次预告Sora以来,OpenAI已与多家电影制片厂、媒体高管和经纪公司展开会谈,并允许一些艺术家、知名演员和导演试用该服务。

然而,视频生成模型领域也面临着严峻挑战。百度CEO李彦宏在内部讲话中表示,由于视频生成模型的投入周期太长,百度不会涉足这一领域。同时,生成式AI技术正大幅降低视频生成的门槛,导致视频数据以20倍左右的速度增长,对计算成本和效率提出了严峻挑战。以Sora为例,其训练和推理所需的算力需求分别达到了GPT-4的4.5倍和近400倍。

此外,视频生成模型在编解码层和框架层也面临着诸多挑战,包括效率问题和处理复杂需求的能力。这些都对视频生成模型形成了巨大考验,而其在商业化上的形势仍然不够明朗,进一步加剧了训练和推理成本上的挑战。为了防止滥用,OpenAI还采取了多项安全措施,包括在生成的视频中嵌入C2PA元数据,并要求用户同意使用协议。

(文章来源:界面新闻)