AI绘画的下一站:“AI拍电影” 问世

当大家还在惊叹和沉浸于AI文本转图像产出的精妙画作的时候,一些闷声做大事的团队已经在人工智能研究上迈向了一个新的领域—文本转视频9月29日,扎克伯格在facebook上发布了一条关于Mak

当大家还在惊叹和沉浸于AI文本转图像产出的精妙画作的时候,一些闷声做大事的团队已经在人工智能研究上迈向了一个新的领域—文本转视频

9月29日,扎克伯格在facebook上发布了一条关于Make-A-Video人工智能系统的帖子,并附上了一段20s的视频,视频中汇总了Make-A-Video系统通过文本生成视频的一些片段。给Make-A-Video一个文本描述,它就可以为您创建一段视频。

AI绘画的下一站:“AI拍电影” 问世

自文本转图像AI技术发布以来,也才过了几个月,人工智能技术就发展成将静态图直接飞升成动态视频了,一句话就能生成视频,不得不说近两年AI发展的速度有点近乎疯狂。

不过在Meta发布之后仅一周,谷歌就紧随其后发布了他们在人工智能领域的最新成果Imagen Video和Phenaki两种模型,前者可以生成1280*768分辨率,24帧/秒的高清视频,后者可以将一系列的文本提示生成连贯的长视频。这么看Meta的Make-A-Video还是逊色一点。

AI绘画的下一站:“AI拍电影” 问世

其实文本生成视频技术并不是什么新鲜事儿,早在今年的6月份,清华&智源研究院就自研了“一句话生成视频”的模型CogVideo,并且将这一模型在gitub上开源了(刚发布不久立马就出圈了)

下面我们就一起来了解下这三个团队各自的模型到底如何吧。

01

CogVideo

CogVideo可以生成分辨率为480*480(画质有点渣),4秒(帧数32张)左右的视频,而且在生成真实的对象,以及内容一致性和运动真实性方面的表现相较于当时的其他视频生成AI模型来说都要更好,从下图的我们不难看出这一点,生成的实际人物相关的视频看上去都比较自然和流畅。

AI绘画的下一站:“AI拍电影” 问世

(团队用CogVideo生成的视频片段)

AI绘画的下一站:“AI拍电影” 问世

但是有些地方还是值得再探究下,比如这个狮子正在喝水的视频,CogVideo是直接给狮子加上了一双手,这和我们的常规认知是背道而驰的,仿佛只是把人的手拿水喝这个动作和狮子做了一个拼接。不过在Meta的Make-A-Video生成的视频中也存在类似的情况。

那接下来我们就看看Make-A-Video的表现吧!

02

Make-A-Video

Make-A-Video目前已经实现了下面三个功能

  • 文字转视频

  • 图片转视频(将一张图片变为动态视频或者将两张图片合成为一个视频)

  • 通过原始视频生成视频的变体

Meta的官网上也给出了一些的案例。

AI绘画的下一站:“AI拍电影” 问世

(由于案例较多,其余案例信息请前往:https://makeavideo.studio/)

目前Make-A-Video生成的视频画质看起来有点粗糙,且视频呈现的动作样貌也还不够自然协调,不过相比CogVideo,Make-A-Video提供了更多样的生成视频的玩法,而且生成出的视频想象力也更丰富。

03

Imagen Video & Phenaki

首先值得一提的是Imagen Video的清晰度,相比前两个系统生成的视频有了非常大的提升,目前支持生成1280*768分辨率,24帧/秒的视频,下面是官网放出的视频案例效果片段。

AI绘画的下一站:“AI拍电影” 问世

(更多案例请前往 https://imagen.research.google/video/ )

Imagen Video不仅能生成高清视频,而且具有高度的可控性,能理解并生成不同艺术风格的作品。

AI绘画的下一站:“AI拍电影” 问世

甚至还能理解3D结构

AI绘画的下一站:“AI拍电影” 问世

最重要的是 Imagen Video 能够生成各种不同风格的文本动画

AI绘画的下一站:“AI拍电影” 问世

不过目前谷歌方面表示不会发布 Imagen Video 模型或其源代码,以避免存在模型可能被滥用于制造虚假、仇恨、露骨或有害的内容。

通过官网和论文公布的信息可以了解到Phenaki目前可以做到

1. 通过不同的描述切换生成的视频风格或切换场景,生成连贯多样化的视频

AI绘画的下一站:“AI拍电影” 问世

2. 给一个静态的图像作为第一帧+一段文本描述就可以生成一个视频

AI绘画的下一站:“AI拍电影” 问世

3. 通过一连串的文字描述描述生成2分钟以上的长视频(视频案例请移步Phenaki官网查看:https://phenaki.github.io/#interactive)

AI绘画的下一站:“AI拍电影” 问世

而且生成的视频还具备故事情节。这样的话,那未来是不是人人都可以通过文本创建视频,就不需要拍摄和剪辑了(惊讶!!!)如果真的能实现,那可能会给视频行业带来翻天覆地的变化。目前Meta和Google团队都暂未提供线上试用入口,有感兴趣的朋友可以去尝试用下CogVideo在线网页看看文字转视频的效果(可点击原文链接跳转):

网址:https://huggingface.co/spaces/THUDM/CogVideo

文字转视频的AI技术在短短的几个月内就已经取得了巨大的进展,似乎每天都有新的突破,难以想象再过几个月这个技术是不是又会迈向了一个新的阶层,一起拭目以待吧!

更多最新资讯和业内领先方案分析关注九日论道哟。也欢迎大家加入我们的知识星球,星球也正在做第二年的续费哈。

原创文章,作者:Meta,如若转载,请注明出处:https://www.kaixuan.pro/news/457768/