科技 | 所想即所得，视频AI掀起“天桥”风云

iWeekly

人类对于人工智能的设想可以追溯到希腊神话，锻造之神赫菲斯托斯创造了塔罗斯（Talos），这个“上古机械战士”由青铜锻造、靠一根血管连接、战力无敌，听命于主人，尽心守卫克里特岛。此后，从《弗兰肯斯坦》到《终结者》《银翼杀手》再到《她》，人工智能展现出千般模样，它们可能是邪恶怪物、会背叛人类，也可能拥有纯真感情、为爱献身。只不过，和神话、科幻作品中人工智能偏向“战斗机器”的设定不同，现实世界中的它们正逐渐向辅助型工具发展。继绘画人工智能Dall-E和Midjourney后，初创公司Runway研发的视频工具Gen-2也受到热捧，正在撼动创意、视觉设计和视频领域。只要写下想要的东西，人工智能就能呈现出与之相匹配的静态或动态画面，鼠标轻点几下，就可以完成绿幕抠像和视频剪辑，Runway希望人工智能可以帮助电影制作者和其他数字艺术家更快更好地工作，但与此同时，AI的介入也让原创和造假更难以分辨。新时代的“塔罗斯”依旧是主人的忠臣，但手握的却是双刃剑。

从文字到视频 软件

架构师伊恩·桑萨维拉（Ian Sansavera）敲下一段简短描述，“森林中有一条宁静的河流”，两分钟后，一条短视频跳了出来：河流中的水在阳光下闪闪发光，它在树木和蕨类植物间穿行，转过一个河道，水花拍打在岩石上轻轻溅起。这是初创公司Runway最新推出的Gen-2人工智能系统，只需输入一段文字，就可以得到相应的短视频。如果给出人物模型参考，或是画风设定，则可以得到特定短片——你可以把自己变成忍者神龟，也可以让一排笔记本变成高楼大厦，让模型小人在宇宙中穿行，甚至生成一段以你家狗狗为主角的爱情故事——就像Runway所说的，“你能写下来，就能看到它”。

就像绘画类人工智能Midjourney一样，Gen-2也是基于深度学习的计算机模型，通过学习大量照片、视频和文字，来积累数据，从而根据指令生成相应的内容。确切来说，Gen-2所生成的内容和以往拍摄的视频并不同，只是将一系列静止的图像，按一定的逻辑排列组合起来。技术的关键在于，AI如何理解帧与帧之间的关系排布，而这种“理解”需要大量的训练。不少专家预测，Gen-2未来也许能生成自带音乐和人物对话的视频。Midjourney最初根据指令作画时尚不能分清“打篮球的泰迪熊”和“长着篮球脑袋的泰迪熊”。如今，人们只能勉强根据“人手不应该有六根手指”来判断“特朗普被捕图”其实出自Midjourney的手笔，或是被它所生成的“穿巴黎世家羽绒服的教皇”照片欺骗。

当然，在Midjourney、DeepFace等软件的前车之鉴下，“文字转视频”让人不可避免地担心造假问题。Gen-2的缔造者倒认为担心为时尚早。目前，Gen-2生成的视频并不稳定，图像会出现扭曲，画面分辨率低。“你可以生成一场汽车追逐战，但有时汽车可能会飞走。”连Runway的联合创始人兼首席执行官克里斯·瓦伦祖拉（Cris Valenzuela）都曾直白地吐槽自家产品还太粗糙。

影视界“天桥”

Gen-2即将颠覆视频创造领域，这是瓦伦祖拉没想到的。2016年，他在纽约大学结识亚历杭德罗·马塔玛拉（Alejandro Matamala）和阿纳斯塔西斯·格尔曼尼迪斯（Anastasis Germanidis）。从背景来看，三人各不相同，瓦伦祖拉和马塔玛拉来自智利，前者学习商业工程，后者研究设计和编辑出版，格尔曼尼迪斯则是希腊人，学习计算机科学和艺术，但他们因为对人工智能在创意领域潜在用途的共同兴趣走到了一起，寻求建立相关模型并创业。创业之初找不到工程师和设计师，更拉不到投资。“每个人都质疑，计算机不会有创意或产生视觉创意。”瓦伦祖拉回忆道，“现在，游戏完全改变了。”

△Runway的三名创始人亚历杭德罗·马塔玛拉（左）、阿纳斯塔西斯·格尔曼尼迪斯（上）和克里斯·瓦伦祖拉（右）。

从2018年创办公司至今，Runway以“AI +视觉创作”为载体，就像Runway所代表的T台一样，一直引领技术演进的前沿，寻找和呈现各种全新创意和设计。目前，公司已推出30多个图像视频编辑工具，包括文本生成、图像生成、音频处理、视频抠图等，帮助实现视频编辑自动化。

以《斯蒂芬·科尔伯特晚间秀》为例，借助Runway的人工智能工具，原本5小时的人工剪辑时间可被压缩至5分钟。此次横扫奥斯卡的《瞬息全宇宙》背后，就有Runway的身影。特效师埃文·哈勒克（Evan Halleck）利用AI制作影片中的岩石特效场景，以往需要花费半天的工作量被压缩到了几分钟。“以往，抠像是剪辑中最痛苦的步骤，五六秒的镜头甚至会需要花费几天时间才能编辑完。”哈勒克感慨，人工智能大大节约了时间成本，如今他已经在多个影视项目中使用Runway的工具。“越来越多的电影制片人和视觉效果艺术家正在采用人工智能。不仅仅是因为速度，还因为它让制作视频变得更自动化。它是变革性的，它能够压缩时间成本，让人更专注于创意。”瓦伦祖拉指出，“我称之为好莱坞2.0，每个人都将能够制作以前只有少数人能够做到的电影和大片。”

“在过去，想要拍摄一条视频，你必须要有一台摄像机，要有道具，要有一个空间，要得到许可，还得有钱。”热衷于视频生成技术的作家苏珊·邦塞（Susan Bonser）说，“现在你不需要拥有以上任何东西。你只需要坐下来想象。”Runway及其人工智能带来了影视创意产业的革新，也不可避免遭遇争议。4月，索尼世界摄影奖创意类大奖花落德国摄影师鲍里斯・埃尔达森（Boris Eldagsen）的黑白肖像摄影作品《电工》，未料想埃尔达森表示作品根本是由图像生成软件DALL-2创作，拒绝领奖。一时掀起艺术界哗然：当AI正式进军创意领域，该如何分辨？AI所做的比人类更快、更好、更便宜，人类如何应对冲击？

△由AI生成的照片《电工》获得2023年索尼世界摄影奖。

“20年前，学者们还在争论用Photoshop对照片进行数字化修改的伦理问题，‘我们不会再相信什么是真实的，这不是艺术’。现在，Photoshop只是一个动词。”瓦伦祖拉认为，就像Photoshop一样，随着时间的推移，人工智能和生成的内容将变得更加为消费者所熟悉。“艺术家们正在质疑技术本身，他们试图通过对技术的质疑进行创作。因此，你看到很多艺术家在使用人工智能技术时存在偏见，或者被用在不应使用的地方，以质疑技术的好坏。我认为应该鼓励艺术家质疑现有的技术。但是，从这个特定的领域移开，技术只会成为工具箱中的一个工具。”瓦伦祖拉在谈及人工智能和艺术家的关系时表示，人类被技术取代是“天真的想法”，“它只是帮助你以更好的方式做事，更好地表达你”。

Runway的另一个创始人马塔玛拉则提及了“合成媒体”的概念，他认为，人工智能的出现会改变现有的影视、设计等创意行业，但也会催生新职业，即合成设计师。他们可在多个领域工作，使用AI驱动的算法来生成新的图像、音乐、声音、视频、脚本等，使用传统和生成媒体来创造内容，可以抛开摄像机、演员等物理限制，“促成新形式的故事，并开辟新的市场”。

希腊神话由人类撰写，塔罗斯只是其中的一个配角，但随着Runway等公司以及它所带动的合成媒体的兴起，一切也将不同。正如科技媒体contxto感慨：新世纪神话很可能将由人类和人工智能共同谱写。

内容来源于《周末画报》

撰文—瑙梧

编辑—清微

图片—Runway、纽约时报

iWeekly周末画报独家稿件，未经许可，请勿转载