Open AI公布了文字转视频大模型SORA,在极短的时间之内,就引起了全球科技媒体广泛报道,同时在无数内容创作者社区掀起了前所未见的巨浪:
如果说2023年的“文字转图片”技术早已让我们审美疲劳,那么随着SORA的登场,仅需提示关键字就能生成长达60秒的连贯视频,如此离谱的效率,显然超越了不少流媒体时代Vloger的心理预期,“AI取代人类”的忧虑,一夜之间卷土重来。
事实上,不仅仅是影视行业,就连看似没有直接关联的游戏业,也随着这一轮的舆论风口,响起了不少争论的声音——再联想到今年年初,似乎有报道表示“Valve放宽了对AI生成内容的管制”,以及有新闻声称“Level-5(《妖怪手表》的制作商)已经在开发过程中引入了AI内容生成技术”,一个十足现实的问题,俨然已经是近在眼前:
“游戏产业即将迎来AI革命”,究竟是夸夸其谈,还是确有其事的客观事实?
SORA的真面目?
在AI内容生成领域,“文字转视频”其实并不是什么前所未见的新概念,诸如Stable Video Diffusion和Pika等项目,已然让我们见识到了这个产品方向的旺盛潜力——不过即便如此,尽管独创性并没有想象中那么突出,但和同类产品相比,在技术层面,SORA确实不乏后发优势:
首先,在算法层面,SORA融合了diffusion和transformer两种架构,生成的视频内容在理论上不再有分辨率、时长以及尺寸一类的限制——前提是硬件性能跟得上;
其次,通过对captioner model和prompts扩写等技术的引入,SORA可以更融洽地关联提示文字和生成效果,有效提升视频成品的内容质量——之所以SORA仅凭一段60秒时长的演示视频就能聚拢全球科技媒体的目光,“第一印象十足好看”的内容生成效果,显然正是主因。
说到底,SORA的基本原理,依旧仅仅是通过样本视频学习了现实世界规律的“表征”,达到了“知其然”的程度,在细节上不可能模拟真实世界的物理规律,距离“知其所以然”的拟真化,依旧有不小的差距——换句话来说,尽管有报导声称,SORA可以在没有明确数据标记的前提下,仅凭规模效应“涌现”生成某些超乎预期的画面,但除了刻意为之追求猎奇噱头的玩票爱好者,这种带有鲜明“AI滋味”的动态画面,恐怕很难在专业化应用领域(包括但不仅限于教育、培训以及广告宣传)发挥预期中的功效。
“好用,但也没那么好用”——这种“雷声大雨点小”的基调,正是目前的内容生成AI在大多数应用领域面临的窘境;不仅是图文视频,在游戏开发领域,AI应用的局限性,基本如出一辙:
AI应用,不见得高人一等
事实上,哪怕是内容生成AI明确参与制作、拥有可观人气反响的热门作品,只要点开惊世骇俗的标题细看报道内容,十之八九都能找到“不尽如理想化预期”乃至“毁誉参半”的真实反馈:
以洛杉矶Corridor Digital工作室出品的《ANIME ROCK, PAPER, SCISSORS》为例,在2023年3月刚刚上线的时候,这部标榜“内容生成AI深度参与制作”的短片,曾经在不少社交媒体产生了巨大的反响——至少在垂直领域,轰动程度丝毫不逊于如今的SORA;但与此同时,许多动画行业的从业者,不约而同地对这部“作品”流露出了毫不遮掩的厌恶。
AI必胜?未必是定论
“内容创作AI是最好的B-Roll创作工具。”
这是Youtube博主Paddy Galloway,对SORA这一波热潮给出的评论。在某种程度上,将其视作C端用户和自媒体创作者的真实感受,基本合乎预期。
实际上,如果让我们冷静下来重新审视这一波“AI崛起”的舆论浪潮,大多数朋友应该不难发现,单从宣传口径和造势力度来看,AI创作内容的这一波声势,和近几年潮起潮落的一系列网红科技新突破是何其相似——如出一辙的博人眼球宣传片,照本宣科的“重塑行业”和“改变世界”,至于说潮水褪去后,这些曾经红极一时的噱头还能剩下什么,咱们应该有目共睹。
在笃定“这一波一定能成”准备全副身家All In之前,稍退半步从全局层面把整个项目重新审视一番,未必不是个好主意——区块链如此,元宇宙如此,AI生成内容,同样也是如此。
如果说2023年的“文字转图片”技术早已让我们审美疲劳,那么随着SORA的登场,仅需提示关键字就能生成长达60秒的连贯视频,如此离谱的效率,显然超越了不少流媒体时代Vloger的心理预期,“AI取代人类”的忧虑,一夜之间卷土重来。
事实上,不仅仅是影视行业,就连看似没有直接关联的游戏业,也随着这一轮的舆论风口,响起了不少争论的声音——再联想到今年年初,似乎有报道表示“Valve放宽了对AI生成内容的管制”,以及有新闻声称“Level-5(《妖怪手表》的制作商)已经在开发过程中引入了AI内容生成技术”,一个十足现实的问题,俨然已经是近在眼前:
“游戏产业即将迎来AI革命”,究竟是夸夸其谈,还是确有其事的客观事实?
SORA的真面目?
在AI内容生成领域,“文字转视频”其实并不是什么前所未见的新概念,诸如Stable Video Diffusion和Pika等项目,已然让我们见识到了这个产品方向的旺盛潜力——不过即便如此,尽管独创性并没有想象中那么突出,但和同类产品相比,在技术层面,SORA确实不乏后发优势:
首先,在算法层面,SORA融合了diffusion和transformer两种架构,生成的视频内容在理论上不再有分辨率、时长以及尺寸一类的限制——前提是硬件性能跟得上;
其次,通过对captioner model和prompts扩写等技术的引入,SORA可以更融洽地关联提示文字和生成效果,有效提升视频成品的内容质量——之所以SORA仅凭一段60秒时长的演示视频就能聚拢全球科技媒体的目光,“第一印象十足好看”的内容生成效果,显然正是主因。
说到底,SORA的基本原理,依旧仅仅是通过样本视频学习了现实世界规律的“表征”,达到了“知其然”的程度,在细节上不可能模拟真实世界的物理规律,距离“知其所以然”的拟真化,依旧有不小的差距——换句话来说,尽管有报导声称,SORA可以在没有明确数据标记的前提下,仅凭规模效应“涌现”生成某些超乎预期的画面,但除了刻意为之追求猎奇噱头的玩票爱好者,这种带有鲜明“AI滋味”的动态画面,恐怕很难在专业化应用领域(包括但不仅限于教育、培训以及广告宣传)发挥预期中的功效。
“好用,但也没那么好用”——这种“雷声大雨点小”的基调,正是目前的内容生成AI在大多数应用领域面临的窘境;不仅是图文视频,在游戏开发领域,AI应用的局限性,基本如出一辙:
AI应用,不见得高人一等
事实上,哪怕是内容生成AI明确参与制作、拥有可观人气反响的热门作品,只要点开惊世骇俗的标题细看报道内容,十之八九都能找到“不尽如理想化预期”乃至“毁誉参半”的真实反馈:
以洛杉矶Corridor Digital工作室出品的《ANIME ROCK, PAPER, SCISSORS》为例,在2023年3月刚刚上线的时候,这部标榜“内容生成AI深度参与制作”的短片,曾经在不少社交媒体产生了巨大的反响——至少在垂直领域,轰动程度丝毫不逊于如今的SORA;但与此同时,许多动画行业的从业者,不约而同地对这部“作品”流露出了毫不遮掩的厌恶。
AI必胜?未必是定论
“内容创作AI是最好的B-Roll创作工具。”
这是Youtube博主Paddy Galloway,对SORA这一波热潮给出的评论。在某种程度上,将其视作C端用户和自媒体创作者的真实感受,基本合乎预期。
实际上,如果让我们冷静下来重新审视这一波“AI崛起”的舆论浪潮,大多数朋友应该不难发现,单从宣传口径和造势力度来看,AI创作内容的这一波声势,和近几年潮起潮落的一系列网红科技新突破是何其相似——如出一辙的博人眼球宣传片,照本宣科的“重塑行业”和“改变世界”,至于说潮水褪去后,这些曾经红极一时的噱头还能剩下什么,咱们应该有目共睹。
在笃定“这一波一定能成”准备全副身家All In之前,稍退半步从全局层面把整个项目重新审视一番,未必不是个好主意——区块链如此,元宇宙如此,AI生成内容,同样也是如此。