Sora根据提示文字生成的视频画面截图。 图源:OpenAI官网
2月16日,美国人工智能团队OpenAI发布“文字生成视频”大模型Sora,特别是官方公布的长达60秒未经修改的AI视频,引发业界极大的震撼,网友惊呼“现实不存在了”。
多位专业人士表示,Sora对AIGC(生成式人工智能)行业来说是一个重要的里程碑。但也有观点认为,Sora并未有实质性的突破,只是在暴力美学下的又一次重要“量变”。
“Sora能力超乎预期,但仍未达到颠覆行业的水平。”专业人士均表示,Sora更多是作为一种补充和辅助工具而存在。
“扔一部小说出一部大片”
Sora并非首个文本生成视频的大模型。据不完全统计,截至去年年底,全球能实现文本生成视频的大模型包括Runway、Pika、Stable Video Diffusion等20多个产品。但Sora的诞生仍给业界带来不小的震撼,它所展现出来的能力几乎可用“碾压”来形容。
用户仅需输入简短一句话,Sora就可生成一段长达60秒的视频,远远超过市面上同类型级别的AI视频生成时长。在此之前,AI视频模型生成时长几乎在10秒以内,Sora的竞争对手Runway去年8月推出的第二代模型,每次只能生成最长18秒的视频。
60秒的视频时长,已超过抖音等短视频平台的平均视频时长,Sora的诞生也为以后短视频平台的内容生产提供了更大的可能性。
Sora保证视频时长的同时,也加强了视频质量的稳定性。之前的AI生成视频,即便只有几秒钟,也有较强的拼凑感,而Sora几乎能做到60秒视频一镜到底。OpenAI的演示视频显示,一名时尚女性走过喧闹繁华的东京街头,无论是背景建筑和街道以及人像的逼真程度,都保持一致性,哪怕是各种镜头的蒙太奇,也没有出现明显的失真情况。
OpenAI称,该模型不仅能理解用户在提示中提出的要求,还能理解这些事物在物理世界中是如何存在的。
基于这样的技术,已有网友设想,用多个1分钟视频连接起来生产一部微短剧甚至电影,同时保证其主题不变。“扔一部小说出一部大片”将成为现实。
预计8月向公众开放
虽然技术令人惊艳,但Sora的视频生成能力并不完美。已披露的视频显示,不少素材仍会“一眼假”,不符合物理学规律等AI生成的Bug(漏洞)不少。
以“幼狼玩耍”视频为例,在嬉戏打闹中,幼狼的数量从3只到5只来回变换,虽然动作连贯,但戏法般的效果让人摸不到头脑。另外在“一个老人吹蜡烛”的指令下,Sora生成的视频显示,老人对生日蜡烛吹气,火苗却不动;在呈现“红酒杯在桌上摔碎”的镜头中,杯子摔碎前,红酒已洒满桌子,Sora没有理解“先摔碎后洒酒”的逻辑。
在上海市人工智能行业协会秘书长钟俊浩眼中,Sora面临的技术挑战仍不少,与文本对话和图片生成相比,训练成本高昂、高质量数据集的缺乏以及视频描述的模糊性都将是Sora需要跨越的门槛。
专家普遍认为,Sora基本解决了相对逼真模拟、角色和视觉风格一致性、运镜稳定性等技术难点,但依旧未攻克难以准确模拟复杂场景和行为交互、难以准确理解因果关系和空间细节等缺陷。
或许是考虑到性能、安全等问题,Sora并未向公众开放,目前处于安全测试阶段。据外媒预测,GPT-4经过6个月的测试后正式向公众开放,预计Sora将于8月向公众开放。
从业者要有忧患意识
Sora的横空出世,引爆全网的讨论热度,“加速器”“里程碑”“颠覆技术”“颠覆行业”亦成为业内热议的关键词。
中信建投、国泰君安、申万宏源、招商证券等10家券商在研报中均表示,Sora是人工智能发展进程中的里程碑,预示AGI(人工通用智能)将加速到来,众多行业将迎来颠覆式变革。
天风证券认为,2000亿美元的短视频创作生态有望率先被颠覆,生成式AI在视频创作和世界模型的大踏步进步将实现对视频、3D、游戏等下游应用场景的渗透。
中信证券从投资角度判断,Sora背后的涌现能力为自动驾驶、设计等需要现实世界建模的行业提供了明确方向,硬件端的需求必然会随着多模态的技术进步不断提高,因此AI算力持续看好。
360集团创始人、董事长周鸿祎更是直接断言,Sora的出现,意味着AGI的实现将从10年缩短到1年。
公众不仅看到AI大模型所蕴含的无限潜能,也在某种程度上引发关于“Sora是否会颠覆传统影视业并取代专业人员”的讨论,致使部分影视从业者产生“恐慌”。
“Sora等文生视频技术的出现,或许会对传统影视业产生一定的影响,但不太可能完全颠覆。它更可能是作为一种补充和辅助工具而存在。”北京社科院研究员王鹏认为,传统影视业在内容创作、拍摄制作等方面拥有深厚的积累和经验,观众对于传统影视内容的审美和接受度也是难以替代的。
公共关系专家黄涛指出,Sora生产影视片可能替代一部分人工,在这之前,好莱坞演员和编剧工会发生过大罢工,争议的焦点之一就是生成式AI在影视行业的应用。
“技术对人工的替代,对工作机会的影响,是资本为了降低成本的一些做法,可能需要引起关注,但目前来看不会完全颠覆。”黄涛表示,Sora应当是一个工具,人类需要运用工具更好地生活。对于视频创作者来说,Sora的出现可能会带来更多机遇和挑战,相关从业者需要有忧患意识,顺势而为,不断学习和适应新技术,融合发展,加快学习和应用。
资本争夺战
Sora出手即“王炸”,AI生成视频创业公司无疑将面临巨大压力。Runway CEO瓦伦祖拉在社交媒体写道“Game On(游戏开始了)”,Stability CEO莫斯塔克由衷夸赞“奥特曼(OpenAI CEO)真是个魔术师”。
在Sora出现并占据大众视野之前,国内也曾有多家上市公司在多模态AI方面展开过布局。据不完全统计,2023年12月至今三个月内,已有包括万兴科技、博汇科技、易点天下、数码视讯、汉王科技、当虹科技、东方国信等在内的十余家A股公司,在投资者互动平台披露过视频生成模型领域的业务情况。
今年1月,字节跳动发布了MagicVideo-V2文生视频模型,通过文生图大模型先生成一张符合当前输入文本的图片,然后利用图生成视频模型生成简单的视频,并使用视频到视频模型,对当前的视频进行超分辨率技术合成,让视频更清晰细腻,同时保证时间上的连续性。
前几日,阿里云旗下魔搭社区(ModelScope)上线文本生成视频大模型,直接输入文字即可看到生成的视频效果,目前已公布9个官方案例。比如“A panda eating bamboo on a rock”,将出现2秒钟“大熊猫在石头上吃竹子”的视频。不过这一大模型并不成熟,用户以类似的“A panda dancing(跳舞的大熊猫)”为例,生成2秒钟的视频耗时长达32分钟,且输出的视频与“吃竹子的大熊猫”没有太大区别。
北京社会科学院副研究员王鹏表示,尽管国内大模型近年来取得显著进展,但与OpenAI、谷歌、英伟达等国际大公司相比,仍存在技术差距。
“国内企业要迎头赶上,需要在技术研发、人才培养和市场洞察上下功夫,同时还要考虑到国内外市场的差异性和合规性问题。”人工智能行业天使投资人郭涛认为,国内AI企业不妨与成熟技术团队建立战略合作,针对国内市场需求,进行产品和应用创新,实现弯道超车。
2月19日,春节后A股首个交易日,Sora掀起视频生成概念股涨停潮,以16.17%的上涨幅度领跑各大概念。20日,Sora概念股持续大涨,会畅通讯、易点天下、当虹科技、因赛集团、万兴科技等股实现“20cm”涨停。
Sora引发的火热的概念行情是否具有可持续性?诸多分析人士表达了相对谨慎的观点,认为“国内资本市场不会因此而持续燥热”。长期来看,大数据及AI板块已经成为必然的发展趋势,如果在热点过后股价出现回归,投资者则可以考虑逢低布局。
本版综合央广网、解放日报、光明网、中新网等