七问Sora：文字生成视频大模型火爆我们该如何面对-天津网-北方网

OpenAI发布的由Sora生成的视频截图。

　　天津北方网讯：日前，OpenAI（美国开放人工智能研究中心）发布首个AI（人工智能）文字生成视频大模型Sora，仅需输入文字指令便能创造出既逼真又充满想象力的场景，还可生成长达1分钟的超长视频。

　　Sora能做什么？对科技进步、行业及普通人的生活有何影响？记者连日来走访了多位专家。

　　Sora牛在哪儿？

　　中国新一代人工智能发展战略研究院研究员、南开大学计算机学院副院长、网络空间安全学院副院长刘晓光教授在接受记者采访时表示，去年文本模型ChatGPT大热时，也涌现了一大批采用生成式人工智能方法的图像、语音和视频生成产品。其中输入文字脚本输出视频的产品包括视频生成人工智能模型Gen-2、Pika等，但这些产品生成的视频仅几秒钟，且画面和内容品质较低。

　　“Sora一夜间火遍全球，原因一是从大众视角来看，放出的Sora演示视频长度可达60秒，画面不但达到电影品质，而且用到一镜到底、多角度摄像等拍摄技巧。二是从技术角度分析，Sora最重要的突破是对物理世界的理解和重构。这次Sora放出的视频最惊艳的是对所生成物理世界细节的把握，有人称之为‘世界模拟器’。三是从商业推广角度来看，这是OpenAI对竞争对手谷歌的一次成功阻击——在Sora发布前2个小时，谷歌发布新一代多模态大模型Gemini 1.5 Pro，它可以支持最长100万字的上下文，在性能上超越OpenAI的最新语言模型ChatGPT-4 Turbo，但Sora发布后，风头直接盖过谷歌。”在刘晓光看来，OpenAI在不确定前景下敢尝试和投入、“耐得住寂寞”坚持做对的事，“这种决心和毅力十分可怕和可敬，所以很多人认为OpenAI可能还有不少‘大杀器’，如GPT-5等。”

　　Sora发布的作品制作精美，令不少人感叹“视频生产颠覆性革命来了”。

　　“Sora这类基于生成式人工智能的视频生产成本远低于目前。”刘晓光说，Sora打破了技术“天花板”，证明低成本、高品质的视频生成是可行的。

　　“Sora是继大语言模型之后人工智能技术的又一个重大突破。”天津大学自然语言处理实验室负责人熊德意教授表示，Sora不仅突破了以往视频生成的长度限制，而且显著提升了视频生成的逼真度，扩展了视频生成的灵活性：生成内容灵活，可文生视频、文生图、图生视频、视频前向后向延展等；生成形式灵活，生成视频时长、分辨率、长宽比均可调节。

　　南开大学软件学院特聘研究员孙羽菲告诉记者，目前Sora还在内测阶段，并未向公众开放使用，从OpenAI晒出的Sora生成视频作品来看，她感觉视频效果初看还不错，视频内容比较符合提示文本想表达的意思，而且镜头流畅、效果逼真，有些动画类的视频还颇具想象力，但细节仍有不少和真实世界不相符或不合理的地方。

　　南开大学软件学院在读博士研究生钟震宇认为，OpenAI之前研发过Dall-E等很多高质量生成图片的模型，而视频只是图像的序列，这次Sora爆火是因为其生成质量得到了极大提升，生成视频的真实程度比以往的方法好，“扔进一部小说产出一部大片”将成为现实。“不过根据目前给出的展示视频，虽然效果惊艳，漏洞也有很多，尚未做到以假乱真。”钟震宇说。

　　“Sora还没完全解决以ChatGPT为代表的生成式人工智能目前被诟病最多的‘一本正经胡说八道’的问题，已披露的视频显示其有不少不符合物理学规律的地方，其根本原因是生成式人工智能的基础是概率模型。”刘晓光解释，ChatGPT的原理类似“文字接龙”游戏，看似有“智慧”的AI给出的答案，实际上是一种概率最高的词句组合，AI模型并不能真正理解所产生语句的含义。

　　Sora发布后，有网友表示“电影业要彻底颠覆了”“动画师、3D（三维数字化技术）艺术家们有麻烦了”，甚至有人已开始“悼念”整个行业。

　　对此，天津美术学院影视与传媒艺术学院副院长余春娜教授说：“依据我对Dall-E、Pika等AIGC（人工智能自动生成内容）软件的了解，现阶段AIGC最大的问题在于其精确性与细节要求尚无法达到人工团队的程度，这对大规模长期的影片创作而言很重要。”余春娜说，对于内容细节的要求和把握，AIGC的理解力尚有很大进步空间。另外，在她看来，仅从电影叙事上来说，AI目前似乎理解不了“节奏”是什么，“从发布的生成视频看，无论Sora还是Pika给出的宣传视频，在运动速度上都近乎一致，尤其在人物表演上，明显AI目前还不能理解表演是什么。”

　　Sora如何学习？

　　AI视频如此逼真，Sora是怎样学习到如此精致“画功”的呢？熊德意表示，通过OpenAI公布的Sora技术报告中有限的关键文字，并将其与已被广泛研究的OpenAI研发的人工智能语言模型GPT-3类比，可试图理解为：Sora和GPT-3都采用Transformer（一种基于自注意力机制的神经网络模型）作为核心架构，两者生成能力的突破都得益于一个重要因素——规模扩展，即数据量、参数量、计算量协同扩展。规模扩展使GPT-3从海量文本数据中学习到语言的统计规律，继而使其进一步捕获到隐藏在语言背后的逻辑、推理、蕴涵关系、长距离依存关系、知识等。

　　余春娜认为，人工智能的发展是不断训练进步的结果，在与人的交流过程中不断得到反馈与修正，通过数学模型使其能更加“理解”人，最终量变产生质变。

　　Sora带来哪些巨变？

　　“从通用人工智能角度看，Sora的诞生补齐了一个关键板块，使文生文、文生图、文/图生视频、视频生文成为可能，从而形成文本与视觉模态的完整闭环，将人类的语言和思维世界与物理世界对接起来，未来有望与大语言模型合力发展，更好地解决符号奠基、世界模型问题，推动人工智能快速进入具身智能时代。”熊德意说。

　　“ChatGPT能让模型通过文本数据理解人类的知识，可视为通过读书来学习和掌握人类现有的知识。Sora是通过视频来认识和理解世界，进而建立AI对世界的认知模型，这可看作AI通过直接‘观察’世界来认识和理解世界，而不再局限于人类已有的知识，这可能产生一些完全不同于人类的新认识。如果说ChatGPT是‘读万卷书’，Sora就是‘行万里路’，它通过直接感受外部世界形成自己的认知模型。”刘晓光认为，Sora的成功表明AI大模型能够通过对视频数据的学习，形成自身对物理世界的认识，这可能是实现通用人工智能的重要一步。此外，丰富的视频、图片、语音等多模态数据将可服务于AI大模型的训练，从而提升AI大模型的“智慧”水平。Sora的成功还能进一步促进竞争、激发行业活力和创新创业热情。

　　“在人工智能的加持下，个人或企业的成功或将不再取决于其‘短板’，而是取决于其最擅长的那部分，‘木桶理论’或将颠覆。”刘晓光解释说，就像ChatGPT让文字处理、知识问答、陪伴聊天等服务的技术门槛大幅降低一样，Sora也会大幅降低视频、图像处理的技术门槛。同时，使用AI技术的成本会大幅降低。随着人工智能不断演进，今后每个人都会拥有自己专属的AI“助理”，把人们从繁琐、重复的事务中解放出来，投入到更擅长、更具创造性的领域。在未来创新创业中，个人或企业只需聚焦自身核心业务、打造“长板”，其他部分则可外包给相应专业机构完成，“那时社会上会出现大量专注于某一领域的专家和深耕细分领域的‘小而美’企业。正处于数字化转型关键期的我国制造企业，应根据行业特点和企业需要加快布局私有模型和行业大模型。”

　　“AI对未来人类生活能发挥什么作用，归根结底在于如何找寻人与技术的平衡与关系。”余春娜说，较为理想的是AI在各方面都能大幅提高人类的生活质量，反之则是人类的位置被自动装置所挤占、给人带来危机感，“所以我们在切合实际地利用技术对象的同时，也要注意保留自身独立于技术对象的位置。”

　　何时能大规模商用？

　　“Sora目前还没完全准备好商业化，包括支持商用的设备、人员等资源——例如视频生成需要的硬件资源远远高于ChatGPT的文本生成，推出它的一个重要原因是要阻击谷歌的Gemini 1.5 Pro。不过，OpenAI应该会利用当前热度加速Sora的商业化进程，也许几个月后就会有结果。”刘晓光说，有学者认为Sora的成功最重要的3个因素是优秀人才、高质量数据和大量算力支持。其中人才是最重要的，决定了Sora具备正确的技术路线和强大的团队执行力。从公开资料看，Sora团队有15人，都是世界一流青年人才，该团队经过近1年不分昼夜的工作才完成Sora。在世界范围内，目前仅少数企业完全具备类似的资源条件。未来随着相关技术的成熟和相关开源软件的出现，文生视频才可能大为推广和应用。

　　熊德意表示，任何一种新技术诞生都不可避免面临诸多问题，关键是其出现是“0到1”的突破，未来将有“1到N”的不断更新迭代和升级。Sora同样如此。目前生成的视频存在违背物理定律、时间维度上前后不一致、多个物体同时出现等问题，这些问题将会激发更多的研发和投入，从而进一步优化其背后的算法，深入理解其能力及规模扩展效应，推动Sora为代表的文生视频技术的大规模商业化应用。

　　“大规模商业化应用除了和模型能力相关，还和安全性、合理性等很多其他因素相关。”孙羽菲认为，Sora距离大规模商业化尚有一段距离，“现在视频中还不可避免出现一些违反现实世界的情况，会成为商业化的阻碍。”

　　钟震宇则认为Sora距离大规模商业化应用“不远”：“因为目前大家对此非常感兴趣，会有很多人愿意付费尝试。我觉得它在展示方面会有很大应用价值，比如之前只能通过文字向用户描述的东西，现在可以通过视频向用户展示了。”他也坦言，Sora应该用了大量真实世界的视频进行训练，而收集这么多视频数据要耗费巨大财力和人力，只有大公司才能办到。

　　中国版还有多远？

　　OpenAI目前在竞争力上一骑绝尘，中国要如何追赶？天津的机遇何在？

　　2月22日，天津市生成式通用智能专家咨询委员会成立大会暨2024生成式智能创新与应用高端论坛在天开高教科创园举行。专家咨询委员会会聚了53位两院院士、人工智能战略科学家、行业领域技术专家、企业家。

　　刘晓光入选该专家咨询委员会委员。他介绍，会上发布了生命健康、教育、环保等13个垂直领域场景与智能模型，为AI技术落地提供了优秀的应用场景，助推我市人工智能产业做大做强。

　　2月23日，依托中央广播电视总台“央视听媒体大模型”的中国首部文生视频AI动画片《千秋诗颂》启播。这是首部以我国自主AIGC技术支撑制作的系列动画片，综合运用可控图像生成、人物动态生成、文生视频等生成式人工智能技术最新成果。

　　“《千秋诗颂》迈出了第一步，后面会不断迭代更新。在Sora证明当前技术路线可行后，国内外相关企业一定会跟进，在此赛道上加大投入。但要达到Sora同样水平，需要时间和经验的积累。我估计达到Sora水平的中国版文生视频大模型诞生可能要6个月左右或更长。”刘晓光说，在AI领域，作为第四次工业革命最重要的突破技术之一，AI技术最终要与工业和产业相结合，推动产业升级，“总体来看，目前只有中美两国全部具备算法、算力、数据和场景这4个发展AI产业的必备要素。从这个角度来说，我国是有可能发挥制造业大国的优势，率先实现制造业数字化、智能化升级，推动新质生产力落地。”

　　“中国版的Sora模型何时到来，那要看中国版的ChatGPT何时到来。过去一年，国内大语言模型发展迅速，甚至出现百‘模’大战的热闹景象。但‘热闹’较多的是模型发布和上层应用，底层基础技术研发较少。”熊德意说，天津拥有人工智能智力和算力上的优势以及天津大学、南开大学、国家超级计算天津中心等单位，在人工智能领域有深厚积累，把这些积累与顶层设计相结合，将是推动天津AI智力与算力优势转化为新质生产力、牢牢抓住这次人工智能机遇的关键。

　　“从目前天津的资源禀赋和产业特点来看，暂时不建议追踪ChatGPT、Sora等热门通用AI大模型，可以考虑发挥天津工业基础雄厚、港口便利的优势，主攻行业大模型和垂直类大模型，让AI技术推动天津产业的数字化、智能化升级和产业提质增效。”刘晓光建议。

　　哪些人“饭碗”会被夺？

　　有分析人士认为，Sora再次凸显人工智能技术进步对现实生活和传统行业的深远影响。人工智能在视频生成领域的巨大发展前景为塑造影视产业新业态打开大门同时，恐将颠覆现存影视产业。

　　“当前产生AI替代焦虑的一个重要原因是自2022年年底ChatGPT发布以来，生成式人工智能技术的发展及其在各领域的应用速度前所未有地惊人。”刘晓光说，应对上述焦虑，一方面，不必恐慌，我们应正视并学会使用和驾驭AI这种帮助人类发展的技术工具。AI时代更需要个人的创新、创意和深度思考，这是AI无法代替人类的。另一方面，技术进步必然会带来社会变化，我们要树立终身学习的理念，不断提升自身能力，适应社会变化。

　　“机器翻译技术的发展也曾威胁到翻译从业人员，但翻译行业明智地选择拥抱新技术，现在的译员基本都会使用机器翻译技术提升自己的翻译效率。未来的视频从业人员同样也可以拥抱Sora为代表的文生视频技术，提升视频制作的效率和效果。”熊德意说。

　　“其实这些领域最重要的是创意、内容，这是目前Sora不具备的。而且，现在Sora生成的视频中仍存在不少不符合真实世界规律或常识的地方，令生成的视频无法直接使用。这和ChatGPT类似，作为辅助工具来使用还不错，如果将其生成内容直接使用还存在不少问题。”孙羽菲说。

　　“使用Sora的一个重大问题是不能按需修改。例如视频工作者想调亮某个地方，可直接使用专业软件进行准确修改。但若使用Sora，只能用文字描述需求，再寄希望于模型能理解需求并进行改正，很不靠谱。”钟震宇说。

　　如何监管风险？

　　科技领域颠覆式创新不断涌现，如何实现拥抱技术进步和确保社会安全的平衡，越来越受到各界关注。

　　“Sora和其他生成式AI模型一样，都会在真实性、准确性、安全性、版权、伦理等多方面带来挑战和风险。”孙羽菲说。

　　“目前不知Sora是否采用了类似ChatGPT的人类价值对齐技术，以规避不合规内容的生成。未来随着技术的不断发展和突破，文生视频的监管与治理将会很重要，以避免以假乱真的AI生成视频干扰真实的信息传播。”熊德意说。

　　“科技是把双刃剑，隐私与安全问题是生成式AI面世以来一直存在广泛争议的问题。如何在确保技术健康发展同时保护个人和社会的利益不受侵害，需要社会各界齐心协力共商解法。如加强监管和出台相关法律框架、促进技术透明性和可解释性、加强数据保护和安全、防止技术手段为不法分子滥用、推动技术伦理和道德的研究与教育、培养行业的伦理意识与责任感、促进社会参与及保持与公众对话等，人工智能的发展应该是开放、透明和多元化的过程，这能帮助人们减少对技术的误解和恐惧，增加人工智能技术的可信度与可监管程度。”余春娜说。

　　对策与建议

　　作为国内长期从事国际生物安全治理研究的青年学者之一，天津大学法学院教授薛杨认为：若对Sora等生成式人工智能技术不加以规范，其误用滥用将损害人的尊严和平等、侵犯人权和基本自由、加剧歧视和偏见、冲击现有法律体系，对政府管理、国防建设、社会稳定产生负面影响。

　　例如：科技和媒体行业间大规模争夺版权的诉讼风险、威胁个人隐私的网络攻击和新型电信诈骗、基于虚假信息的认知塑造对社会秩序的破坏等。

　　“我认为，对以生成式人工智能技术带来的新型AI风险治理，应坚持总体国家安全观，统筹发展与安全，坚持伦理先行、资本与监管同步、本国与国际同步，特别是要利用好国际性平台进行协同治理，推动设立国际人工智能机构，统一制定全球AI治理规则、管控AI风险、协调各国行动。”

　　薛杨提出治理对策：一是抢占人工智能科技创新制高点，同时加强风险评估研究，如出台针对基础模型的国家透明度标准，加强生成式人工智能技术的透明度；二是通过制度建设、风险管控、协同共治完善我国生成式人工智能技术监管体系，如培育人工智能企业和专家的自我监管、自我约束的科研文化，国内人工智能系统人工智能产品的模型安全性经研究机构评估后方可面向市场投放，明确开发企业用于人工智能安全研发的预算比例；三是加快制定出台我国生成式人工智能技术法律、法规、规章和规范性文件，规范生成式人工智能技术的研究开发，为我国生成式人工智能技术产业健康和可持续发展提供坚实的法治保障；四是鼓励国际合作，推动形成具有广泛共识的国际人工智能治理框架和标准规范，培育具有国际视野、学科交叉的创新人才和领军团队，提升我国生成式人工智能技术安全的研究能力和技术储备。（津云新闻编辑刘颖）