Sora

Sora为何没能诞生在中国？

没声音，再好的戏也出不来。图片来源：由无界AI生成在提示框内输入“中世纪小号手”，打开音效开关键，点击生成视频，一个4秒的AI生成视频便跃然于屏幕上。人们不仅能看到一个身穿中世纪宫廷服饰乐手的画面，还能听到乐手吹小号的声音。北京时间3月10日，硅谷一家AI初创公司Pika lab（以下简称Pika），推出自研视频生成模型的新功能，可同时生成画面和声音。此前，人们看到的所有AI生成的视频都没有声音。此功能尚未向公众开放，但足以让人见识到AI的进化之快。今年2月16日，OpenAI发布文字生成视频的大模型Sora。根据简单几句提示，Sora便能准确“理解”文本，生成长达60秒的视频，引发全球关注。一些业内人士将Sora的问世称为视频生成领域的“ChatGPT 时刻”。当地时间3月8日，历经几个月的“宫斗”大戏后，OpenAI的创始人山姆·奥特曼重回董事会，继续推进公司实现通用人工智能（AGI）的使命。 Sora的横空出世到底意味着什么，我们距离AGI还有多远，AI的下一步将走向何方？ “大力出奇迹”的再次验证发布Sora之前，OpenAI并未向外界透露入局文生视频的想法。直到今年年初，全球文字生成视频赛道的焦点，仍集中在Pika、Runway、Stability AI等初创企业身上。去年11月底，Pika初代文生视频产品发布，用户输入关键词“马斯克穿着太空服，3D动画”，卡通版的马斯克随即出现，在他身后，美国太空探索技术公司（SpaceX）的火箭升入空中，视频只有三四秒，清晰度和流畅度已远超其他产品。彼时，Pika联合创始人孟晨琳接受采访时分析说，“为什么GPT没有用于视频，可能因为他们的资源、人力都集中到了文本模型上。” 两个多月后，Sora惊艳亮相。其技术负责人最新展示的视频中，输入“穿越博物馆的飞行之旅，沿途欣赏众多绘画、雕塑以及各式各样的美丽艺术作品”，AI便生成60秒的长视频，人们跟随镜头，从空中俯冲至博物馆内，在多个画廊、房间穿梭，还会从雕塑边擦身而过。新加坡南洋理工大学计算机学院助理教授刘子纬对《中国新闻周刊》说，OpenAI入局文生视频赛道，并不令人意外。OpenAI始终标榜要实现通用AGI。“朝着AGI发展，AI不仅要‘读万卷书’，还要看到世界上的种种物理现象。OpenAI一定会在文本、图像、音频、视频等多模态领域发展。视频是发展多模态最重要的一步，包含了世界运转的基本规律。” Sora生成的视频效果仍令刘子纬感到震撼。刘子纬3年前便开始研究AI视频生成。相较文字和图片，AI视频生成的技术难度最大，对视频数据的分辨率、内容流畅度、一致性要求高，算力需求大。Sora之前，市面上的同类型产品，大多生成的视频清晰度不高，还会出现画面闪烁、人物变形的情况。Sora生成的视频能保持很好的三维一致性。生成的内容，比如水、云的运动，小鸟在林中飞翔等，主体与环境的交互能一定程度上展现物理世界的真实性。 OpenAI在其官网发布的Sora的技术报告中，强调了Diffusion Transformer（基于Transformer架构的扩散模型，以下简称DiT）的重要性，这是由两种模型合成的新模型。两种模型的“合璧”是Sora得以成为爆款的关键。Diffusion（扩散模型）是一种有效的内容生成模型，此前在图片生成领域已展现出强大能力，能生成逼真且高质量的图片。Transformer是GPT这类大语言模型的基础架构。ChatGPT能对答如流，便是因为这一架构能通过预测下一个token（文本的最小单元）出现的概率，更好捕捉上下文信息，生成更符合逻辑的文本。清华大学智能产业研究院首席研究员聂再清对《中国新闻周刊》解释称，OpenAI进行视频数据训练的一大“秘籍”，就是将不同尺寸、分辨率的视频拆分成patch（视觉补丁，相当于token），然后直接输入模型学习。OpenAI官方介绍，Sora可以采样宽屏1920x1080p、垂直屏1080x1920p及介于两者间的所有视频。此外，OpenAI还为训练的视频集中生成字幕，可以提高文本保真度及视频的整体质量。但业内共识是，DiT模型是个公开的秘密，底层技术上，Sora并没有创新。早在2022年年底，DiT就被提出。当时，美国加利福尼亚大学伯克利分校博士生威廉·皮布尔斯和纽约大学计算机学院助理教授谢赛宁联合发表论文，在文生图领域，创造性地将Transformer与Diffusion融合，一度引发学界轰动。刘子纬向《中国新闻周刊》介绍，去年起，国际上已有团队在探索利用DiT架构训练文生视频模型，包括其所在团队。“这是很自然的选择。” Sora官网发布的部分由文字生成的视频（截图）彼时，文生视频模型有多条技术路径，但受限于算力和数据，DiT路径尚未走通，学术团队和创业公司难以全力投入。OpenAI选择了一条少有人走的路。在刘子纬看来，“Sora背后，与其说是模型的突破，不如说是OpenAI大模型系统设计的胜利”。大模型系统设计，涵盖训练数据的细节，OpenAI在算力、人才组织架构上的积累等。这些因素最为关键，但OpenAI在公开信息中几乎只字未提。 Sora复制了ChatGPT的成功经验，再次验证了“大力出奇迹”的暴力美学，以及OpenAI“遇事不决，扩大模型”核心价值观的可行性。在清华大学计算机系副教授、人工智能初创公司壁智能联合创始人刘知远看来，Sora像是AI视频生成的“GPT-3时刻”，它证明数据的价值，高质量、大规模的数据能训练出一个文生视频模型。中国科学院深圳先进技术研究院数字所研究员董超长期研究底层机器视觉，目前，正与团队研发多模态模型。他向《中国新闻周刊》强调，选取哪些数据、如何筛选、如何标注，直接影响模型生成的效果。想要大模型生成高质量的视频，要求训练数据分辨率高，场景细节丰富，人、物、景占比协调等，如果一些场景转场太快，也要被剔除。 Pika联合创始人孟晨琳也提到，一些电影中有很多漂亮的视频，但如果大部分都是人站着说话，动作单一，也不是训练大模型的优质数据。此外，版权问题，也会影响企业收集到足够多高质量的视频。在董超看来，数据背后，人才团队极为重要，“大模型的训练绝不是看上去那么简单，没有经验根本调不通，通常要团队里最优秀的人来做这件事。国外许多科技公司的顶尖AI人才，都会在一线亲自处理数据，写代码”。据OpenAI官网介绍，Sora的核心团队共15人。公开资料显示，团队的成立时间尚未超过1年，三位研发负责人中，两人都是2023年从加利福尼亚大学伯克利分校博士毕业，其中一人便是前述DiT论文的作者之一威廉·皮布尔斯，另一位蒂姆·布鲁克斯曾在谷歌工作近两年，在伯克利读博期间，主要研究方向就是图片与视频生成。布鲁克斯和另外一位研发负责人阿迪亚·拉梅什都是OpenAI开发的文生图模型DALL-E 3的创造者。从GPT-3、GPT-3.5再到GPT-4，OpenAI积累了丰富的大数据训练、生成与治理能力，这是支持Sora的“基础设施”。“Sora团队只有十几人，就说明，OpenAI给他们提供了重要的底层支持，组织架构、人才管理、基础设施，这才能让有想法的人，真正做出能影响世界的成果。”刘子纬对《中国新闻周刊》说…

2024-03-15 • 数字经济
9.0K0

Sora

Sora为何没能诞生在中国？