OpenAI推新大模型，可根据文本生成60秒视频

2024.2.16

原文地址：http://news.sciencenet.cn/htmlnews/2024/2/517566.shtm

·Sora可根据文本指令生成60秒视频，可生成具有多个角色、特定类型运动及精确主题和背景细节的复杂场景，并在单个生成视频中创建多个镜头，准确保留角色和视觉风格。

·OpenAI正在教AI理解和模拟运动中的物理世界，目标是训练模型来“帮助人们解决需要现实世界互动的问题”。不过，Sora在提示空间细节方面会混淆左右，也无法理解因果关系的具体实例。

Sora生成的视频：几只巨大的猛犸象穿过一片白雪覆盖的草地，长毛在风中轻轻飘动，远处是白雪覆盖的树木和大山。

开发出热门聊天机器人ChatGPT后，OpenAI继续在生成式人工智能上玩出新花样。2月16日，OpenAI推出新的AI大模型Sora，该文生视频大模型可通过快速文本提示创建“逼真”和“富有想象力”的60秒视频。

OpenAI表示，Sora能够根据文本指令生成长达60秒的视频，同时保持视觉质量并遵守用户提示。Sora可生成具有多个角色、特定类型运动以及精确主题和背景细节的复杂场景。该模型对语言有深刻理解，能够准确领会提示，生成令人信服的角色。Sora还可以在单个生成视频中创建多个镜头，准确保留角色和视觉风格。

Sora生成的视频：一只猫叫醒了正在睡觉的主人。

“这个模型不仅能理解用户在提示中要求什么，还能理解这些东西在现实世界中是如何存在的。”OpenAI表示，正在教人工智能理解和模拟运动中的物理世界，目标是训练模型来“帮助人们解决需要现实世界互动的问题”。

除了能够仅从文本指令生成视频外，该模型还能够利用现有的静止图像从中生成视频，精确地将图像内容动画化，也可以利用现有视频进行扩展或填充缺失的帧。

Sora有时会生成不合情理的动作，譬如在跑步机上倒着跑步。

不过，Sora仍在开发中，存在明显“弱点”，特别是在提示空间细节方面会混淆左右，也无法理解因果关系的具体实例，比如制作了一个视频，视频中有人咬了一口饼干，但之后饼干上没有咬痕。

Sora生成的视频：五只小狼在一条砾石路上嬉戏追逐，周围长满了草。Sora的缺点是动物或人会凭空出现，特别是在包含许多实体的场景中。

Sora生成的视频中，动物或人会凭空出现，特别是在包含许多实体的场景中。此外，Sora难以精确描述随时间推移发生的事件，例如跟踪摄像机的特定轨迹。

Sora生成的视频：一把普通的塑料椅子在沙漠中被发现，人们小心翼翼地挖掘并掸去沙子。在这个例子中，Sora没有将椅子建模为一个刚性物体，导致不准确的物理交互。

对于模型安全性的考量，OpenAI表示，计划与一个专家团队合作测试最新模型，密切关注错误信息、仇恨内容和偏见等。OpenAI还表示正在开发帮助检测误导性信息的工具，比如检测分类器可以判断视频是何时由Sora生成的。其文本分类器可检查并拒绝违反使用政策的文本输入提示，例如极端暴力、性内容、仇恨图像、名人肖像等。“我们还开发了鲁棒性的图像分类器，用于审查每个生成视频的帧，以帮助确保它在显示给用户之前符合我们的使用政策。”

OpenAI表示，Sora将首先提供给网络安全教授，以评估产品的危害或风险。一些视觉艺术家、设计师和电影制作人也能获得Sora的访问权限，以此收集关于创意专业人士如何使用Sora的反馈。