OpenAl Sora 视频生成技术-股票-壹米财经

行情频道：行情 / 知识 / 新股 / 要闻 / 基金 /

OpenAl Sora 视频生成技术

2024-02-19 09:30:12 收藏

股票大盘 a股行情今日大盘分析

1. 深度解析 OpenAl Sora 视频生成技术

OpenalSora, 与过去只能生成短而不稳定的视频片段相比，它可以生成长达一分钟，分辨率甚至达到1080P 或 2K的视频。

OpenAl 使用低维空间转换和四种Al工具，从复杂的材料转换为简单与传统的一帧一帧的绘制方式不同，坐标形式成为可能，并恢复为视频形式。

通过提高训练规模，即训练次数，Sora的视频清晰度和准确性大大提高。

2. 视频效率更高 Al 训练之路

OpenalSora 高分辨率(高达1920x1080) 训练时间更长，视频素材没有切割压缩。与其他AL相比，这种材料被分成了 256x256 只训练4秒的方法更有效。

Sora训练结果显示出几个独特的特点:出现(三维一致性、交互性、模拟虚拟世界)。出现是指当训练量达到很大水平时，开始出现一些优秀的特征，而这些特征在训练中并没有明确规定与传统的Al视频生成模型相比，Sora 视频更符合人物和场景的连贯性，并适应了相机的移动。这些特质在 Sora 视频的生成很明显，但在传统模型中很难找到。

3.OpenAl Sora生成的视觉变化

OpenAl 的 Sora 它展示了优于传统人工智能视频生成的技术，可以进行大动作，突然转移，擅长完成具有实际意义的动作，适应性高。

与之前的视频生成技术相比，Sora可以实现更长的视频生成，逻辑关系是连贯的。Sora采用的技术更适合制作长视频，场景可以在多人之间反复切换，保证主题不变，记忆连贯。

Sora具有更强的抗风险能力。为了避免错误，传统的Al生成视频只会采取非常保守的行动，而Sora敢于采取更大胆的行动，这大大提高了其产品的观赏性和趣味性，特别适用于视频生成场景（如电影制作、动画制作等），需要长时间、连贯的场景和丰富的角色动作。

4.Al 视频生成技术分析

在生成 Al 在视频方面，Sara采用了先生在简单背景下的角色动作，然后再生成背景的方式。但是这种方法有局限性，比如只能生成摄像头不动的画面。如果摄像头需要跟随移动，保持同步的难度会增加。

Sara 在训练过程中，虚幻引擎可以用来协助训练。有些场景和视角的变化类似于虚幻引擎的演示场景，但目前还不清楚是否真的使用。

Al视频生成的计算能力需求远远超过一张图片。与一张图片相比，制作一秒动态视频至少需要12到24帧，即生成12到24张图片。因此，制作一分钟的视频至少需要生成1800张图片。为了满足这一数量级的计算能力需求，保持图片不闪烁，角色动作和表达的稳定性不突变 Al视频生成面临挑战。

5.视频生成新的高维控制披露

使用OpenalSora技术，视频内容生成可以根据几个维度进行调整，包括物体动作、背景环境、相机视角等。其中，每个变量都可以通过相应的关键字轻松调整，具有显著的可控变化。例如，视频的风格可以通过一些关键字轻松改变。

OpenAlSora 使用图像拼接(patch) 与传统的图片拼接方法相比，制作视频内容可以实现更长的内容制作，效果更好。不仅如此，OpenAlSora 使用的 patch 该技术可以处理任何分辨率或尺度的图像，以满足更复杂的视频生成需求。

尽管存在一些问题和担忧，如版权问题、可能产生的恶意内容以及是否发布但据专家观察，OpenAlSora 它已经达到了商业应用的水平。其强大的功能和效果比许多现有的视频生成引擎更先进，

尽管在使用上需要更加谨慎，但在视频制作领域却有着巨大的潜力。

6. 因果分析和四重工具讨论

专家在介绍 OpenAlSora 强调可能存在的问题：模拟现实物体的运输在移动或物理反应中，可能会出现不准确的情况，例如，在视频中杯子倒水之前就会提前出现。这将影响视频生成的真实性。

专家认为 OpenAlSora 它的优点在于它的使用 Al 主要用于降维的工具神经网络将训练结果升级为像素空间的工具、视频标签工具和将用户简单句子转换为复杂定义的prompt 工具。

从投资的角度来看，尽管其他竞争对手可能会尝试模仿这些技术，挑战现有的视频生成领域，但实现效果和应对未知问题的能力仍然是关键。同时，在现有工具的帮助下，独立训练和使用，如 GPT 选择也与成本和效果有关。

Q&A

Q: 其他 Al 如何操作视频训练？

A:一般Al在训练过程中会将材料分成256乘256的小方块，以便在任何地方进行训练同时，每种材料的训练时间约为4秒。这主要是为了计算性能和成本。

Q:Openal Sora 在训练过程中有哪些特立独行的做法？

A:Sora在训练过程中使用视频的原始分辨率，最高可达1920乘1080的清晰度。与此同时，它在训练过程中并没有限制视频的长度。这意味着Sora可以获得更多更全面的训练信息。OpenAl 团队观察到，用高清素材训练效果更好。

Q:Sora有哪些不寻常的表现或收获？

A:当训练数据量级很大时，Sora算法会出现“涌现”效应，其视频会表现出一些优秀的特征。它包括三维空间的摄像角度稳定性，即说图片中的人物在移动时，摄像头的角度可以自然地变化，人物总能保持在合适的位置。此外，它还可以保持视频中元素之间的交互关系，如Al 你可以记得一个角色咬了一口汉堡，当汉堡再次出现在图片中时，它仍然保留着被咬的痕迹。此外，视频中画风操纵背后的细节也得到了保护持有，如生成 Minecraft 在游戏世界风格的视频中，视频的整体质量仍然非常清晰，但物体风格已经改变为 Minecraft 马赛克风格。

Q:通过对比 Sora 和其他 Al 在生成过程中有什么显著的区别？

A:与其它Al相比，Sora生成视频时，可以保证整个3D空间位置和比例的稳定性。例如，它可以稳定地捕捉角色移动和镜头移动之间的关系。相比之下，其他Al 在这一点上，可能无法保证一致性，比如Runway2，其角色的运动与镜头的运动不太一致。

Q:为什么大家都这么认为？ OpenAl Sora 很出色?

B:与以往的Al视频生成技术相比，Sora具有较强的动作和场景完成能力。在过去，Al生成视频通常调整角色的动作非常缓慢，并进行相对安全的动作，如翻译和转身，以确保没有大错误。然而，Sora敢于执行大动作，有很强的转移能力，如实完成一个或多个动作，给观众一个真实和完整的视觉体验，这是以前的 Al 什么都没做。

Q:目前生成视频 Al 如 Runway 和 Sora 有何对比?

A:一般认为Sora直接生成的视频效果更好，比如即使有场景转换，也能保持主题和记忆的连贯性和一致性。相比之下，Runway 这样的 Al 一次只能生成短视频片段，人工剪辑后拼成完整的视频，不能生成长而连贯的视频。

Q:能否从两种 Al 视频制作方法的原理解释了其优缺点

A:传统的Al视频生成方式，如Runway， Al将图片拼接成视频。它通常只能参考前一帧或前两帧的内容。连续性望远镜可能得到保证，但它不能很好地处理跨度较大时段物体的运动。对此，Sora的解决方案是同时考虑时间和空间顺序，即时间和空间代码。这使得Sora 能够更好地处理场景变换，无论是从人物的角度，还是场景之间的切换，都能保持主题不变，记忆连贯。

Q:Sora和 Runway 场景拼接有什么区别？

A:当 Runway生成视频时，每个镜头的生成都需要人工选择，然后拼接。但是Sora可以保持连贯性即使视角发生变化，视频也很自然。

Q:在Sora生成的视频中，有哪些元素可以帮助多个视频片段有意义地拼接在一起？

A:在Sora生成的视频中，时间顺序、空间顺序以及可能的角色和背景之间的区别可能有助于多个视频片段有意义地拼接在一起开始。这种拼接方式使生成的视频片段在语义上与即将生成的片段保持连贯，使整个视频具有连贯的时间意义。

Q:你认为视频合成和单画面合成背景有相似之处，还是原则上有区别？

A:后者的方法可以应用于视频生成。当现有的Al技术生成视频时，我们先在简单的背景下生成角色动作，然后生成相应的背景并将其粘合在一起。但这样做的问题是，只能生成相机不动的视频。如果你拍照机器在动，人在动，同时你的背景也要和这台相机同步，这样做起来比较困难。

Q:OpenAlSora是否可以结合游戏引擎的逻辑，比如计划好里面的物体运动，然后添加背景或其他运动？

A:有些 Al视频专家在推特上对此表示怀疑。他们认为Sora可能在训练过程中使用虚幻引擎进行辅助。但事实上，我们不知道Sora是否真的使用了虚幻引擎。

Q:在Al视频的开发过程中，计算能力的增加是由什么维度引起的，可以概述吗？

A:视频的计算能力需求远远超过图像。例如，我们都知道生成一个普通的视频，如果你想保持流畅，你可能需要12到24帧。也就是说，你一几秒钟的视频，你需要画这么多帧。然后，如果是普通的动态视频，一般是30帧。在这里，我们可以观察到计算能力需求从绘图到视觉的变化量级频。所以Sora现在最多可以生成60秒的视频，对应1800张图片，需要生成。然后，相应的需求也在发生变化，因为现在人们更习惯看短视频或YouTube 长视频，所以这个应用会有很大的爆发力。

Q:除了视频长度决定了计算能力需求的增加外，还有一些限制添加 Al 功能维还有其他可能增加计算能力的因素吗？例如 Al 要保证前后一张图片在生成视频时的一致性等因素？

A:确实有很多因素会增加计算能力的需求。例如，首先需要保持角色姿势的稳定性，这可以通过ctrllt来实现；其次，视频中的场景不能随机变化；然后是视觉深度关系，即物体和你的摄像头之间，哪个离你更近，哪个离你更远，也需要限制；再加上角色的面部问题，你添加一个维度，你相当于重新绘制；角色的配件，还需要稳定，包括服装。这种重加至少是七八重的限制，也就是说，必须有七八倍的计算量。这个重加至少是七八重的限制，也就是说，必须有七八倍的计算量。也就是说，你应该确保你的图片不会闪烁，你的角色动作不会突然改变，你的脸不会突然改变。

Q:在这样的训练模型中，使用的数据量是如何增加的？

A:一般公司真的做不到这么大的培训量。假如你看普通的4秒视频，你可以感受到视频的大小和时间长度。以Openal的数据为例，它以原始分辨率和原始时间将整个视频扔进训练中。因此，与其他公司相比，Openal的培训数据量级差异很大。如果时间一致，文件大小可能会有三四十倍的差异。

Q:请展示如何使用 OpenAl Sora控制视频中的关键变量

A:Sora采用了一种名为“motion brush"功能，相当于控制动画，的"mask"。在控制界面上，您可以选择您关注的区域，例如绘制的图片修改电影中不满意的部分，然后添加运动，无论是X轴还是Y 轴的运动。另外，你可以选择图片中不同的部分，不断添加运动，这就是OpenAlSora 控制关键变量的方法。

Q:与其他Al 视频相较，OpenAl Sora的控制参数有什么特别之处？

A:Sora在模型控制上变化主要体现在两个方面。首先，每个选定区域的控制实际上是基于像素级别的变化，而不是完整的物体动作。即使对于运动对象来说，模型也会考虑对象的像素变化，而不是整体。其次，Sora的训练方法是基于图片的分割，这使得它能够进入任意分辨率或尺度的图像训练。同时，Sora在生成过程中将分辨率分成几个部分 grid, 用于填充相应的像素，使其能够生成高分辨率的视频。

Q:有没有拟合问题？游戏引擎的场景和 Sora 如何比较输出效果？

A:目前，我们无法确切判断拟合是否存在问题，这就要求我们真正做出决定只有在使用后才能进行实质性的评价。同样，比较游戏引擎的场景和Sora 我们只能通过Openal选择性显示的部分来判断输出。可以注意的是， Openal在发布Sora时非常谨慎，并明确指出使用过程中可能出现的版权、公共危害等问题。

Q:OpenAlSora 时间数据是否考虑在视频生成过程中？这是否意味着它有能力理解物体运动的逻辑和规律？

A:是的，Sora确实关注时间数据，在视频制作过程中，它对前后时间序列的理解和表现是显而易见的。例如，在模拟人物行走的场景中，您可以很明显，整个画面会随着角色向某个方向移动。这暗示了它理解时间和空间变化的能力。然而，应该注意的是，虽然我们可以理解一些基本的因果关系，但在一些复杂的情况下，其模拟存在明显的问题。例如，在倒水杯完全倒下之前，水已经提前出现了。这类问题揭示了Sora在协调主体(如人物)与环境的关系时仍然存在一些困难。

Q:在 OpenAl Sora模型的关键是什么？ Al 工具?

A:Sora 模型中使用的关键 Al 主要有四种工具。一是将视频降低到低维空间 Al, 该工具被训练成一个神经网络。二是可以将低维表示转化为原来的高维表示 (pixelspace) 另一个视频 Al 。这两种工具一正一反，视频生成的整个过程只有在完成后才能完成。三是Al用来标记视频，可以理解视频内容并给出相应标签的工具，即实现videocaptioning的工具。最后一个是将用户输入转换为复杂编码的Al，它通常被称为prompt，可以将用户的简单语言需求转化为深度学习模型可以理解的复杂编码。SEVEN研究记录