OPEN 人工智能模型、可能的技术结构和对行业未来的影响是什-股票-壹米财经

行情频道：行情 / 知识 / 新股 / 要闻 / 基金 /

OPEN 人工智能模型、可能的技术结构和对行业未来的影响是什

2024-02-24 18:40:15 收藏

今日股市行情 A股行情分析

【主持人】：下午好，投资者们！我是天风海外李泽宇，负责天风海外美股，OPEN 根据OPENN，AI发布了新一代非常好的Sora模型 AI的说法不仅是文生视频模型和图生视频模型，也是通用人工智能模拟模型未来的关键第一步。出来后效果非常震撼，包括新时代的开始，包括内容强度。前10秒有稳定的镜头。包括丰富的物理交互。

我们还分析了OPEN 人工智能的技术结构包括研究人员的研究背景，包括可能的技术路径，我们看到二级市场反馈非常快，昨天世界领先的内容创作工具Adobe也上升到2000亿市值，Adobe视频预期很高，你也可以看到，未来的内容创作工具、计算能力和API呼叫将带来机会。

今天，我很幸运邀请世界顶尖的互联网制造商和机器视觉专家与我们讨论OPENN 人工智能模型、可能的技术结构和对行业未来的影响是什么？你好，专家。我从Q&A开始。第一个问题是你认为OPEN 对于国内外从事多模态大模型的人来说，AISora出来是什么判断？与之前的视频创作模型相比，它提升了多少代？能力的提升范围是什么？

【嘉宾】：我觉得它的模型本质上是一样的。它的规模比每个人都大。它产生了十秒钟。×1920×1080年的视频符合他们的风格，每个人都有类似的模型。风格相似，技术领先一两代。他收购的游戏公司应该做这件事很长一段时间，这超过了其他人。

【主持人】：整个模型的架构相似。谷歌模型训练需要多少数据？计算能力架构需要多少？训练的量级是什么？

【嘉宾】：谷歌里只说了一句话，他们用了3亿个5秒长的视频。我们自己训练的时候，基本上一两天就能看到结果，一般一两周就可以了。

【主持人】：OPEN 人工智能论文也很有趣。他比较了训练计算能力的1倍、2倍、8倍和16倍，效果似乎有了很大的提高。在历史上行业普遍的模型培训中，如果计算能力没有得到如此大的提高，以前没有出现的原因是什么？是一定要加入Transformer，还是因为Token有限，没有高质量的合成数据，还是架构上有本质的困难？OPEN大家都看到了人工智能可以大大提高培训规模，其他行业也可以快速模仿，你认为你以前没有提高模型计算能力或暴力水平的原因是什么？未来会朝这个方向发展吗？

【嘉宾】：这个数据有门槛，主要是数据问题。我买了这个游戏公司很久了，因为视频质量参差不齐，因为图片量大，很容易做出高质量的图片。做视频的时候，会有很多垃圾视频做不到。为什么计算能力提高效果好？视频训练不像图片那么大，视频比图片小几倍，一周训练图片等模型，视频相对较慢，我们使用相同的计算资源，训练视频模型，肯定会更快。

【主持人】：原视频的计算能力比图片提高了30帧吗？×5秒提高100倍思考，现在OPEN 人工智能跨越时间思考，比图片提升量级还是很大的吗？

【嘉宾】：许多现成的图片模型进入视频模型，时间维度会导致大量的计算资源，非常耗费计算资源，他做时间和空间，更小，更紧凑，一方面可以节省计算资源，另一方面可以使用更多的帧，他节省资源可以生成更密集的对象。

【主持人】：OPEN 人工智能有一个长视角可以继续，根据他们自己的白皮书，或限制在1分钟，这真的是一个大突破，3秒，5秒到1分钟，未来的时间长度可以继续改善，或时间改善，时间改善可能需要做很多层次的集中，计算能力将是指数级的改进，或者有更好的技能可以绕过，这样可以大大提高视频的长度？

【嘉宾】：以后肯定会有更好的技巧。他说只生10秒，不是一次生60秒。

【主持人】：它更像生成关键帧的原始生成。

【嘉宾】：这一定是趋势。

【主持人】：当前模型在推理中的消耗量级是多少？根据我们的技术路径，我还在电脑上运行了一些生图模型，生成了5秒的视频。它是用秒乘以帧，还是可以简单地理解为普通卡，推理可以在很长一段时间内完成？这也是我们非常感兴趣的数据。未来有可能吗？ B和To 很多人以低成本快速使用C端？

【嘉宾】：优先做To B端，现在成本一定很高，可以计算成本，现在说架构，我们可以计算多少代码，可以假设8倍空间下沉，时间也可以有4倍，8倍空间，可以计算十秒视频，可以计算多少代码，如果他在整个长度，可以列出GPT生成的文本长度，你可以估计你使用了多少显存费用。如果你这样计算，我们会发现成本很高，你可能不会马上把它放出来给你试用。如果其他公司想做这件事并赚钱，他们必须先做To B，如何降低推理成本是未来的事情，如果有人跟进，有人做开源，应该很快做，现在关闭，我们不知道怎么做，所以不会一下子做出来。

【主持人】：在传统的电影行业，一部电影要花费数千万美元，未来可能不需要那么高的成本，会取代一些特效和专业的商业拍摄，会有一些好的成本替代者，会去To C的环节铺，OPEN 在美国大选之前，人工智能确实需要做很多优化和安全的工作。我也看到OPEN 包括图像负责人在内的人工智能有几个硬件架构，为图片推理，优化招人，OPEN 在成本持续优化中，人工智能项目可能会出现，To B往往大量To C铺开，这是最有可能的。

ChatGPT的成本迅速下降，有很多To C场景，历史上硬件也快速改进，CPU也可以使用，GPU也可以使用，包括我们看到E620和E40的历史，视频已经成为一件大事，如大量的特效制作，大量类似于抖音短视频，需要一些基本特征的架构？例如，显存要求较高，或频率要求较低，不需要算子优化，在模型训练中，计算能力要求是否与大模型不同，更接近什么方面？计算能力是否更好，或者与LRM有什么不同？

【嘉宾】：它类似于LRM，训练是传统的大存储，高互联网，这当然是必要的，推理，如果抖音使用这个东西，训练做一些优化，推理部署，可能不会降低成本，我们可以猜测成本有多高，如果优化不做，40G可能不够。

【主持人】：我们可以看到它可以旋转一个视角来产生一些能力。在不同的物理关系中，Sora模型，我们观察到任务行走和车辆行走都是真实的，握手和拥抱这些DEMO都不是特别好。还有猫踩牛奶的视频，好像变化是真实的。我想问一下未来的物理事物和描述。有没有什么比较容易先做好，先应用开发？

【嘉宾】：他使用了大量的数据合成，这样做，模型必须取决于数字，人们走路容易模拟，如拥抱，模拟数据不会模拟场景，游戏公司为你做这件事，我们也想做，我们不知道他的材料库，这很容易推测，如私家车使用大量的合成数据，现在做得更好，它可以直接用于视频生成的培训数据。如果做得不好，数据中的数据很少，或者根本没有关闭，则取决于真实数据。其他的都取决于真实数据。现在合成数据优先使用。效果可以这么好。应该是后期使用的高合成数据和非常高质量的真实数据的效果。

【主持人】：高质量的合成数据，在我们的现实生活中，比如从多个角度描述一个物体，在地面和不同地方描述同一个物体，在不同形状描述同一个物体的数据，会大大提高模型的能力吗？还是需要大量的自然视频来让它有多个角度的理解？为特定目的设计相关合成数据的合成数据会非常重要吗？

【嘉宾】：在真实数据中，如果有多角度的数据，那就是因为真实数据不足。这个东西是从哪里来的？要么玩游戏的人做，要么做电影的人做，成本会很高。如果有Model，玩游戏和电影特效的成本会降低。玩游戏和电影的人力要求很高。如果做电影渲染，需要GPU2配置不同于深度学习和训练，也需要一帧一帧渲染。都是很贵的事情，他们会买游戏公司。这是一件吃力不讨好的事情，做起来很慢，没有人能跟进，每个人都不会在游戏公司做这件事。

【主持人】：API驱动UE5，它要快得多，强得多来支持改进，目前是解释如何做得更好的原因，前面的路径比别人快得多。

【嘉宾】：合成数据的质量有多高？培训数据的质量越高越好。如果使用一堆合成数据和少数高质量的真实数据，合成数据的质量真的这么高吗？也许两个地方都学会了，中间插入值的能力非常强，你可以生成一个相对静态的，真实的数据动态的，你可以模拟高质量，插入图像质量的真实数据，实际上是一个模拟的场景。

【主持人】：自动驾驶部分将使用少量的合成数据来处理某些场景和合成数据的路径。如果文生图的模型与自动驾驶有什么不同？对于自动驾驶的要求，数据标记需要数千万美元。合成数据、计算能力消耗的数量级、合成数据的数量级以及数据准备是否有很大差异？

【嘉宾】：自动驾驶合成数据非常不同，特斯拉是最好的，驾驶必须是路上的东西，生成视频生成，他是开放的，很难做，也不知道能做多少，我们怀疑数据质量有多高，如果他的视频是传统的，必须是传统的渲染，不会像神经网络那么高，他花的人民币很高，因为要提前准备好材料，如果用GPT生成，也要看数据量有多大，数据量高就高，买材料，做游戏公司的人专门做这个费时费力。

【主持人】：你觉得我们目前看到的视频模型场景怎么样？以OPEN为例从5秒到10秒，再扩展到60秒，人工智能显示的能力。OPEN AI推出的视频也是长镜头的单视角，也有一些视角的切换。在不同的镜头和场景中保持两个角色的一致性有多难？它仍然可以像sora的技能。一个人在两个场景中看起来有点相似。在不同的场景中，模型是否能在未来实现一致性或生成两个视频，视频是否能保证场景和逻辑的一致性，需要在transformer架构中实现？

【嘉宾】：数据量高，训练数据一般人做视频，在每个人做视频做场景测试之前，视频切成段，现在是随机切割，只是通过堆数据，堆计算能力可以堆出来。

【主持人】：以前的方法，两段视频的主角都差不多，是怎么实现的？

【嘉宾】：这并不难，实现的方法有很多，我们认为他们不需要这些花哨的东西，需要堆数据。

【主持人】：目前可能的应用场景，OPEN 人工智能可能开始着陆场景，更有可能是To B，因为它是针对To的 C的计算能力消耗和优化不能满足这么多用户的需求。根据当前模型能力的演变和成本降低的速度，我们将首先看到哪些场景将首先尝试和应用？

【嘉宾】：只有少数公司能做到这一点。首先，其他公司也在这些公司做到这一点。他们在做什么，他们会在哪里使用它。他专注于制作视频、电影和电视，肯定会落在那里。即使抖音下个月制作，他也无法部署蒂克在tok上，因为它太大了。

【主持人】：感谢专家们精彩而深入的分享，下次留给参与者，看看参与者有什么问题。

【提问】：Sora模型如何理解它对计算能力的消耗？英伟达的GPU消耗了多少，训练和推理之间的计算能力关系是什么？

【嘉宾】：OPEN 人工智能通常有成千上万张卡片，一次训练成千上万张卡片并不罕见，Sora一定要高读，肯定不会比以前少。推理就像我们刚才说的，我们可以猜测他做了什么。我们可以把它当作Transformer的Token。如果我们以前使用GPT，数百或数千个Token将比平时使用的GPT的Token高出几倍，推理成本将高出几倍，而不一定是线性的几倍，Token的数量更多，显存要求也会上升，如果没有优化。我们认为它们很难在普通显卡上运行。

【提问】：会比以前的GPT模型消耗更多的计算能力吗？

【嘉宾】：是的。

【提问】：你知道模型的参数现在有多大吗？

【嘉宾】：如果效果这么好，一定比现有的视频模型参数高几倍。他们通常比以前的模型大得多，肯定比GPT4大。

【提问】：在训练过程中，游戏中可能会使用大量的合成数据。Sora出来后，展望未来，它会嵌入玛雅的工作流，并取代它们吗？

【嘉宾】：许多公司只是为了简化这个过程，如果它能着陆，目的是这个方向，可能会使用一些游戏引擎生成数据，感觉是螺旋过程，有更好的数据有更好的模型，电影是简化使用这些引擎的步骤。

【提问】：在着陆程度上，首先取代的是影视的离线渲染和实时渲染，比如游戏。

【嘉宾】：是的，游戏使用深度学习，这是更多的硬件着陆，为了保持视频模型不能实时，短期内没有人会这样做。

【提问】：Sora的视频训练，一方面是合成数据，还有其他真实的视频，OPEN 人工智能是从网上爬的免费资源还是其他资源？

【嘉宾】：一定有，一般公司做这件事，网上肯定会爬，一些第三方公司会帮你爬，也会买一些高质量的数据，比如你可以在网站上买材料、图片、视频，高质量的数据买是最容易得到的。

【提问】：合成数据中的三维和坐标在合成开始时就有这些数据。如果你直接在网上爬这些资源，这些资源有什么要求吗？

【嘉宾】：要么是合成数据，要么是真实的视频。

【提问】：视频的特点和质量是什么？训练效果更好？

【嘉宾】：喜欢高质量的人比较高，像4K一样，一看就是高质量的数据，模糊的数据可以直接丢失。

【提问】：简单计算一下10秒的视频，无论是To B还是To C应用程序，等待时间不能线性增加那么多，显存要求增加，通信带宽要求增加很多，训练推理任务需要在短时间内大规模改进？

【嘉宾】：训练的硬件要求是什么？这个代码的数量确实相对较大，必须估计GPT4，不可能像GPT4那样堆叠模型层数，很难估计消耗多少资源，高成本非常正常，高通信要求主要是快速时间对资源的要求相对较高。通过Transformer，层数这么多，规模永远不会小。推理的成本现在不会低，以后优化会低一些。成本很高。如果成本要降低，未来现有成本还是很高的。

【提问】：现在只有一分钟的视频，如果你想逐渐延长视频的长度，增加参数是不可避免的，参数体积不会有特别明显的膨胀？

【嘉宾】：如果你想训练一个正常的窗口，参数肯定会增加。

【提问】：不显著增加参数规模，增加推理电影的持续时间？

【嘉宾】：是的，60秒就是这样来的。在未来，你会发现一些更好的技巧，这样你延长的质量就不会有更大的下降。

【提问】：这样可以做3D视频吗？

【嘉宾】：看看3D格式是什么样的。

【提问】：现在很有可能是A和HGPU的推理。这个推理是需要设计多个服务器的联动，还是多个GPU的联动，还是一个服务器和GPU可以解决推理请求？

【嘉宾】：这取决于模型有多大。一张卡最多显示80G。GPT4做了很多优化，性能几乎比原来的GPT4差。这么多优化是为了降低训练推理的成本。

【提问】：我看到有人用Transformer的模型制作苹果的空间视频，将其制作成左眼和右眼。一张图片产生不同视角的能力，能否制作出单目视觉的感觉，生成苹果用手机拍摄的视频。两个视角的东西都有视角差和法片差，让你有3D体验。这种能力可能在To C端落地场景？

【嘉宾】：它可以着陆。这根本不需要像Sora这样强大的模型。普通模型可以制作。它不需要大量的参数和连续性。已经输入了视频，视频已经连续了。学习这个模型很容易。普通手机拍摄的视频很容易制作出视觉差或深度差。它被转换成空间视频？

【提问】：可以拟合物理的东西，只有堆积更多的视频源才能制作视频，还是有更好的拟合视觉？如果你的数据有限，数据质量有限，看起来很难。

【嘉宾】：我们认为它是堆积数据的。首先有数据，然后有模型。现在我们需要模拟物理世界，直接模拟游戏。游戏引擎模拟最简单的图片，翻译成视频。现在有人试过LCM。Sora在游戏引擎上使用太夸张了。

【提问】：由于这是Voice的交互方式，与ChatGPT不同，它可能会大规模增加带宽和网络的需求。如果它是开放的，它将大规模增加和带宽网络资源。视频能带来大量的宽带和网络需求吗？

【嘉宾】：不，不管它有多大，它都不像抖音那么大。内部计算必须非常大。网络终端与用户通信无关。

【提问】：现在文生视频，数据手机都来自游戏端，还是静态动态？

【嘉宾】：主要是动态的，包括游戏和视频。

【提问】：要不要大量参与游戏，要不要从游戏公司购买游戏和语料？

【嘉宾】：游戏公司可以模拟动态摄像头参数，其中的物体可以生成视频，然后通过视频进行训练。

【提问】：数据的来源质量取决于后面生成视频的质量。会不会有很多质量不够高的数据？

【嘉宾】：正是因为这些数据的质量很容易控制，有办法很好地渲染它们，所以他们使用引擎和游戏引擎生成的方法来生成数据，而且很难控制真实的数据质量。

【提问】：哪些国内公司已经朝着这个方向发展？

【嘉宾】：小公司不知道，大公司都有这个方向。

【提问】：是指Tik Tok还是腾讯？

【嘉宾】：做腾讯和字节。

【提问】：他们自己的数据量已经足够了，如果他们再做，数据量应该没有问题，应该有很多。

【嘉宾】：对。

【提问】：现在更多的是用于创作，以后要创作广告片、宣传片，能否用于广告、个人应用，有可能吗？

【嘉宾】：现在不好说了，肯定会先用在广告上。

【提问】：制作还是专业的，比如我需要在手机上创作一段视频，还需要一段时间？

【嘉宾】：是的，成本打不下来。做广告，公司有预算，自己用肯定是赔钱。

【提问】：还是要看后面计算能力的普及，能不能降低成本，基础设施？

【嘉宾】：对。

【提问】：这类海外公司有没有被视为类似应用的好公司？这方面特别擅长？

【嘉宾】：现在他一个人擅长，别人做不到他，都是想办法追赶。

【提问】：ChatGPT采用综合性，一些小公司可能在这个领域发展得很好。有这样的公司吗？

【嘉宾】：做这件事要花很多钱，小公司拿不出钱做，这是资金密集型，足够有钱做。

【提问】：不停地烧钱？

【嘉宾】：是的，你甚至需要买一家游戏公司来做。

【提问】：这些国内游戏公司在自身发展上有优势吗？

【嘉宾】：腾讯，国内大公司，Tik Tok有数据。腾讯自己玩游戏。只有大公司才能用这种人力和金钱做到这一点。小公司很难有人有钱做。

【提问】：你刚才提到了空间视频、VEDIO视频、应用程序和技术路线的突破。在未来六个月到一年内，MR的内容主题将在人工智能生成路径上取得重大突破。我们应该关注MR的哪些方面？、AI生成，3D视频转换？值得注意的是什么？

【嘉宾】：视频和3D绝对是今年的热门话题，每个人都会这样做。

【提问】：按OPEN感觉人工智能的核心数据是发动机的技术管道能力。如果是自动驾驶，自动驾驶模型培训能取得更好的突破或更好的效果吗？这里的差距很大吗？OPEN AI走AGI，突破自动驾驶的障碍，从而推动自动驾驶的发展速度。你认为VEDIO在行业内是如此、3D视觉的认知是怎样的？

【嘉宾】：OPEN 人工智能不做自动驾驶，技术有了突破。自动驾驶对延迟有很高的要求。即使自动驾驶有AGI，也会有很多逻辑和判断，以确保安全。自动驾驶很复杂，不能用一个模型来解决。每个人都不放心，监管也不会让你过去人工智能不会解决自动驾驶问题，这取决于传统的自动驾驶公司做什么。

【主持人】：感谢专家们今天的深入分享，重申我们的观点，今年下半年可以看到Agent的出现，可以通过软件操作和视频加强视频奖励，促进AGI的实现，将带来计算能力的增长和应用逆转，投资建议，我们继续推荐微软，从这个角度来看，今年有几条投资主线需要关注，3月，英伟达B100的发布以及新功率对液体冷却的需求，以及投资者对网络互联网能力、液体冷却和互联网目标的增长、技术软件的恢复和显著增长以及人工智能的驱动，以及AI在应用场景中的急剧爆发。它带来了多模式、视频生成、电子商务广告的快速实施、教育环境中能力的提高、核心美国股市的交易等，这是美国股市的最新观点。感谢今天专家们的精彩分享。如果您有任何问题，请与我们联系。非常感谢。天风证券

上一篇：国内外制造商在A1计算能力领域的竞争日益激烈

下一篇：返回列表

OPEN 人工智能模型、可能的技术结构和对行业未来的影响是什

英特尔等硅光芯片的未来发展前景分析

中国有数百个人工智能大模型,但模型性能参差不齐,昆仑万维的“

财通基金梓才:6只基金单日净值超过8%

祖传秘方开门红!龙年第一个交易日

中国证监会召开座谈会,听取意见和建议