人工智能所能理解的语言与你想要输出的内容保持一致-股票-壹米财经

行情频道：行情 / 知识 / 新股 / 要闻 / 基金 /

人工智能所能理解的语言与你想要输出的内容保持一致

2024-02-19 09:28:11 收藏

a股走势个股股票行情

发言人2 01:16

我是这次会议的主持人蒋欣，计算机的孙健，我们团队的陈欣和我一起主持了会议。在这里，我将首先询问一些我们更关心的问题，然后我将把时间花在网上或投资者身上。发言人2 02:我首先问的第一个问题是，我们也看到了整个server的效果其实是比较出色的。与此同时，与之前文生视频中的一些人工智能公司相比，效果更加突出。比较典型的是包括皮卡在内的runway，在时间长度和文本理解上都有一些显著的优势。因此，在这方面，首先，我想请您帮助我们分析一下。与之前的runway和皮卡的一些建筑相比，搜索a在整个结构中有哪些明显的优势，包括原理。发言人3 03:12好的，我直接回答了主持人。因为我们从去年4月开始也推出了一些视频生视频，关于AR视频的一些功能，所以我们对这个背景也有一个全面的了解。事实上，一开始，当人们谈论人工智能视频时，他们倾向于在纹身图像中添加一些动态。当时其实M是deep，这样的产品出现在去年年底，然后让位和皮卡分别推出了自己的完成图这样的完成视频模型。其实效果之一就是时间短，基本在4秒以内。还有一个就是质量上它很容易以批发为例，在第一帧像素中它可能比较高，然后后来它的像素就会越低。发言人3 04:事实上，07有很多原因。首先，他在训练数据方面非常愚蠢。事实上，他现在看起来很愚蠢，当时看起来很好。比如皮卡在训练中，他在数据训练中。去年12月，他还谈到了你如何将100张图片或更多图片插入那个省，插入显卡，然后进行训练。但事实上，我们知道，就像sory一样，它实际上使用了pass，也就是说，切片，然后来去补丁，然后来去做类似的token，然后来去做这样的数据输入。它使训练的数据不是直接用图片，而是用这种token类似token的方式在浅空间进行数据训练。因此，作为一名数据训练员，他不需要考虑固定像素比、固定尺寸比或长度比。他是任何视频或图片类别，我可以用它来训练，然后数字训练数据源扩展，加上刚才说这个数据的切割方法是不同的。发言人3 05:另一方面，23实际上符合sara的大力出奇迹。由于OpenAI一直擅长大力创造奇迹，我们对他的数据训练计算能力进行了评估，这将远远超过装备橡皮卡。他们有更多这样的计算能力训练，所以训练效果会更好。然后，另一个重要的生产点是控制。由于我对这段视频生成质量的影响之一，就是主持人刚才可能没有提到控制。也就是说，你生成的东西是否符合你的描述，然后场景是否一致，角色是否一致，数量是否一致。发言人3 06:然后在sara中，它还结合了OpenAI自己的达利和CB4的一种能力。他的原文是技术白皮书，原文被解读为reception technique实际上是一种叫做转换能力的能力。它是将你的自然语言转化为人工智能所能理解的语言，使人工智能所能理解的语言与你想要输出的内容保持一致。总的来说，这些块是不同的。一是训练数据语言、数据处理、计算能力和生成。发言人2 06:45他也明白，那你刚才也提到了这个算力。我想再问一遍。我们大致评价一下。一个是Sara目前的整体计算能力。我们有一些相对量化的概念吗？此外，如果与GPT4甚至预期的GT5相比，其整个训练的计算能力相对较好 OK这个问题。发言人3 07:其实17也很有意思。昨天，我和谷歌的一位科学家一起投票。当时，我们的投票对象是一些与人工智能和图形学相关的人，然后有七个选项，然后从128个A100训练一个月到100000个A100训练一个月，共有七个选项。最后最多投票9票，投票50万55左右 5万张AAC100，然后训练一个月，这样的训练量。因为对不起，他的训练现在是绝对保密的，它是核心秘密。所以我们只能和几个叫从业者的相关专家一起投票。估计量是5万张H100，然后训练这样的体积一个月。发言人2 08:这个和那个GT4.0和5.0.发言人3 08:这样的体积要略大于BT4的两倍左右。然后和GP5谈谈，因为GPT5还没有训练出来，其实还在训练中，他还不知道能不能很好的比较。发言人2 08:35让你明白，就整体而言，我们估计还是通过这个ASR，而不是微软云那边来来去去。发言人3 08:44对，因为我们可以看到OpenAI上市的投资协议，然后主要的投资金额实际上是以云和计算能力的方式投资的。相应的也应该以微软云的形式提供。而且OpenAI在建立这个算力集群方面肯定没有微软云那么专业。因此，例如，他需要建立5万张集群调度，这显然需要微软云在这方面更专业。发言人2 09:15明白。然后我们也看到了一些说法，Sara数据的参数规模可能不是特别大。我不知道你知道或判断这一块是什么样的情况。发言人3 09:34OK, 我我再补充一点，刚才我可能没有说你问的所有问题。我先补充一下算力，就是一个是虚拟的例子，一个是推理算力，对推力算力的要求会更高。如果有必要，我会重新开始。发言人3 09:我先回答你的第二个问题，那就是sara的数据规模。事实上，这个数据规模是基于一篇在线文章，也就是说，他说Sara估计有3SE参数，是那个估计吗？它的估计是根据技术报告有一张图片，一张图片是一只比较狗。发言人3 10:我不知道你是否看过技术报告。你可以看到技术报告中的第二个应该是视频，也就是几组狗的视频。他觉得第一只狗的视频生活质量很差，生活质量很差。参数大概和他自己做的DRT模型差不多大小。发言人3 10:这个模型大概是6亿参数，然后因为后面有乘以4乘以32的比例，所以可能是30亿左右的量级。的确，我在视频制作领域的参数并不多。就像目前的SVD一样，SVD在评分上超过了rong位和皮卡。这是一个由他的视频生成的模型。因为它是开源的，我们去他公布的参数量大概是15亿量级的参数量。所以总的来说，文生图模型和文声四视频模型可能没有那么大的规模。正是这种纹身，通常是数千亿的量级，这种纹身的语言模型可能不同，但也有一个相反的方向。发言人3 11:24因为我们可以看到他的技术报告，事实上，一开始提到的是give up，他增加了这个模型的体积。因为过去的SVD和其他模型都没有用这种好的方式来训练transformer。也许他的transformer这种方式提高了训练量级，提高了参数量级，这是非常有可能的。在这种情况下，你不能使用这个简单的，你乘以DIT，乘以最小的模型乘以这个倍数，然后这样评估有点愚蠢。发言人2 12:10明白了，然后我们看了一些视频，它的一些展示可能也有一些小缺陷。那个人走路的左右腿可能包括一些小问题，可以通过后续增加数据训练来解决，也可以通过后续增加一些模型来解决。发言人3 12:事实上，他在最后一个板块也提到了你说的问题，也就是说，他最终列出了一个非常明显的缺陷，那就是一块玻璃，然后玻璃的爆炸无法呈现，然后它会有很多缺陷。然后我们认为这实际上与语言模型中的幻觉非常相似，即它将永远存在，但它可以通过某种方式得到改进。例如，当你去训练时，你会添加很多这种训练玻璃的破碎视频，或者在强化学习中添加很多奖励模型的训练，然后你就可以改进了。即使是人工调整，调整prompt，然后进行调整，也会有很多方法逐渐改变这种现象。但它不可能消失，这种幻觉问题很好，可能有，但显然不大。发言人2 13:32明白，另外，你刚才有一个计算能力补充，推理和训练的两端，只是我没有。对。发言人3 13:事实上，模型训练与大多数人关系不大。模型训练考验巨头。你就像OKA，你的国内字节？这些都有很多这样的芯片存储，他们可以训练大模型，但使用不同，因为使用涉及每个人，特别是在研究社区，有很多人会基于Open人工智能的想法，然后开发开源版本。发言人3 14:当它相应地使用时，例如，你必须自己做推理，那么此时的成本非常困难。然后，当我们实际上基于SVD进行推理时，我们生成了4秒的视频，然后大约需要3090张图形卡燃烧一分钟，只有一分钟的推理时间。因为我们猜测server应该是一样的，几乎是这个量级。然后在这个量级下有一个营销号，就是你一分钟3090，要多少钱？例如，我们现在对外收费是一美元。当我们向外界提供服务时，我们将收费。我们将生成这样一个视频，我们将收费一美元。发言人3 15:01另一个重要的成本点是，当你正式商业化时，你必须考虑并发。举例来说，你要做一个活动，或者你把这个放在这个上，放在小程序上，然后就会有很多人使用它。所以这个时候你需要很多并发，所以并发会成倍增加你的成本。事实上，我们应该关注这一块。因为在大规模集群中使用时，成本非常高，这是对你商业交付能力的考验。发言人2 15:你知道有什么事吗？是的，这是当前训练和推理计算能力的比例，或者哪一端，然后它的增量或需求就会更高。发言人3 15:从长远来看，推理肯定会更高。然后因为训练的计算能力刚才是巨头，而且有规模效应。因为你已经训练了语言模型，囤积了这么多图形卡，然后你去做那个，训练训练对计算能力的要求实际上相对较高。你可以看到，通常是AC1000、A100等高端显卡作为集群。然后，根据性价比，在推理中，它需要更多的终端甚至消费级显卡和终端商用显卡。比如我们现在用的终端商品显卡是V100系列，其实是很久以前的这种商家，这种专业卡。然后我们会用很多这种3090、4090是一种消费级图形卡，然后一个接一个地生成这样的图形卡。事实上，我们有大约2000张中低端图形卡。事实上，对于像我们这样的私营商业公司来说，它仍然是一家国内商业公司，可以满足许多商业需求。发言人2 17:00等于我们现在在观察。如果你提到3090，包括一些像40系列这样的显卡，他已经能够满足一些推理需求了。发言人3 17:14对，推理其实最难的就是集群。例如，去年我们为麦当劳提供了一项计算能力服务，无论是视频、图形图片还是人工智能图片。当时在麦当劳有5000多家门店，一起来去做，然后在儿童节，双10 11来做活动。当时，它实际上面临着一个高度并发的问题。如果是图生视频，如果是微生视频，最大的消耗量是指数级的上升。发言人2 17:52您方便帮我们稍微详细一点。当时因为我们做了一些具体的项目，成本是多少？发言人3 18:06量级图层图大概是按照每次生成的消耗成本，大概是0.4，大概是0.49，不到一毛钱。然后纹身视频，成本还是比较高的。今年我们给中国联通，然后再做彩铃。你现在想让中国联通做彩铃生成，现在有视频彩铃。也许苹果手机体验不到。你使用安卓手机，当你打电话给别人时，你会使用安卓手机等待，可能会弹出一个带有视频的彩铃。发言人3 18:在视频制作方面，我们目前正在交付联通。帧生成是生成4秒，然后是假的，然后这4秒会重复，你会重复三次到12秒。其实这就是我们在计算能力上只提供了4秒的生成。所以这次生成的一个成本大概就是我们给他收费是一美元，就是这样一个一个的成本。相应地，如果他有10万用户，然后在同一天使用，那么当天10万元的成本。发言人2 19:27明白，成本特别高。发言人3 19:31高得多，高得多。发言人2 19:跟着这个跟你讨论一下。因为我们现在实际上等于说有一些更具体的项目实现了三个着陆。如果你观察的话，sara的这一次相当于一个很大的进步。未来商业模式会带来什么变化？或者有什么可以期待的，一些你认为有机会的应用车落地的场景。发言人3 20:事实上，去年通过制作人工智能视频赚钱已经很普遍了。你可能不太清楚，你就像中国有一个叫土豆人的大V。去年，他为麦当劳和麦当劳提供服务，也为我们的顶级化妆品品牌提供清洁。然后做视频，然后做AS产品。当时他是GSD还是Mini？ jery，然后做点什么，然后他的一个费用就能达到几十万，30秒就能卖几十万。这是一个夸张的数字，类似于CE做视频的价格。发言人3 20:然后，就像我们会系统地为客户提供一些视频一样，这些视频基本上是600元到800元，600元到1000元一秒，然后计算。也就是说，你30秒的视频也要几万，几万，3万，几万。这种视频在营销领域应用广泛。我相信接下来，比如你做过广告短片，做过这样的宣传片，放在里面，或者做官网的动态视频。许多人会通过这种骚扰来解决这个问题，然后这就是营销层面。发言人3 21:但在我们看来，如果我们对另一个更大的空间持乐观态度，那就是内容制作。例如，你的短剧制作包括内容制作的范围。因为你现在实际上可以使用类似的能力，然后做一些短句，然后每段最多持续一分钟，然后我生成五次，然后也许我可以做这样一个短句五分钟，或者几分钟这样一个短句。其实如果按照现在的水平，效果还是可以保持这样的好东西的。发言人3 22:04然后是一个短视频的生成，然后是正常的这个短视频的生成，而且因为sara其实还有很多其他的能力。例如，如果你也有视频生视频，你可以上传现有的视频进行转换。你可能是中国这样一个白种黄种人做的这样一个器具。你可以把它变成黑种人做的这样一个器具，然后卖给非洲等等。也会有很多风格化转型的机会。总的来说，我们认为一个是市场营销偏向于B端，另一个是内容制作偏向于这种C端的消费水平。发言人2 22:42那样的话就是我们提供的短视几秒钟的视频。就这一成本而言，与原来的需求方相比，他去找了一家专门的这类营销公司来做，其成本是什么比较。发言人3 23:目前00的价格差不多，因为目前做AI视频的人不多，就是擅长做AI视频。因为在sara之前，像rv皮卡一样，你仍然需要很高的门槛来制作视频，而且你仍然需要很高的边距分镜门槛。但是server可能会降低这样的门槛，增加供应量，成本可能会大大降低。这显然是从金钱成本和时间成本来看的。在过去，你可能需要至少一周甚至几周的时间来制作一个视频，只需要几十秒钟。现在，你基本上可以在一天内完成它。发言人2 23:43我明白，如果你从你的观察中看到这一点，比如你刚才提到的，包括麦当劳、运营商和他们的需求方，他们对纹身视频的接受度和需求的核心驱动力是什么，以及他们对纹身视频的接受度和需求是什么？发言人3 24:在过去，01OK实际上是一种恐慌。也就是他们觉得这个东西很厉害，很新很突然，然后一定要用。包括昨天我们看到电视台露出一个，然后他其实是在呼吁，赶紧用，否则就会被颠覆掉。然后这就是这个，这是一个明显的恐慌。这样的方经理。但事实上，我们认为这种视频实际上是AR视频和AR图形生成的任务系统生成的。也就是说，我已经调查了很多这样的内容从业者。事实上，80%的人基本上都在使用这种工具。只是他没有跟官方说话，或多或少会在自己的工作流中用一些东西，然后来来去去做。发言人3 24:57你给我举个非常具体的例子。比如像server这次推出后，其实有很强的能力，就是做对了，可以从360度的角度产生这样的图像。无论是街道还是人，还是其他的东西。这种生成实际上意味着什么？这意味着我过去建模的一些东西可以被这个取代。因为如果你能生成360度的图像，你可以很容易地使用一些像deep这样的图像 in anything，就像这些软件一样，你可以把它们转换成点云数据，然后转换成3D的东西。如果你把它转换成3D的东西，你将在这里进行二次创建和二次修改，然后它将变得非常方便。这些东西非常具有延展性，可以快速地与你现有的工作流程相结合。发言人2 25:53明白了，是的，那我还是想问一个问题。就是因为文人视频，刚才听了你的分享。其实整个营销空间还是挺大的，包括短视频。我们从来没有预测过这一点，但我们可以看到整个市场规模的替代品。另外，这里的玩家，单从国内来说，主要是什么样的竞争状态？发言人3 26:27事实上，我们更喜欢看到两个阵营之间的分离，一个是开源阵营，另一个是闭源阵营。开源阵营其实是MAD，比如SVD，然后你就出来了，包括字节和腾讯。像腾讯这样的话是zero animate，就像字节一样，也有一个叫enemy的词。事实上，它基本上是基于开源阵营中的一些模型或方法，然后做一些改进，然后做一些添加自己的事情，然后我们认为这种类型实际上是相当有竞争力的。就像今年11月和去年11月发布的SBD一样，在某种情况下，它的分数可以超过runway和皮卡，这实际上是夸张的，因为我们基于SVD成功地实现了大量的商业输出。事实上，即使我们是这种开源阵营，另一种是闭源阵营。闭源阵营就是P卡装备，就像那个呃，呃，呃，哦，openAI。虽然OpenAI被称为OpenAI，但他目前主要关注闭源输出。发言人3 27:这一类42的优点之一可能是它能够长期保持高一致性的发展。而且，如果像OPAR1一样，一旦形成壁垒，就很难超越，在一些细分领域，我做得很好。例如，就像OpenAI一样，它结合了达利自身的达力能力，然后在dara上使用，它可以保持画面的控制。目前，所有开源或闭炎症都无法比拟。无法比拟的是它产生物体的准确性，产生动作的准确性，控制能力会变得很强。事实上，我们认为这两个阵营更适合开源和闭源。发言人2 28:32明白，谁在推动开源整个社区发展的主要动力？因为欧克I感觉就像你说的，就是工具的各个方面，包括正确的吸引力可能都很强。发言人3 28:49对，其实开源的话也可能是大厂推动的。例如，在LM就是语言模型领域，就像Meta一样，他做Llama开源，然后也算是大厂做开源。例如，当meta或阿里巴巴或其他制造商看到与OpenAI的差距越来越远时，他可能会通过开源走谷歌的Android路线。也就是说，我可能会在开放性、生态多样性和开发性方面小步快跑，然后通过很多人的参与超越一些闭源的想法。然后我们认为开源也可以盈利。因为现在开源并不意味着我放弃了我的知识产权和利润属性，开源也可能产生一定的11个1个收入。发言人2 29:45我明白。是的，那行，那我先问这些问题。是的，我们网上的陈欣也是网上的，下面看看陈欣这边有什么问题吗？发言人4 29:56好，谢谢专家。昨天也咨询过你，感觉受益匪浅。在这里，孙先生刚才提出了几个问题。我想问你。接着我们会上我看到网上的同事也很多，朋友也很多。假如有关心，以后也可以在网上提问。发言人4 30:15对我来说，首先是刚才关于这个数据的问题。因为我现在看到这个模型有一个问题，也就是说，它可能在物理模型或物理定期呈现方面表现不佳。这里有两条路线，一条据说是通过更多的数据进行训练。另一方面，我听说像这样的UE5或Unit本身就是为了做这个3D模拟或动画公司来做这个培训。我不知道如何选择这条技术路线。你觉得这个数据源怎么样？谢谢。发言人3 30:51嗯嗯嗯嗯嗯，我觉得这是个问题。哼是通过更多的数据培训，无论你是使用UG5的数据培训，还是使用一些专业的，比如大量的玻璃破碎这些数据进行培训，都是更多的数据培训。事实上，我认为这可能是第二个意思，你你表达U15那可能是为了表达我不必在这个模型层面上做到完美。因为这个模型层面的生成，或多或少可能会有一些幻觉。然后我可以将视频内容转换为视频内容，因为它有360度，例如，我可以将其转换为3D。在我的3D文件出来后，我可以控制UV5，然后进一步加强它。其实相当于把那个sory融入到我现有的工作流中，然后通过一些插件的配合，我也能做到很强的控制。不用等sara自己去训练，去对齐，我自己就可以去改变它，去完善它。我能这样理解你的问题吗？发言人4 32:03对我来说是对的，也就是说，我认为它应该在理论上实现，但因为像UE这样的公司在过去做这个产业链，这个传统的视觉产业是一个非常重要的环节。事实上，这意味着如果它的重要性被削弱，或者我只需要在未来提供一些真实的视频材料，我就可以得到一个很好的结果。我认为这可能仍然会影响产业链。我不知道你觉得这个怎么样。他会有哪些好坏，或者从成本上考虑，或者这些公司，比如run外皮卡，或者他们的具体运营模式是什么？你知道这个吗？谢谢。发言人3 32:39其实本质上是一种生存方式的转变。AICC的生存方式有点端到端，就是忽略了它跨越过去的过程。我们过去需要一步一步地去做，现在我们可以直接输出结果了。然后，在过去，我一直想从原材料中生产产品的彩线可能会变成一种加工方法，一种PS，一种附加的。这种附加在我身上可能会成为大模型的附庸。但由于绝对内容产量的增加，工具的作用仍然非常重要。发言人3 33:就是这种附庸工具的作用还是很重要的。事实上，我们可以这样做，呃，呃，或者shop ROB也是PF。然后以此为例。你看，它实际上很好地将维生素工具集成到它的PS中，也就是说，他制作了这样一个adobe模型，然后他用自己的训练材料一个接一个地做事情，做了一个很好的集成，然后让我不需要我，我，我，我只是不需要结合工作流，而是在它的生态中形成一个闭环。也许这是不可避免的。就像UU5或者PS一样，他们都会训练自己的纹身视频模型，或者直接附着在OpenAI这样的模型上，然后来去做，甚至两者都有。他可能会提供两个接口，一个是自己的接口，另一个是OpenAI接口，然后让消费者做出选择。这种替代品确实是不可避免的。发言人4 34:26理解。第二个是关于这个视频制作的版权问题。事实上，我不知道你是否找到了它，也就是说，可能会生成一些视频，也就是说，我们在网上搜索，或多或少会找到一个非常相似的结构。然后，包括最近的春节，一个也应该是官方媒体，他扔了一张图片，这也涉及到版权问题。是的，所以龙你觉得那张照片怎么样？特别是对于像这样的视频，它本身的成本也很高。生成的效果可能是如何避免版权问题带来的具体效果，以及避免图片可能有什么区别。看，谢谢。发言人3 35:05我们认为一定有版权问题，因为在训练中，我们昨天实际上和谷歌的人讨论了什么。他说youtube的数据应该是第一位的，肯定会用很多这样的gogle数据OK肯定会用很多这样的youtube等等。然后在实践中，我们基本上是因为我们自己的训练模式，我们基本上是穿插避免这个问题，避免版权问题，你可能会下降会颠覆你的三种观点，我们会买大约10%的合法版权内容，然后剩下的10%是爬这样混合沙子。在这种情况下，你也可以生成一些可能有一定品牌风格的作品，比如蒙娜丽莎，比如什么形象，我可以从我的版权培训数据集中找到这个东西。但与此同时，我可能会使用其他九张没有版权的照片。蒙大立法。这样一个11个time staff的策略使得我们所有的模型训练都不需要披露我们最原始的训练数据集，所以我们只能考虑版权问题，我们仍然可以适当地避免这样的问题。发言人3 36:另一方面，30是在内容生成层面，其实这是有争议的。当内容生成的操作员实际上有很大的责任。也就是说，如果你是一个操作员，你对你想要生成的对象的描述就是一个准确的侵权描述。例如，你在文生图中也是如此。你只想生成迪士尼的米老鼠，那么他真的可以为你生成迪士尼的米老鼠。在这个时候，事实上，生成者本身也有责任，特别是当生存者把这个东西作为商业重量时，生产者本身也有责任。因此，肯定会有版权问题，但有一些解决方案，也有一些责任划分，模型方必须承担责任。但是，模型方在某些问题上可能不承担主要责任。发言人4 37:17.我明白这里有一个小问题。刚才你提到，这也可能是行业的普遍情况，也就是说，我们可以通过低成本爬虫获取一些数据源。主要原因是成本因素或市场上一些提供数据的公司在提供数据的质量或某些维度上不符合我们当前的需求。还是具体原因是什么？你怎么回答这个，谢谢。发言人3 37:41基本上没有一家公司能提供非常好的大模型，这就是这种纹身图形视频模型的数据源。然后，当我们自己训练数据时，我们也找到了一些传统的数据标记公司，然后发现它们并没有满足我们的需求。相反，最终，我们需要自己获取数据，自己做一些标记。然后视频是一样的，你需要自己得到。你就像youtube，就像各种各样的视频，你不能直接使用，你必须做各种各样的处理，然后才能使用。事实上，我们认为这在一定程度上是一个供给问题，导致你别无选择，只能广泛地自己来去。发言人4 38:25处理这些数据理解。另一个是人员问题，因为我们看到今天有媒体报道，也就是说open Isara的团队数量很少，而且还有在校的学生，这一切都比较严格，包括00后的一种情况。所以我也很困惑，两个问题。一是为什么他们这个人这么少，能做出真的很好的效果。另一方面，你认为从人才的角度来看，我们与海外的障碍，特别是从科学家的角度来看，但学生，甚至一些研究医生在这个专业领域的差距，如何做比较，你看，谢谢。发言人3 39:事实上，去年7月，我们参加了上海世界人工智能大会。然后有一种非常强烈的感觉是，这些学者真的很年轻，因为你可以看到写一个好的应用程序本身很年轻，基本上是90年代后，一些职业工资会议，我记得有一个叫姚志主持人严重，尤其是年龄最大，然后其他人是90年代后。所以事实上，这是因为这个领域太新了。没有这样的老教授和专家，然后基本上是一些新人在新兴领域尝试。因此，我认为这也是一个时代的红利。年轻人一定能做更多的事情，只要你选择正确的路线，很少有人能用很大的计算能力放大你的能力。在某种程度上，我们认为这些年轻人有这么多的计算能力，因为他们在OpenAI。这种计算能力实际上扩大了他们的能力，很可能还有很多其他强大的人。但他有这样的环境，没有这样的计算能力供应，计算能力调度，然后他们可能无法一个接一个地取得这样的成就。发言人3 40:我们国内的人才，我们觉得科研人才其实挺厉害的。就像sara一样，他底层的一篇非常重要的论文，2023年初发表的一篇名为DRT的技术论文，是diffusion上的drama模型，其中一篇是中国人，另一篇是sara的作者。是的，事实上，在他发表的30多篇论文中，有很多内容实际上是由中国学者严重参与的。我们认为中国学在学术层面其实是可以的。然后你可能会感到有点困惑，因为OpenAI开得太快了。这辆车认为它仍然需要一定的动力，然后让中国企业的中国人能够跟上。我来说说。其实从语言模型层面也可以看出，现在在语言模型领域，就像美国是中国一样。就模型发布的数量而言，模型发布的质量实际上是除了美国以外的中国。你就像日本，就像欧洲一样，基本上没有相应的语言模型。发言人4 41:33明白，是的，那么计算能力和数据确实是我们需要进一步改进的许多领域。然后另一个问题是，我记得去年QTT团队在一次外部采访中提到的，也就是说，你认为他们的产品与PPT相对应 two的时间点。然后最近可能是对的，然后最近几天，包括许多研究人员在内的媒体可能会认为这个sara与GP3相对应。我认为这似乎很可怕，因为我们发现GP4和P3基本上是两个完全不同的级别。那么你怎么看呢？如果下一代纹身视频产品预计什么时候会出现，效果如何？如何预测GB视频时代是第一次。因为我们看到GGP3到GP4的时间不长，只有一年半多。对。发言人3 42:其实我也很关注皮卡，因为我很关注皮卡，就是你刚才说的那个我大概也看过。当时我还记得当时去采访皮卡的两个人，然后关于去年12月当时的时刻，就是第二刻。而且当时他还提出transformer要结合到DPUC，他认为未来就是传说要结合到DCC。所以你可能会看到这些人在某个时候是相互关联的，这些观点基本上是相似的。然后看看谁跑出来，然后跑出一个确定性。因为我们认为欧文家族有一个强有力的贡献，那就是当他确定一条路线是可行的，一条路线是可行的时候，其实会有大量这样的外界人士追上。然后这使得这个东西成为他的火车头，然后很多人会和他一起跑。发言人3 43:另一点是，它可能不利于与当时的语言模型不同。与GP3到GP4不同的是，训练这个微生图模型，我们认为计算能力需求可能更高。如果计算能力需求更高，对于开源来说其实是不是一个很好的11个一个消息。因为这些开源的人可能没有那么多的计算能力，然后做支持，所以计算能力可能会成为一个障碍。这一次，我觉得可能和上次不一样，你可能对开源的发展有一些限制。此外，正如我刚才提到的，在推理中，你可以看到纹身视频的计算成本和时间远远高于微图，所以你可能不得不再看一遍，人们可能会慢一点。发言人4 44:24懂，好，谢谢专家们讲得很专业。刚才孙老师也和你交流了这个算法和算力维度的一些问题。以下是关于这个应用侧的问题。因为与传统的多模式或传统的视频行业相比，这确实打开了每个人的想象力。如何预测后续哪些岗位的人可能会有危机感，哪些岗位可能会成为未来的新机遇，尤其是在目前的商业环境下。谢谢你。发言人3 44:58对，事实上，昨晚也沟通了这个问题，事实上，对于那些擅长使用一些传统工具的人来说，会有一种危机感。例如，您擅长使用虚拟引擎，然后您擅长使用一些传统的建模方法进行建模。显然，或者你是传统影视领域的导演，你可能会看到过去的一些工具和方法可能会发生一些变化。然后你不能总是使用过去的工具，因为可能会有更低的成本。发言人3 45:然后这是一个非常明显的部分，而是工具的替代，而不是人的替代。因为事实上，你可以看到现在就像在演示视频中一样，最后它演示了一个类似星际穿越的视频，那就是我在外星人中登录了一艘宇宙飞船。那么，如果你是一个专业的导演，你会发现他的一个分镜实际上做得很差。虽然他能在视频制作内容上做到精致、清晰、清晰。但他在美学审美和分镜上可能还是有差距的，和专业人士也有差距的。所以我觉得可能和以前的纹身图一样。是你懂艺术懂审美的人，用这个工具后来生成的图片，不懂艺术不懂审美生活的图片，是完全两个维度的东西。因此，在某种程度上，我们认为替代人是你的审美观是不可替代的，你的镜子分割和编剧能力仍然非常重要，所以评估人的方式是不同的。发言人3 46:36那么在过去，如果一个人擅长使用工具，那么和他一起去发展他的审美方向是第一个层次。然后可能会再次延伸。对于教育领域来说，未来教育领域可能更多的是教人审美，而不是教人如何画画。这就是这一块。另外一件事就是我们认为他会对组织模式产生重大影响。在过去，我们实际上从老板和员工的角度来考虑问题。因为老板一开始可能会很开心，老板觉得我过去的很多工作都要花一个星期。现在他用了这个工具之后，我可以在很短的时间内合并岗位，减少这个东西，减少人员。发言人3 47:其实我们反过来看看，对老板的影响恰恰是最大的。因为事实上，我们老板的主要工作是组织各种各样的人。完成的目的之一是组织各种职位的人和工作流。但是现在，当你一个人的时候，你可以使用一些工作流，然后你就可以完成了。当你们结合在一起时，你们可以完成老板过去组织人才能完成的事情。因此，在一定程度上，我们可以看到大量的超级个体会出现，这些超级个体会杀死过去的老板。就像刚才提到的公司一样，他可能会制作成千上万的视频。现在你看投资者一个人，他可以完成这样的客户单价，这将变得非常可怕。也就是说，大量的传统依靠组织者来完成工作流，将被组织模型来完成工作流的人所取代。这是我的延伸。发言人4 48:这种理解真的很深刻。是的，正好说到这个话题，还有一个问题要问马总。也就是说，你刚才提到了一点，那就是从人类工具中包括人类应该在未来，特别是在设计领域。也就是说，我们能否想象，或者你从技术或应用的角度来预测，也就是说，下一代的大模型场景能否涵盖人性或创造力的能力。比如去大模型写剧本，让他创作短视频。有情节，有可能抓住人的点，包括感动人或人性的点。如何看待后一代后大模型能力升级的预测，或者说这可能是一个无法达到的水平？你觉得这个怎么样？谢谢。发言人3 49:06对，这是ADI的终极目标，也就是完全碾压人类。在过去，它是关于图灵时刻的，也就是说，你无法用肉眼区分它是由人工智能创造的还是由每个人创造的，然后也许在未来，它被称为什么？也许叫红药丸蓝药丸。此刻，在黑客帝国，你选择服用红药丸或蓝药丸，你可以完全进入虚拟世界，在虚拟世界中生存，你选择你如何选择。事实上，后者真的越来越近了。发言人3 49:然后我们认为sory是一个非常强大的尝试。也就是说，他可以模拟世界。虽然不符合物理规律，但他并不排斥有些人可能会慢慢沉浸其中，他会慢慢沉浸在下一代中。事实上，这段时间是相当可怕的。我们认为，如果我们能进入红药丸蓝药丸的时刻，很多人可能会沉迷于人工智能结构的世界。但这还有很长的路要走，我们也应该把它交给未来的学家和科幻小说，然后考虑这些事情。发言人4 50:二十三好，谢谢马总。好，下请会议助理播报网上提问方式，看看网上有没有关心具体问题，谢谢。发言人1 50:32大家好。如果您需要询问电话端的参与者，请按下电话上的星号键。1.网络端的参与者可以在互动区域提问，或者点击附近的举手按钮申请语音问题。非常感谢。大家好，如果您需要询问电话端的参与者，请按下电话上的星号键。网络端的参与者，您可以在互动区提问，也可以点击旁边的举手按钮申请语音提问，谢谢。发言人4 51:08好，下面我们请中公基金陆总提问，谢谢。发言人2 51:陆总能听到19吗？你好，佳佳能听到吗？发言人3 51:你好，罗总，你好。发言人2 51:我问了一个问题。事实上，OKI自己定义了这个模型。它不是简单地将自己定义为一个视觉模型和一个世界模拟器。你应该说看他对这个模型的定位，或者他可能对整个模型有一些影响。发言人3 51:事实上，这个定义定位不仅是OKR在提像RV，就像皮卡一样，还包括RV在你自己的白皮书中。在你的官方网站上，你说你也想要世界模拟器。因为在过去，有一个叫杨丽坤的图灵工程学，然后他总是觉得纯语言模型不能成为真正的世界模型。然后一定要考虑更多的输入方法。例如，在训练过程中，你必须使用人类感知到的东西，如视觉和听觉，然后使用各种多模态数据来完成世界模型的构建。然后我们实际上认为这是一件非常宏大的事情，就像元宇宙一样，它是一个世界模型，它是一个理想。然后你可能会沉迷于你非常不严格的模型世界模型。所以这是一个目标，就是慢慢达到越来越多的人能感觉到生活在其中也很好的地步。所以对于这样的终极目标，其实对大家都有好处。发言人3 52:56从商业角度来看，比如我是一个会计能力的人，我知道我，我，我，我，我的天花板太高了。过去，我做这么小的显存就可以了。现在我相信我必须在各个方面进行大规模的改进，以适应这种世界模式在未来的存在。在这种情况下，事实上，投资者也认为，我的奥特曼提到的7万亿美元现在已经上升到8万亿美元，这似乎已经成为一种可能。然后做内容的人认为我将来可能会基于这个世界引擎，然后我会做很多新的内容，然后都成为可能。其实这是一个非常宏大的终极目标，就像元宇宙的世界模型和元宇宙一样。事实上，前进的挑战还有很多前进的挑战。因为你说像那个vision pro，就像有一个著名的问题一样，你能想象在未来的世界模型时代，我们还会用手机融入世界模型吗？对于新的交互设备，新的终端设备，可能会有很多不同的影响。包括存储，会对各方面进行加密，会对身份、数字身份等进行各种推广，这是我认为是一个很好的理想。发言人2 54:18.我明白我还是想问一个问题，就是在他展示的这些视频中，你觉得他对世界物理逻辑有一些理解。发言人3 54:其实他不叫理解，应该叫预测，或者说他自己的话叫模拟。因为理解的话就是我知道我知道什么，然后把它作为规则知识掌握在他身上。然后他通过像token这样的拍摄来预测更多，比如现在的拍摄，然后预测人们想看到的最有可能的内容。然后，当这个预测神道就是你合道，大多数人认为这是他的想法时，他似乎理解了这个世界。但事实上，他是一种预测，只是他的预测预测了人类的理解。理解，它仍然是一个概率问题，最终它仍然是一个概率问题。发言人2 55:21明白。发言人3 55:你认为未来可能会发生什么？发言人2 55:24领域可能会有比较。发言人3 55:26大的一些影响？发言人2 55:比如会不会像自动驾驶？发言人3 55:32还是很简单的，就是我我说的一件很明显的事情，就是去年前年，2022年，然后gartner盖特纳提出预测，到2025年到明年，人类生产的所有数据中有20%或者AI生产的数据。当时觉得太夸张了，现在好像没那么夸张了，就是明年可能会刷抖音，刷小红书。20%到30%的内容都是AI为你制作的。也就是说，你肉眼看到的20%到30%实际上是由人工智能制作的。这是一种非常明显的评价理解，它可能会对方面产生影响。好吧，谢谢你的专家，谢谢你的专家，我这里没有其他问题。发言人4 56:33好，谢谢你的提问。专家我这边还是看到网上有文字问题，然后想因为时间紧，请简单回答一下。首先，我看到你刚才提到了很多内容生成。但是你认为生成内容的工具是大模型制造商，还是一些具体的独立轨道公司？他们使用的独立轨道公司的工具是什么？这也是我们最近讨论的一个问题，比如P2或PS等工具，你认为未来会有什么样的进化，或者改变这个方向，谢谢。发言人3 57:我认为这些东西实际上会成为模型上的插件。由于SD生态给了我们一个很大的启示，那就是很多非常优秀的西瓜dev上有很多插件实际上非常强大。例如，当connect在前年、前年和前年推出时，它实际上大大增强了整个生态系统中所有应用程序对项目和角色动作姿势的控制。我们认为这些东西可能会成为模型上的插件功能。然后，例如，如果您生成一个模型，您可以生成一个内容，然后您可以在此内容中控制一个插件，以增强其一致性，增强其连续性或符合物理直觉，也就是说，类似于CPS商店，它将依赖于大型模型。我认为这是一个很大的可能性。是的，就这么简单的答案。对。发言人4 58:十二好，谢谢。非常清楚。事实上，另一个问题是最后一个问题，那就是你如何预测后续文生视频模型的技术进一步演变和可能遇到或难以跨越的困难？你预计这需要多长时间？谢谢。发言人3 58:30实际上是计算能力较低，然后生成越来越高质量的内容。最重要的一点是如何做好更好的压缩工作。哼就是你能学到更多的内容，尽可能多的内容，有更少的计算能力。当你再次输出时，不要花这么长时间去做例子，甚至可能需要一些过渡手段。比如前期能不能说这么高清，而是生成一些低清，然后等到需要的时候再生成高清等等。发言人3 59:04还包括一些对齐问题，实际上是要克服的问题。就像刚才提到的一些不符合物理和直觉的东西，然后如何一步一步地对齐。它可能有一个特殊的对齐模型，然后来去优化这些东西。也可以通过外部工作流来优化这些东西。总的来说，我们认为对齐可能会成为一个大行业，因为这是一个难题，可能会成为一个从数据处理到模型上层应用的野生堆积行业。发言人4 59:39对，明白。你认为这个对齐和标记是谁来完成这个B对齐的？这些公司是模型公司还是过去掌握数据，掌握许多客观或虚拟的数字主体。发言人3 59:54对，另一件事是从训练开始，从训练的原始数据和问题，然后到应用水平，到加强学习问题，到人类反馈。IHS是像大语言模型这样的人的反馈，然后你需要去这样的过程。所以每一个过程都可能是一个行业。例如，在原始训练的原始数据训练中，过去可能有很多数据标记人员。那么现在你可能是这样一个对齐人员，对人才素质要求更高，然后做数据类型。发言人4 01:00:38好，谢谢专家，我们今天的交流，你刚才有很多问题，你的回答也很精彩，谢谢专家的时间，也感谢你的现场，也希望我们今天的云周派会议能帮助你的投资，也希望你开始，明天有一个良好的开端。谢谢你，谢谢你，谢谢你的专家。谢谢。好吧，再见。好吧，拜拜嗯嗯嗯嗯嗯嗯。股市调研