行情频道: 行情 / 知识 / 新股 / 要闻 / 基金 /

嘉宾:

超讯智能总经理胡总

七火山CTO /AI图像视频技术专家Jason黄

Sora在春节期间横空出生,让大家想起去年春节的chatgpt横空出生。每个人都没有想到文本生成视频或小说,信息描述,很快就能生成梦想世界会很快,边际成本急剧降低,可以做很多人类不能做,生成效率大大提高,但我们最关心的是受益的方向,必须有视频内容实现渠道。因为Sora本质上是一种生产力工具,它会使公司创造的成本效率在各个方面都发生指数级的变化。刚才也提到了最重要的一点,它可以让很多人类或公司在现实生活中看不到,甚至在物理世界中违背一些梦想的世界出来。因此,它对整个视频实现渠道具有重要意义。

超讯在这方面有一个特殊的布局。目前,超讯通信是计算生态的新战略启航,布局在三个部分,一个是计算能力数据和人工智能应用。那么今天重点与大家分享的公司超讯通信战略投资企业,积火山的多模式相关业务。七火山作为公司在计算能力数据和战略生态方面的重要布局,公司投资了30%的人工智能应用,其核心业务主要依靠自建的处理模块、算法能力的转化和优化,创造高质量企业具有场景商业化的多模式内容。目前,吃火山有三个平台。第一个是公司的多模式内容生成平台,第二个是公司自己的视频平台迷你图片。目前,迷你图片已跻身印尼应用前三名。然后第三个是公司的超分图内容生成平台。目前,公司的多模式生成平台是海外快手在海外商店推出的短视频应用。目前,印度尼西亚的月度应用已达到4000万用户,双方也形成了视频内容的战略合作,双方将达成不限于视频内容的合作,以及内容平台的一些合作。未来七火山也将以技术为基础,面向全球市场,短剧内容不能出海。激活中国丰富的内容储备。内容的快速生成处理在技术上实现。短期出海市场面向全球。构建视频短剧的生态内容,为后续更多的视频平台打下坚实的基础。

Sora出生在时间点,必须有自己的节奏安排,因为只是在公司发布前几个小时,谷歌刚刚发布了他们的模型,所以也稀释了竞争对手的节奏,当然,这些可能不是很重要,因为Sora本质上,它最大的亮点是两个,第一个是它的语义理解,它实际上是基于原openAI整个现在chatgpt构建的深厚基础。无论是文生视频还是文生视频,您都可能需要让模型理解您的输入提示。理解语义深度的模块相对较浅,或者其维度在向量维度上相对较低。因此,我们必须写一个非常复杂的提示,或者它能理解的东西只能停留在一定的水平上,因此制作的东西可能并不令人惊叹,但是openai可以理解你输入的提示词的语义,因为它有chatgpt的长期技术演变,它的维度明显高很多个量级。因此,这导致了后来的DALLE 3出生后,其文生图的质量突然提高,可以在一定程度上与midjourney进行标杆。因为底层模型,其实大家还是在diffusion扩散模型上,但是因为它对语义的理解增强了,所以可以一下子把文生图补上。如果你直观地解释说,midjourney可能是一个微级版本,那么你理解提示词的能力可能相当于小学三年级和四年级的水平。如果你直观地解释它,也许midjourney是一个微观版本,那么你理解提示词的能力可能相当于小学三年级和四年级的水平。如果你让一个孩子理解同一段话,它能理解的语义的丰富性肯定是有限的。但如果你开始接地气,它的能力,然后达到DALLE 在3级之后,它的理解可能相当于一个20岁的人。同一段话,一个成年人所理解的语义的丰富程度肯定是远远不同的。因此,一旦底座的模型能力足够强,它能做的事情可能会远远提高几个维度。这是Sora获得经验的第一点。第二点实际上是Sora本身的一种训练方法。训练方法与以往的其他竞争对手有很大的不同。竞争对手的训练都是用图片训练的。它制作了一些原始图形和视频的切片,然后将每个切片理解为一个截图,然后将一系列截图交给模型进行训练。所以本质上他们的训练是训练生成图片,想要生成连贯的图片,但无论如何,它的模型理解这些训练语料的所有内容都是图片,你可以比较,在一些理解之前,它的模型能力在哪个方向或强弱,实际上是由两个因素决定的,第一个是你用来训练语料的质量和丰富性,第二种语料本身包含的信息量类别,例如,如果你的语料是英语,它只能训练它的模型,它只能回答与英语相关的问题,但如果你的语料包含各种语言,它实际上可以回应一个大模型的各种语言。因此,如果再次映射到Sora的进步中,它与以往文生视频等竞争对手的区别在于它直接通过视频进行训练。它直接把这些视频作为训练语料,扔给Sora模型,所以它的训练和以前的明显区别是直接学习视频,然后生成一个模型,所以你会看到现在的解释会出现观点。首先,它可以实现单视频的多角度生成。同一个视频中似乎有多个镜头,然后同时拍摄。最后,连贯性是完整的。首先,它可以实现单视频的多角度生成。同一个视频中似乎有多个镜头,然后同时拍摄。最后,连贯性是完整的。二是它是对物理世界引擎的模拟。有两种观点,最近在上面讨论了很多。但事实上,真正的原因是这些用于训练的视频本质上映射了整个物理世界。这些视频是用来训练的,原来这些拍摄电影或者一些视频片段都是用来反映一些内容的。因此,这些内容在拍摄时猜测,这些视频可能是现实世界中的一些视频,比如你看到的物体的运动,或者一些生活场景。因此,在Sora学习了这些视频后,它实际上有能力生成视频。当然,如果用于训练的视频是科幻小说,或者是一些更富有想象力的视频,它生成的视频可能会跳出更多。所以说实话,事实上,整个索拉模型的训练方法与其他竞争的区别在于它是通过视频进行训练的,而其他竞争仍然停留在用图片进行训练的。如果你深入阅读Sora训练,根据他们发布的技术文档,它使用了一种叫做pitch的技术理念,可以简单地理解为每24帧的一组图像,或24帧的最小单元,因为视频实际上是一组连续图像,根据卡通标准,如果每秒有24帧,你会看到一个连贯的图像。最小单位24帧,将每24帧作为pitch,然后在模型的潜在向量空间中学习和操作laterstates时,要求模型学习pitch的连贯性。因此,我们可以看到,Sora生成的视频内容比之前竞争生成的一致性和平滑度要好得多。这就是技术的先进点。它将每24帧作为最小单位的pitch,然后交给模型,要求模型完成一个过程学习,因此,当它最终生成时,它可以根据模型所学到的东西很好地完成一致性。然后,我们看到的视频内容会觉得很连贯,不再像我们看竞争那样跳跃。第三点在于尺寸控制,因为Sora训练这些模型本身是真实的,也许我们可以在网络上看到这些视频,所以加上它的视频内容处理,切片和足够的计算能力训练模型,所以它可以做不同于以前的文学视频,它可以提高视频的清晰度或分辨率到一个很高的水平,你以前能做的可能是使用一些差异,使用一些后期预计计算方法,可能是256或512,已经是一个天花板,但它可以直接去2048甚至更高,所以这个技术,也是它以前在DALLE 3里面的一些积累。然而,在过去的一小段时间里,你可能会看到,还有另一种超分产品叫做magnifier。当然,超分产品实际上有一个类似于七火山公司的相应模型,叫做Bromo。然而,事实上,在文生视频或文生图片领域,在最终提高分辨率的层面上,同一组技术能力正在得到支持,然后openAI提高了Sora模型中过去积累的提示词的语义理解维度。其次,它的训练方法明显不同于以往的文生视频。它是直接用视频和pitchs细节的技术思路进行的训练。其次,它的训练方法明显不同于以往的文生视频。它是直接用视频和pitchs细节的技术思路进行的训练。第三,他们借用了之前的DALLE来提高分辨率 积累一些能力,然后把这些东西结合起来。最后,他们在人工智能领域做了一些长期的领先公司。他们有足够的计算能力,然后有足够的勇气去做这件事。因此,它在时间点推出了Sora的文生视频模型,这让整个行业感到惊讶,也让每个人都有足够的想象力,在视频领域使用人工智能作为未来的生产力工具。

Q:然后我先从技术和商业化的角度问你几个问题。首先,你刚才提到的第一个也是Sora使用的一些培训数据。你认为它实际上使用了现实世界的数据。我们还可以在互联网上看到一些技术解释,以及它是否可以使用类似于unity的合成数据,因此,我不知道从技术路径的角度来看,如果公司可以从哪些维度来判断,您是否可以解释它,Sora训练的必须是真实的,而不是像一些在线科普文章,说使用这个合成数据,这是一个技术问题,所以我想咨询你。第二个是商业化。公司可以看到,无论是runway还是皮卡,它都会再次着陆。商业着陆实际上是有针对性的。例如,皮卡是面向所谓动画的,具体是日本漫画的。那么Sora就有点像视频编辑。在这方面出来之后,你认为在这一分钟里,它最好的商业着陆方向是什么?

A:首先,第一个问题是它的训练组成,只有一些推测。要知道整个Sora模型,在理论方法上,根据他们官方发布的技术文档的解读,我们可以清楚地知道,它仍然是扩散模型和transform的组合,在训练上没有区别。事实上,transform是2023年初整个深圳人工智能理论的基础,因此,它在论文中提倡的方法在许多领域得到了不断的应用,并验证了它的有效性,包括七火山制作的视频和短剧视频的变化。事实上,这套技术比几年前的计算机视觉有了明显的技术进步,这也是因为transform在当前模型中使用了这种方法。因此,在Sora实际上,从训练的角度来看,它仍然是一个扩散模型和transform驱动,然后剩下的取决于它进入训练的语料的组成。因此,从训练的本质上讲,Sora仍然是由扩散模型和transform驱动的,然后剩下的取决于它进入训练的语料的组成。因此,我们可以看到的非现实或一些我们认为不合理的内容大致可以理解为扩散模型本身的一些常见问题。因此,从训练的角度来看,如果是合成的,事实上,对于整个人工智能生存来说,它完全走在了另一条技术路线上。就我个人而言,我认为它不太可能与其他引擎合成。事实上,他们希望使用一个完全通用的模型,通过足够强大的计算能力完全支持大模型,然后他们可以在未来完成一切。然后第二个问题是你刚才提到了商业化的好处,因为从现在开始,它可以释放一个视频时间,因为其他视频产品可以在3秒到6秒之间完成,然后通过一些拼接最长可能达到12秒,这是一个极限。由于其计算能力的支持及其图像处理的连贯性,实际上是严重限制其输出时间的天花板。Sora拥有强大的基础模型和训练技术方法改进,现在可以做60秒,实际上时间也对应于一些短视频片段,特别是像七火山和主要平台合作短剧业务类型,所以相信Sora在未来的短视频内容,特别是对于快节奏的内容,实际上会有很大的帮助。

Q:七火山和超讯的结合产生的化学反应是什么?以及为什么这种反应可以很快被主要的短视频平台所接受,因为从我们的理解来看,各种短视频平台都在海上布局。这种短剧可以有很高的粘性他们应该自己做产品。必须承认,短视频平台的技术能力也会比较强,那么为什么要选择我们而不是自己去做呢?

A:超讯与七火山的战略合作,那么我觉得首先可以战略合作走到一起吧?即使是与七火山相关的系列产品,无论是我们的多模态平台,还是我们的超分图平台,然后我们的客户端,事实上,已经得到了一些快手的整体认可,双方必须是一个强有力的合作。超星通信战略投资了我们的七火山。首先,我认为作为超星通信的代表,我认为我们对计算能力、数据和未来人工智能垂直布局的第一个战略决心。我认为这一定深深打动了我们的七火山创业伙伴。对吧?那么在未来,我们也必须希望我们能够在数据和我们的计算能力资源中实现更多的授权,让七火山有更强大的计算能力基础,释放他们在平台上的智慧,制作更好的垂直大模型,以及一些更接近应用场景的应用程序。正是这种双方的强大合作,我认为我们产品的整体质量,包括我们之前谈论的整体聚集水平,以及我们的面部效率,也是我相信移动是快手海外作为我们战略平台合作的基础。

我刚才在演讲中提到,从模型到应用程序之间实际上有一个gap。无论模型有多强大,它总是需要一个着陆场景,并且有一个特定的业务可以充分发挥人工智能能力。事实上,我们看到了很多大模型,觉得能力很强,但说到应用程序,我们可能会觉得在实际场景或业务中似乎很难得到价值的体现。这正是我们在短剧业务形式上所拥有的业务本身的基础,无论是在中国还是在海外,事实上,无论是个人,还是像快手平台一样,我们实际上都在关注这个方向,因此,从商业的角度来看,它已经是它已经拥有的一个基础来承载。然后从人工智能可以做的事情,就像我们现在正在做的人工智能短剧出海一样,通过技术处理完成许多国内短期内容的本地化,可以快速发行到海外市场。事实上,我们已经为这一点做了很多技术准备,因为我们所看到的可能是一个更视觉的呈现。例如,我们可以快速翻译一部国内短剧的字幕,然后配音,改变主要角色的面部,然后成为一个快速低成本,然后有效地实现内容的本地化,我们可以在海外发行,包括现在我们已经在巴西市场和印尼市场开展了类似内容的合作。事实上,他们也希望这些国内优秀的内容能够在本地化处理后填写平台的内容,然后继续增加平台在当地市场内容方面的影响力。事实上,他们也希望这些优秀的国内内容在本地化处理后能够填充其平台的内容,然后继续增加平台在当地市场内容方面的影响力。然后我们可以与超讯达成合作,完成从计算能力到数据,最后到人工智能应用程序的实施,并通过特定的业务完美地承担中间的gap。另一个在Sora诞生后,我认为没有必要悲观,因为我们仍然认为open人工智能一直有一点,虽然受到批评,因为它宣布这些技术细节没有具体,但它有一个非常重要的点,它为整个人工智能行业开辟了一条道路,就像以前的chatgpt一样,它们实际上是技术路线的选择之一,然后,但一旦它开通了这条路,那些大工厂立刻意识到,哦,在原来几条路线的选择中,也许这条路可以通过,然后每个人都蜂拥而至地转向这条路。事实上,Sora为整个行业指明了一个方向。Sora实际上为整个行业指明了一个方向。我们相信,Sora出现后,首先会释放自己的能力,因为它会让更多的人关注,然后在未来使用。第二,一旦方向走了,我们相信会有更多的公司,包括开源社区,会在方向上进一步探索技术。事实上,这些新兴技术的能力在未来很容易被我们吸收和转化为我们的业务。另外,我最后补充一点,其实大家都会知道openAI还开了一个叫微调的能力?你不必自己训练一个大模型,而是。在您提供数据的模型之后,它可以根据大型模型和您提供的数据进行微调培训,然后微调的私有化小型模型可以用于您的业务。就Sora的应用而言,思路还是会存在的,我在这里交流的时候可以明确讨论。我们可以把手中短剧内容的视频作为训练语料,然后对Sora的大模型进行微调训练。我们可以根据我们提供的训练内容,如某种类型的短剧或某种类型的短视频内容,然后在微调训练后,我们可以利用Sora的能力生成类似的内容,这实际上具有很强的应用意义,当然,做一两分钟的短剧可能还有一定的距离,但对于一些短剧片段的重写,或者生成更多的内容,更互动的内容,这是一个非常有价值的技术方向,这是我们现在密切关注和研究,因为我们也会发现,事实上,很多内容需要更开放的结局,它可能会引起观众的兴趣,这就是为什么去年有一个互动短剧的视频游戏会引起很多关注。事实上,如果我们使用刚才的微笑训练方法,我们可以使用现有的内容,然后无论是图片还是短剧片段,然后交给Sora模型进行微调训练,我们可以要求它根据情节生成其他结局,因此,在现实意义上,它也将得到一个非常具体的应用,而不是一个模型或工具,只是用来品尝每个人的新鲜度。

参数为30B,因为图像模型的参数在技术上远小于文本模型。在数据方面,我们预计Sora的训练数据必须精心挑选,OpenAI对数据有独到的见解。从我世界的视频来看,为什么这个视频是文本生成的,而不是引擎渲染的,因为OpenAI试图构建AGI系统,即人工智能解决所有问题,而不是单独添加引擎来生成视频。之所以能够模拟我的世界游戏视频,可能是因为我在数据层面做得很好。人工智能知道如何支持材料生成我的世界视频,这可以在别人问的时候顺利生成。简单来说,Sora不是直接把视频扔给他的,而是人类的全过程监督和互动训练。

Q:Sora对数据库行业的影响?

A:OpenAI实际上担心其模型能力太强,导致中小型制造商无法使用,因此RAG算法的开发甚至可以在一定程度上取代向量数据库。当然,一般来说,使用什么数据库取决于客户的需求。例如,如果客户是文本量大的行业,如法律和医疗教育,或者使用向量数据库,小型应用RAG就足够了。OpenAI一直试图降低AI使用的门槛,比如发布GPTS让AI 降低Agent的门槛。

Q:Sora对超讯的提升?

A:该公司是一个巨大的受益者,因为Sora是一个大模型,可以输出稳定和高质量的短视频,可以用来训练公司自己的模型。数据越好,就越有可能生成观众喜欢的短视频。目前公司的文生视频AI可以生成几秒钟,预计未来会生成60秒。未来文生视频产业的发展也有望像23年文生图那样迅速发展(23年初很差,23年底很精准)。二是短剧。短剧在海外拍摄成本很高。Sora可以生成更多的短剧,然后更好地加工和本地化公司的人工智能技术。

Q:七火山大模型自研吗?

A:公司的大型模型来自开源模型,并继续喂养数据培训和参数调整。例如,在视频拍摄中很难拍摄场景,所以我们使用人工智能文学生视频来代替它。

Q:超讯目前拥有30%的七火山,未来规划?

A:超讯是七火山目前最大的单一股东。如果未来是1+1>2.不排除进一步增持。民生证券

相关阅读
  • 发言人2 01:今天我们的整体会议主要分为四个部分

    发言人2 01:今天我们的整体会议主要分为四个部分

    发言人2 00:57下午好,各位网上投资者。今天是新年的第三天,然后我代表我们的国信互联网团队祝您新年快乐,龙年快乐无尽。今天,我也很荣幸有机会与您讨论国内外人工智能大模型的应用趋势,以及国内互联网制造商对人工智能的...

    2024-02-16 09:37:19
  • AI大模型的定义和分类

    AI大模型的定义和分类

    AI大模型的定义和分类人工智能大型模型是指具有巨大参数和计算能力的人工智能模型。这些模型通常采用深度学习技术构建,在培训过程中需要大量的数据和计算资源。这些大型模型的目标是通过学习大量的数据来捕获更多的信...

    2024-02-18 12:40:05
  • 香港股市连续三天开盘上涨 微创医疗大幅上涨24%

    香港股市连续三天开盘上涨 微创医疗大幅上涨24%

    自龙年第一个交易日以来,香港股市连续三天取得了长足的进步,相当热闹。2月16日,香港股市再次大幅上涨,恒生指数再次上涨1.6万点,上涨2.48%;恒生科技指数上涨3.71%,TMT板块高温不退,万国数据上涨近15%,阅文集团上涨超过10%;此前...

    2024-02-18 09:55:00
  • 国内人工智能芯片制造商正在崛起,预计国内化趋势将加快

    国内人工智能芯片制造商正在崛起,预计国内化趋势将加快

    简介:目前,国内经济正从传统动能驱动向新动能驱动转变,新动能是未来增长空间最广阔的领域。数字经济,AI、近年来,以高端制造业为代表的新驱动力方向不断催化,预计将逐步反映在股市的投资机会中。我们选择了2024年产业发展的...

    2024-02-18 12:29:00
  • 上证综指春节后第一个交易日没有明显的“良好开端”规律

    上证综指春节后第一个交易日没有明显的“良好开端”规律

     回顾过去20年(2004-2023年)的历史数据,上证综指春节后第一个交易日没有明显的“良好开端”规律,11个节后第一天上涨,9个年后第一天下跌,上涨概率为55%。  然而,自2018年以来,a股“良好开端”的概率急剧上升。近六年来,...

    2024-02-17 09:39:36

本文嘉宾:超讯智能总经理胡总七火山CTO /AI图像视频技术专家由壹米财经整理发布,欢迎转载收藏,转载请带上本文链接。
免责声明:【壹米财经】发布的所有信息,并不代表本站赞同其观点和对其真实性负责,投资者据此操作,风险请自担。部分内容文章及图片来自互联网或自媒体,版权归属于原作者,不保证该信息(包括但不限 于文字、图片、图表及数据)的准确性、真实性、完整性、有效性、及时性、原创性等,如有问题,请联系我们! 分享到: 新浪微博 微信

扫描左侧二维码
看手机移动端,随时随地看 股票 新闻