行情频道: 行情 / 知识 / 新股 / 要闻 / 基金 /

算法和数据对多模态大模型的发展同样重要。未来的趋势可能是前端特征集成的统一网络结构,同时提高数据集的质量和数量。在商业模式方面,多模式大模型在电子商务领域取得了成功,未来可能在城市治理、住宅业务等更多领域发挥作用,特别是在C端社交娱乐应用中,预计未来模型成本将降低,提高模型成本性能是关键。GPT4的高价格主要是由于模型推理成本高,降低成本的方法包括模型优化和算法创新。同时,在应用层面选择合适的模型并进行工程调整。基本内容有两种结构:目前,我们已经关注了许多模态模型。纵观目前的多模态架构,主要可分为两种。第一种是伪多模式的形式,主要是将以前的视觉模型或各种模型拼凑在一起,然后通过基于大模型的专家系统进行控制。最近,智谱和贾佳亚的新框架旨在在前半段整合视觉信息和语言信息,从而丰富对语义信息的理解。这种形式很容易引入和迭代,但本质上是串流程的一种方式。最近的另一种形式是多模态原生,目前谷歌的Gemini就是这样一种形式,gpt-4由于模型的具体训练方法尚不公开,尚不确定。这种多模态原始模式将通过图片直接理解信息,跳过图片和文本转换之间的链接。这种形式有效地避免了伪多模式形式在前融合中丢失信息的问题,使更多的信息用于模型理解,从而产生更好的效果。目前,这一新概念正在不断推动更多新框架的产生。应用场景:多模式的第一个常见应用场景是自动驾驶。例如,近年来发展迅速的BEV感知框架,即从透视图到鸟瞰图的图像。基于Transformer架构的提出和技术验证,制造商在这一领域进行了许多尝试,并测试了多模式大模型在自动驾驶技术领域的支持作用。目前,我们对整体表示乐观。第二种应用场景是机器人的智能。机器人只能在未来发展。它必须需要各种视觉、语言和文本的融合。在过去,前置集成不能产生优异的效果。在未来,机器人模仿人类行为,机器人需要多模式、大模型来实现语音和视觉的良好融合。在未来,这一方向和配套的端侧设备也将得到开发和应用。第三种应用场景是电子商务媒体和营销。以往的形式主要是智能客服根据客户反馈识别和回复设定的信息。这种形式往往过于僵化,往往局限于单一图片和文字之间的互动,无法像真人一样交谈。未来,随着多模式和大模型的发展,人工智能可以通过图片和视频状态直接提取信息,获得更高的精度,产生各种形式的回复和响应,具有更好的体验感。通过对多模态大模型的微调,可以拓展、细化、具体化下游B端的应用。此外,在多模式和大模型的影响下,商业模式也将进行迭代和改变。在过去,各种模式主要使用单一文本。在未来,我们也将尝试朝着视频、图片和音频集成的方向发展。未来,大多数领域将受到多模态的影响和影响。一些低语义理解场景可能不会受到未来多模态的影响。这种场景往往不需要解释负责任的语义形式,而是一种低维或单维的信息判断和理解。例如,在传统的工业质量检验场景中,纯视觉场景仍有一定的应用,判断是螺钉还是螺母,以及产品的外观和质量,以及是否有划痕。Q&AQ:在数据问题上,Google的大量多模态数据并没有提高大模型太多?两个维度,第一个维度是多模态能力,测试分为两个方面,一个是多模态能力,是全面滚动GPT-4,另一个是语义理解能力,在相同的测试条件下,语言能力比GPT-4差。不同的训练逻辑,gemini的所有数据都是以多模态维度训练的,在本地训练网络结构时,都是以多模态训练的,gpt-4turbo训练时,单独的视觉模块和语义模块想要结合(猜测是后融合)。多模态能力优于gpt4,语言能力与gpt4相当,fiveshot语义能力不如gpt4。Q:过去参数增长了很多倍,未来参数规模会下降。如何提高模型能力?gpt3.GPT4号称为1750亿(未确认),GPT4号称为1.8万亿。原来是密集的网络结构和稀疏的框架(每次提问都要通过整个网络)(不是全部通过,moe架构)。整体模型参数为1.8万亿,每次推理的参数可能只有100亿或更小。在发现gpt4是moe架构后,大家都这样发展(参数规模不是推理的参数规模)。最近大家都在提到bom视觉leverage model框架,以前效果不够好,因为信息丢失在前面,所以要做好框架,让前面的信息得到。我们的模型参数将继续增加,模型参数的摩尔定理(规模将增加10倍和100倍)。主要是人工智能边界、框架改变、堆叠参数等问题,随着人工智能参数的提高,相应的硬件、软件将得到开发。在新加坡留学的团队专门从事流水线加速,这也是产业链的一部分:谷歌号称为原生多模态,无论密度还是稀疏,参数规模都在扩大,推理成本会很高,怎么办?Google现在是一个相对密集的模型,而不是moe架构。模型先训练大,然后量化。之前的一个实验量化了70B100亿级模型,精度有损失,但精度比直接使用小型模型好。单卡3090上的速度提高了两倍多,精度下降可控。因此,一种方法是先训练模型,然后量化,效果会有少量的精度下降,但推理效果会大大提高Q:传统四小龙有机会做好国内多模式吗?智谱和minimax。有什么智谱出来了。minimax团队拥有多模态基因、三维基因、文本、图像、语音,今年前段时间推出音频生成,使用良好。等待开源的百川。阿里巴巴还推出了大型应用程序,最近发表了一篇新论文。从论文的角度来看,它离产品化还很远。还有一些新公司专注于特色领域的多模式。最近,出海有一个很好的场景。原来的四小龙机会不大。Q:openai已经开通,大模型公司的版权数据外出的商业模式是否长期有效,这种商业模式是否会在中国使用?日本和其他国家对大模型使用版权数据有豁免权。在中国,大型模型的数据版权使用不会像传统数据(道听途说)那样严格。我认为这是正确的,因为我们应该使用数据来提高模型的能力和效果。听说在探索数据宽松政策的过程中。Q:如何看待国内多模式大模型与海外的差距?计算能力的后续迭代需求?多模态的差距不如语音模型大。之前对gpt-4做了一些定性对比,有些案例问答的细节回答得更好,但这并不代表整体精度水平。过去,从大语音模型的角度来看,语音模型已经达到了一定的基准,与国外gpt4相差一年多。像gemini这样的模型大约需要一年的时间。基于Google的geminicpu,未来多模态训练将扩大gpu的计算能力?这一块没有信息。然而,计算能力增长仍然存在,但无法准确回答Q:数据还是算法是影响多模态大模型的核心能力?除了广告营销出海的场景,从商业落地的角度来看,多模式大模型的价值在哪些垂直领域更有前途?两者都很重要。在算法方向上,趋势是从以往特征集成的后置模式转变为前置特征集成。智谱代表了中国追求大模型的前沿。GLM到VLM的变化表明,算法框架正在向前置特征集成的方向发展。目前,整合还不够彻底,网络结构仍然区分视觉和语义。未来的趋势可能是统一的网络结构,理解视觉和语义,形成终极方向。数据维度的增长是未来的趋势,多模态数据的高质量数据仍然有限,数据集的维护和增长是关键。在多模态任务中,高质量的数据非常重要。对于多模态任务,数据集的质量和数量决定了模型性能,特别是对高质量视觉语言、音频语言等监督数据的需求尚未得到满足。在应用场景方面,电子商务是多模态技术应用最繁荣的领域,特别是在跨境电子商务领域。多模态技术在广告推广和样本效率方面发挥着重要作用,特别是在国内电子商务生态中。Q:除了电子商务广告营销,其他更有前途的场景?比如城市治理?新基础设施在城市治理和住宅业务中的应用趋势是在包括中央国有企业在内的B端和G端应用语言模型和多模态模型。然而,实际应用场景相对较少。以前有一个系统,两年没有人使用,所以我对G端和大B端的应用场景并不乐观。B端可能在政府服务等方面有一些应用,但对多模态的要求并不高。相比之下,C端社交娱乐应用,如AI社交APP,有更好的多模态应用场景。在聊天场景中,只需要识别文本、语音和图片等多模态信息,而一些泛娱乐社交软件在这方面表现良好,如Minimax和星野。星野等应用在二维社交软件中具有良好的用户趋势,对多模态的需求较高,这可能是一个更有前途的方向。Q:GPT在OpenAI定价方面非常昂贵。是因为模型本身的推理成本贵,还是因为其他原因?我觉得价格不会下跌。如果谷歌pro定价,可能和GPT4一样贵。从模型开发商的角度来看,有没有办法降低成本?是模型设计还是其他因素?GPT4的成本主要取决于模型推理的复杂性和参数的复杂性,以及相应的计算能力要求。由于成本高,价格也比较贵。Gemini GPT3.5是Pro对标,Geminini GPT4是Ultra的目标。然而,Gemini Pro的效果可能不如GPT3.5。优化模型外的方法包括判断简单问题,避免不必要的大模型处理;使用知识库进行匹配,以理解降低搜索复杂性的意图。另外,根据问题的复杂性,可以采用不同模型的层次来选择合适的模型。工程优化从应用层面进行,如在最初的决策阶段使用大模型,以降低简单问题的成本。同时,通过将大模型迁移到小模型进行蒸馏,实现加速,是降低成本的另一种方式。目前,电子商务领域的多模式表现相对繁荣,特别是在社交娱乐应用中。例如,星野等人工智能应用对语音、图像、文本等多模态信息处理有很高的需求,这是一个相对成功的应用方向。总的来说,通过模型外的优化和算法创新,未来模型的成本有望进一步降低,从而提高性价比。在电子商务、社交娱乐等多模态应用场景下,多模态信息处理将成为发展趋势。三思行研

相关阅读
  • 鸽派言论:明天早盘市场将继续下跌,然后重量将再次上升

    鸽派言论:明天早盘市场将继续下跌,然后重量将再次上升

    简单说一下今天的市场。由于美联储昨晚的鸽派言论,美国股市创下新高。随着这种氛围,a股今天也开盘走高,但市场走势是高开后持续下跌。原因是之前的原因。市场对当前市场没有信心,机构在这种氛围下也没有进行任何操作。我...

    2023-12-14 15:33:09
  • 静丙驱动:公司业绩有望受益于静丙需求增加+中长期供应紧张+院

    静丙驱动:公司业绩有望受益于静丙需求增加+中长期供应紧张+院

    公司亮点:(1)静丙驱动:公司业绩有望受益于静丙需求增加+中长期供应紧张+院外市场涨价。(2)浆站发展:实际控制人变更为陕煤集团,预计将迅速带来陕西省、保供省和投资省的新浆站资源。未来五年,预计每年新增约2个浆站,目标明...

    2023-12-14 15:34:44
  • 重大事件!美联储昨晚宣布保持利率不变!

    重大事件!美联储昨晚宣布保持利率不变!

    重大事件!美联储昨晚宣布保持利率不变!有卖方认为,与11月1日发布的利率决议相比,决议措辞明显偏鸽,明年可能会降息三次。一夜之间,美股道琼斯指数创下历史新高!纳斯达克和标普500也跟随了一波。额....怎么形容?李成儒老师说:...

    2023-12-14 15:32:35
  • 公司积极探索人工智能+游戏玩法

    公司积极探索人工智能+游戏玩法

    1、AI+游戏领先落地:1)河马游戏(Hippo Joy)2023年6月,AI休闲游戏《大侦探智斗小AI》《AI宝藏在哪里》发布,在中国港澳台IOS免费榜上表现出色。2)积极探索GPTS游戏应用,开发推出AI Hippo-Detective(与大侦探智斗小AI玩法)。2...

    2023-12-14 15:32:36
  • 权重股拖累指数不上涨!

    权重股拖累指数不上涨!

    周四上午,市场呈现出高开震荡的格局。投资者可以看到,上证指数早盘高开10:00至2979:0,创业板高开12:00至1884:00,早盘市场高开后高开,最高2986:00被阻止下跌。盘中小幅下跌后,最低2968:00稳定,确认昨日分时线低点共振支撑有...

    2023-12-14 15:33:04

本文算法和数据对多模态大模型的发展同样重要由壹米财经整理发布,欢迎转载收藏,转载请带上本文链接。
免责声明:【壹米财经】发布的所有信息,并不代表本站赞同其观点和对其真实性负责,投资者据此操作,风险请自担。部分内容文章及图片来自互联网或自媒体,版权归属于原作者,不保证该信息(包括但不限 于文字、图片、图表及数据)的准确性、真实性、完整性、有效性、及时性、原创性等,如有问题,请联系我们! 分享到: 新浪微博 微信

扫描左侧二维码
看手机移动端,随时随地看 股票 新闻