行情频道: 行情 / 知识 / 新股 / 要闻 / 基金 /

最近,法国市场监管机构宣布,已向谷歌发放2.5亿欧元(约19.7亿元)罚款,因为谷歌未经同意使用法国出版商和新闻机构内容培训聊天机器人“巴德”(升级版称为“双子座”),违反了欧盟知识产权的相关法律法规。谷歌成为第一个因训练数据而被罚款的人工智能(AI)公司。谷歌的处罚可能会导致未来越来越多类似的诉讼。

AI公司在获取训练大模型数据时,如何界定获取语料库的合法性,前提是AI技术更新迭代非常快?专家认为:“人工智能开发的核心是数据,因此人工智能公司非常渴望高质量的数据。这些公司在收集和使用数据的过程中,会加强数据收集,但会有意无意地侵犯其他主体的数据权益。另一方面,数据权益保护仍存在制度供给、实践案例等模糊领域。”

从法律的角度来看,上海交通大学媒体与传播学院教授陈堂发认为,法国监管机构对谷歌的处罚有法律依据,这应该对其他人工智能公司具有警告功能。处罚表明,如果人工智能研发和产品使用涉及到大规模使用他人作品的培训,无疑存在法律风险。

如果广义的人工智能产业链分为上、中、下游,那么中游就是大模型,百度、阿里、腾讯等互联网巨头+智能光谱、月亮暗面、阶跃星;上游销售铲子销售资源主要是计算能力+语料;下游是各种应用、办公、金融、法律等。

目前,国内大型人工智能模型突出了长文本能力,语料库更为关键。最近,Kimi之所以如此受欢迎,也是因为它超越了ChatGPT的文本能力。根据月亮黑暗面的官方消息,Kimi支持200万字的上下文,今天开始了“内部测试”。根据机器之心数据,尚未上线的GPT-4.5 Turbo的上下文窗口指定为2.56万个token,可同时处理约2万个单词。KIMI升级后的长文本能力是GPT的10倍!最新版GPT的文本能力可以说是完胜!

人工智能语料库,特别是经过精心筛选和标记的数据,可以有效地训练自然语言处理(NLP)模型非常重要。它们使人工智能能够更好地理解和生成人类语言,从而在各种应用程序中实现更准确的交互和决策。随着人工智能技术的不断进步,对高质量、多样化语料库的需求也在增加。主题逻辑理论

以下A股AI语料概念股梳理(推荐收藏):

中文在线:优质正版数据总量超过60TB,包括文字/音频/视频,涵盖小说、科晋、社会等多个中文在线类别,累计数字内容资源超过550万,网络原创作者450多万,同时与600多家版权机构合作,签约知名作家、畅销书作者2000多人。目前已与多家模型公司签订协议。国际同学科期刊在数据资料交付中排名第一。(文本语料)

中国科传:公司是中国科技图书和期刊内容资源最多的出版商之一。(文本语料)

中国出版:全国图书零售市场份额、版权贸易和输出规模居全国第一。(文本语料)

掌阅技术:版权储备行业领先的内容储备在文学和阅读领域近300TB 与国内外300多家知名内容制造商密切合作,拥有30多万册高质量版权,深入整合A1模型和阅读主应用程序,致力于打造中国第一款真正的智能阅读应用程序。(文本语料)

中广天择:其“淘剧淘”版权交易平台已入驻电视台播出机构500多家,电视剧版权公司200多家,汇集了近2万部优质电视剧400多部;目前,一些视频版权已出售给从事大型业务的客户。(视频语料)

华策影视:国内领先的影视剧制作。电视剧年产能规模居全行业第一。拥有中国最大的影视材料运营平台,拥有50000小时的版权(超过60%的永久原创版权)。(视频语料库)

视觉中国:世界领先的视觉谷数子版权供应商拥有超过4亿张图片资源、3000万亲密视频材料和35名音乐创作者。(图片语料)。

相关阅读

本文谷歌未经同意使用法国出版商和新闻机构内容培训聊天机器人“巴德由壹米财经整理发布,欢迎转载收藏,转载请带上本文链接。
免责声明:【壹米财经】发布的所有信息,并不代表本站赞同其观点和对其真实性负责,投资者据此操作,风险请自担。部分内容文章及图片来自互联网或自媒体,版权归属于原作者,不保证该信息(包括但不限 于文字、图片、图表及数据)的准确性、真实性、完整性、有效性、及时性、原创性等,如有问题,请联系我们! 分享到: 新浪微博 微信

扫描左侧二维码
看手机移动端,随时随地看 股票 新闻