分享好友 资讯首页 频道列表

为训练AI,OpenAI等科技巨头花式淘数据

2024-04-08 09:15290

来源:环球时报

【环球时报特约记者 甄翔】《纽约时报》6日披露了科技公司训练人工智能的秘密——利用语音识别工具转录视频网站YouTube上的视频,形成对话文本数据,供其最新的AI学习。这是一条违反法律的“捷径”。

报道称,早在2021年年底,OpenAI就面临培训AI模型的数据源几乎陷入枯竭的境地。该公司铤而走险,在明知YouTube母公司谷歌禁止用工具提取该平台内容的情况下,转录了100多万条视频并生成GPT-4模型的学习材料,OpenAI创始人之一布罗克曼也参与其中。讽刺的是,谷歌得知OpenAI的行为却并未制止,因为其也在提取YouTube平台内容训练AI模型。

《纽约时报》援引消息人士的话表示,这可能侵犯视频版权,因为它们属于创作者。尽管如此,越来越多的科技公司冒着面临诉讼的风险也要“走捷径”。报道称,根据内部会议记录,meta公司商定从互联网上收集受版权保护的数据,因为与出版商、艺术家、音乐家和新闻行业就版权内容谈判太花时间。

报道称,领先的AI模型需要从涵盖多达3万亿字的数字文本池中学习。有分析称,预计互联网上现有可供培训AI模型的数据最快到2026年就会耗尽。

《纽约时报》援引内部人士的消息称,谷歌法律部门已经要求起草新的政策,扩大该公司对消费者数据的用途。meta的情况更严峻,其旗下脸书平台不是人们撰写文章的地方,可用数据不多。报道称,在一次讨论中,meta高管谈到在非洲聘请承包商来汇总各种小说和非小说的文本摘要。meta全球合作与内容副总裁格鲁丁表示:“唯一阻碍我们达到ChatGPT水平的因素就是数据量。”


免责声明:

本网转载并注明自其它来源(非智能装备网)的作品,目的在于传递更多信息,并不代表本网赞同其观点或和对其真实性负责,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品第一来源,并自负版权等法律责任。如涉及作品内容、版权等问题,请在发布之日起十五天内与本网联系,否则视为放弃相关权利。

反对 0
举报 0
收藏 0
打赏 0
评论 0

相关资讯

团队负责人:Sora 还不是一个产品,短期不会向公众开放
三名负责人谈到了 Sora 何时可供用户使用的问题,其称目前 Sora 仍处于反馈获取阶段,对于什么时候把它变成一个产品,我们目前甚至没有任何时间表。我们正处于获取反馈阶段。我们肯定会改进它,但我们应该如何改进它是一个悬而未决的问题。

0评论2024-03-1454

Sora震撼来袭,AI动画以假乱真了吗?专家:仍存硬伤
近日,博主“AI疯人院”在网络上发布了一部利用AI技术生成的《西游记》动画短片。短片中展现了错落有致的宫殿群、郁郁葱葱的花果山,还有山间云卷云舒、山石崩裂等动画画面,令众多网友赞叹不已。

0评论2024-02-2058

打造中国版OpenAI!王小川创立百川智能已获5000万美元启动资金
搜狗创始人王小川正式宣布入局中国大模型创业,和前搜狗COO茹立云联合创立人工智能公司,旨在打造中国版的OpenAI基础大模型及颠覆性上层应用。

0评论2023-04-1392

2021年的人工智能近期现状:语言模型、医疗保健
人工智能正在人类活动和市场投资的两个关键领域扩展健康和语言。《2021 年 AI 现状》报告的作者Nathan Benaich 和 Ian Hogarth讨论了这些领域的 AI 应用和研究 。

0评论2021-11-11386

推出Azure OpenAI 服务,微软该项服务技术有何聚焦?
导读:近日,微软在Ignite 2021 开发者大会上推出 Azure OpenAI 服务,该服务允许通过 Azure 平台访问 OpenAI 的 API,且允许开发者访问 GPT-3 模型以及微软 Azure 内置的其他企业级功能。

0评论2021-11-08574