不再向大模型免费开放数据!Reddit要求科技巨头付费使用API接口
当地时间4月18日,据《纽约时报》,Reddit近日表示,计划开始向访问其应用程序编程接口(API) 的公司收费,外部企业可以通过付费下载和处理社交网络中的海量对话。
公开资料显示,Reddit被称为“美国版”,是一家拥有18年历史的社交媒体平台,用户可以在上面发帖、评论、交流各种话题。
近年来,Reddit上发布的聊天内容已成为谷歌、OpenAI和微软等公司的训练素材,这些公司正在搜集和使用Reddit平台上的对话来开发ChatGPT等生成式人工智能产品。
“Reddit的数据语料库非常有价值,”Reddit创始人兼CEO史蒂夫·霍夫曼在接受《纽约时报》采访时表示,“但我们不想把这些内容免费提供给一些巨头公司。”
“这些人工智能公司使用Reddit数据创造价值,却不将任何价值返回给Reddit用户,这是不合理的。”霍夫曼认为,在他看来,为此向这些科技巨头收费是一个公平的举措。
据《纽约时报》,谷歌、Open AI和微软尚未回应此事。谷歌开发的聊天机器人Bard的底层算法部分是在Reddit数据上训练的,OpenAI的ChatGPT也引用Reddit数据作为接受培训的信息来源之一。
Reddit尚未公开具体的收费规则和种类,外界预期将根据数据大小实行分类价格。
霍夫曼表示,Reddit的API将继续免费提供给希望构建应用程序,帮助人们使用Reddit的开发人员,出于非商业目的研究Reddit数据的研究人员也可以继续免费访问。
未来,Reddit希望将更多机器学习纳入网站应用中,例如用来识别Reddit上人工智能生成文本的使用,并添加标签来通知用户该评论来自机器人。同时,还将支持论坛管理员使用帮助监控用户发帖内容的第三方机器人,方便管理。
Reddit成立于2005年,主要收入来源于平台上的广告和电子商务交易。Reddit表示,它仍在敲定API访问收费的细节,并将在未来几周内公布价格。
值得注意的是,除了Reddit之外,其他公司也逐渐不再愿意免费提供平台数据。当地时间4月19日,美国消费者新闻与商业频道(CNBC)报道,社交媒体推特CEO埃隆•马斯克威胁要起诉微软。马斯克指责微软非法使用其社交媒体推特上的数据,以训练其人工智能模型。
此前有媒体报道,微软的广告平台将停止支持推特,因为推特更改了其API的定价。马斯克在这条推文下留言,“他们非法使用推特数据进行训练。诉讼时间到了。”根据推特的新定价,API用户(包括企业和研究机构)每月至少需要支付高达4.2万美元才可使用。
据CNBC报道,类似于GPT的大型语言模型需要TB级数据库(存储数据量为1TB以上)进行训练,其中大部分数据从社交网站Reddit、程序员问答社区StackOverflow和推特等网站中抓取——来自社交网络的培训数据非常有价值,因为其具有非正式场合的交互对话。