■陆 云
11月18日,美国哈珀·柯林斯宣布与某技术公司达成协议,后者将可以使用哈珀·柯林斯的图书来训练人工智能大语言模型,以提高模型的质量和性能。哈珀·柯林斯因此成为五大出版社中第一家允许技术公司使用其内容训练大模型的出版商。据媒体报道,与哈珀·柯林斯合作的技术公司是微软公司。
哈珀·柯林斯将为作者提供“选择加入”(opt-in)的补充条款,供作者选择是否同意参与哈珀·柯林斯与技术公司的授权协议,但是仅授权非虚构类老书用于大模型训练。根据协议,技术公司为每本书支付5000美元,哈珀·柯林斯与图书作者对半分成,授权期3年,为非独家授权,即哈珀·柯林斯和作者也可将图书的AI训练权出售给其他技术公司。每授权一本书的训练权,哈珀·柯林斯将向作者一次性支付2500美元,不会将这笔钱用于抵消作者的预付金或版税。
据报道,已有数百名作者同意加入该补充条款。这个授权协议只允许“输入”图书对大模型进行训练,不允许大模型“输出”大量的图书内容。哈珀·柯林斯对大模型“输出”提出几点限制。首先,AI的每条输出中包含的图书原文不得超过200个单词;其次,用户每次使用AI期间,所有输出中来自图书内容的总量不得超过图书文本的5%;最后,技术公司不得将内容提供给大模型的商业用户以避免侵犯他人版权,并将通过其服务条款监控并制止任何对大模型的侵权使用。一旦哈珀·柯林斯发现了侵犯版权行为,技术公司将及时处理。
哈珀·柯林斯率先出售AI训练权,主要原因在于,其母公司新闻集团对AI公司持合作态度。今年5月,新闻集团授权OpenAI 使用该集团的内容训练AI大模型,但是授权不包括哈珀·柯林斯的图书。现在,哈珀·柯林斯也选择与OpenAI合作。
美国作家协会CEO玛丽·拉森伯格(Mary Rasenberger)赞赏哈珀·柯林斯为作者提供“选择加入”条款,这实际上认可了对作品进行AI训练以及限制逐字文本输出的保护性条款的版权均属于作者。拉森伯格说:“我们的目标是确保AI使用图书训练大模型成为授权的一部分,而不是被视为版权法的合理使用。我们不能把头埋在沙子里,AI的发展不以人的意志为转移。”