训练数据的合法性问题,是全球AIGC发展过程中的重要议题之一。而这个议题在中国也已正式开启。日前,爱奇艺指控国内AI大模型“六小龙”之一的MiniMax,在其“海螺AI”模型训练过程中,未经授权使用了前者享有版权的素材,导致生成的内容构成了对爱奇艺的侵权。爱奇艺方面要求MiniMax,立即停止这一侵权行为,并索赔约10万元人民币。但这并非国内首起涉AI模型训练数据来源合法性的案件。2013 年 12月,四位绘画创作者将社交平台小红书的主体公司及小红书Trik软件主体公司,诉至法院,理由是Trik未经授权使用了画师的原创作品作为训练数据,从而生成了与原作高度相似的图片,“侵犯了创作者的合法权益”。据公开信息,该案件在北京互联网法院已开庭审理,被告方辩称,即使使用了原告作品,也属于合理使用,不构成侵权。目前,案件仍在进一步审理中,没有定论。而类似的案件,在国外更是不胜枚举,这成了蓬勃发展的 AI 大模型产业绕不过去的坎之一。- 起诉方:包括 Torstar、Postmedia、The Globe and Mail、The Canadian Press 和 CBC/Radio-Canada 等多家加拿大媒体公司- 起诉内容:指控 OpenAI 通过抓取大量加拿大媒体内容来开发其产品(如 ChatGPT),且未获得许可或对内容所有者进行补偿,从而侵犯了版权和在线使用条款。2.The Intercept 起诉 OpenAI- 起诉内容:The Intercept 起诉 OpenAI 使用其记者的作品来训练 ChatGPT,且未获得许可或给予署名。- 进展:2024 年 11 月 25 日,联邦法院驳回了 OpenAI 想要驳回该诉讼的请求。- 起诉内容:《纽约时报》称 OpenAI 和其最大投资者微软非法使用其数百万篇文章来构建人工智能工具,指控 ChatGPT 等聊天机器人“搭便车”利用《纽约时报》的内容,威胁到其收入。- 起诉内容:ANI 起诉 OpenAI 未经授权使用其“原创新闻内容”,可能成为印度第一家将 AI 公司告上法庭的出版商,指控其侵犯知识产权。- 起诉内容:GEMA 起诉 OpenAI 系统性地使用其音乐作品来训练其系统。6.代码开发者起诉 GitHub、微软和 OpenAI- 起诉内容:围绕 GitHub Copilot 展开,该工具将普通英语命令转换为数十种不同编程语言的计算机代码。Copilot 是在数十亿行已编写的开源代码上训练和开发的,引发了关于归属权的问题。诉讼指控这些公司违反了软件许可条款。我们还整理了openAI其他相关的被告案例如下表:
序号 | 起诉方 | 诉讼内容 | 进展 |
---|
1 | Sarah Silverman 等作家 | 包括 Sarah Silverman 在内的多位作家起诉 OpenAI 未经许可使用其图书作品来训练语言模型,侵犯了版权法 | 此案仍在调查中,尚未有明确结果 |
2 | 漫画家集体诉讼 | 漫画家起诉 OpenAI 使用大量插图和艺术作品来训练 AI,未获得许可,侵犯了视觉艺术家的知识产权 | 案件正在审理中,涉及更多关于视觉版权和艺术家的权益问题 |
3 | 学术出版商集体 | ,多家学术出版商指控 OpenAI 抓取其研究论文和学术文章进行训练,未获得授权,威胁学术出版生态系统的商业模式 | 涉及的出版商包括 Elsevier 等,案件尚在推进中 |
4 | 音乐行业代表 | 指控 OpenAI 使用未经许可的音乐作品训练生成型 AI,可能侵犯音乐作曲家和艺术家的版权 | 涉及音乐创作的权利问题,目前尚未有定论 |
5 | 法国新闻出版机构 | 指控 OpenAI 使用其内容训练 AI 工具,但未支付费用或进行补偿,侵犯版权。,法国版权法对此类问题有较高关注 | 法国版权法对此类问题有较高关注,诉讼正在进行 |
6 | 书籍作者集体 | 包括小说家、非小说类作家等指控 OpenAI 抓取书籍内容进行训练,要求版权补偿,并提出未来 AI 使用内容的透明化规则 | 案件审理中,同时推动立法保护作家内容 |
7 | 互联网档案馆 | 指控 OpenAI 使用其数字存档内容训练语言模型,侵犯了公益性存档的版权和使用限制 | 尚无公开进展,但案件可能对开放存档和 AI 训练资源的法律界限带来影响。 |
除此之外,涉及其他 AI 公司的案例还有:
视觉艺术家起诉 Stable Diffusion、Midjourney 和 DreamUp- 起诉内容:这些公司创建的图像生成器基于用户提供的文本提示生成图像,被指控通过抓取互联网上的图像来训练 AI 模型,从而侵犯版权。Getty Images 起诉 Stable Diffusion,声称其使用 Getty 图片来训练模型侵犯了版权。去年,德国摄影师 Robert Kneschke 发现自己的摄影作品未经授权,被 LAION 纳入其 LAION-5B 数据集中。该数据集包含 58.5 亿个图像文本对,用于训练生成式 AI 模型。2024 年 9 月 27 日,德国汉堡地方法院裁定 LAION 使用 Kneschke 的照片进行数据挖掘属于合理使用,并不构成侵害著作权这是欧盟人工智能法案生效后第一起关于数据训练侵权案的判决,也是全球对此为数不多的判例之一。类似案件,作为一个新命题,都有这雷同的争议点,值得 AI 行业和法律行业深入讨论。在美国,“合理使用”是判定版权侵权的关键标准。AI开发者常以“变革性用途”为由,主张训练数据仅用于分析模式或生成新的表达形式,而非直接复制原始内容。然而,这种辩护是否成立取决于多个因素:比如,- 原始作品的性质(如高度创意的内容更难被视为合理使用)。大多数生成式AI模型需要海量数据支持,但许多开发者直接抓取网络公开数据,未获得版权持有者授权。这种行为被更广泛地认为有侵权嫌疑。各国司法体系在这些案件中逐渐认识到,AI技术的侵权方式与传统权有很大不同。例如,AI在训练阶段可能复制了整个作品的“数据表示”,即使生成的新内容并非直接复制原作,也可能被视为侵权。可以预见,未来几年,全球范围内可能会出现更清晰的法律规范与行业自律规则。而这一过程,将是新技术与法律不断博弈与妥协的结果。您怎么看待这个议题,欢迎与小编一起在下方评论区交流。