使用未授权数据训练大模型，这家 AI “六小龙”被爱奇艺告了

2025-01-21 11:44 抢发第一评

训练数据的合法性问题，是全球AIGC发展过程中的重要议题之一。而这个议题在中国也已正式开启。

日前，爱奇艺指控国内AI大模型“六小龙”之一的MiniMax，在其“海螺AI”模型训练过程中，未经授权使用了前者享有版权的素材，导致生成的内容构成了对爱奇艺的侵权。

爱奇艺方面要求MiniMax，立即停止这一侵权行为，并索赔约10万元人民币。

但这并非国内首起涉AI模型训练数据来源合法性的案件。

2013 年 12月，四位绘画创作者将社交平台小红书的主体公司及小红书Trik软件主体公司，诉至法院，理由是Trik未经授权使用了画师的原创作品作为训练数据，从而生成了与原作高度相似的图片，“侵犯了创作者的合法权益”。

这是首次 AI 大模型因训练数据被告上被告席。

据公开信息，该案件在北京互联网法院已开庭审理，被告方辩称，即使使用了原告作品，也属于合理使用，不构成侵权。目前，案件仍在进一步审理中，没有定论。

对于全球的法律体系而言，这都是个新鲜的议题。

而类似的案件，在国外更是不胜枚举，这成了蓬勃发展的 AI 大模型产业绕不过去的坎之一。

最近的高关注度案例是

1.加拿大媒体公司起诉 OpenAI

- 起诉方：包括 Torstar、Postmedia、The Globe and Mail、The Canadian Press 和 CBC/Radio-Canada 等多家加拿大媒体公司

- 起诉内容：指控 OpenAI 通过抓取大量加拿大媒体内容来开发其产品（如 ChatGPT），且未获得许可或对内容所有者进行补偿，从而侵犯了版权和在线使用条款。

2.The Intercept 起诉 OpenAI

- 起诉内容：The Intercept 起诉 OpenAI 使用其记者的作品来训练 ChatGPT，且未获得许可或给予署名。

- 进展：2024 年 11 月 25 日，联邦法院驳回了 OpenAI 想要驳回该诉讼的请求。

3.《纽约时报》起诉 OpenAI 和微软

- 起诉内容：《纽约时报》称 OpenAI 和其最大投资者微软非法使用其数百万篇文章来构建人工智能工具，指控 ChatGPT 等聊天机器人“搭便车”利用《纽约时报》的内容，威胁到其收入。

4.印度新闻机构 ANI 起诉 OpenAI

- 起诉内容：ANI 起诉 OpenAI 未经授权使用其“原创新闻内容”，可能成为印度第一家将 AI 公司告上法庭的出版商，指控其侵犯知识产权。

5.德国版权机构 GEMA 起诉 OpenAI

- 起诉内容：GEMA 起诉 OpenAI 系统性地使用其音乐作品来训练其系统。

6.代码开发者起诉 GitHub、微软和 OpenAI

- 起诉内容：围绕 GitHub Copilot 展开，该工具将普通英语命令转换为数十种不同编程语言的计算机代码。Copilot 是在数十亿行已编写的开源代码上训练和开发的，引发了关于归属权的问题。诉讼指控这些公司违反了软件许可条款。

显而易见，这其中,openAI几乎成了众矢之的。

我们还整理了openAI其他相关的被告案例如下表：

序号	起诉方	诉讼内容	进展
1	Sarah Silverman 等作家	包括 Sarah Silverman 在内的多位作家起诉 OpenAI 未经许可使用其图书作品来训练语言模型，侵犯了版权法	此案仍在调查中，尚未有明确结果
2	漫画家集体诉讼	漫画家起诉 OpenAI 使用大量插图和艺术作品来训练 AI，未获得许可，侵犯了视觉艺术家的知识产权	案件正在审理中，涉及更多关于视觉版权和艺术家的权益问题
3	学术出版商集体	,多家学术出版商指控 OpenAI 抓取其研究论文和学术文章进行训练，未获得授权，威胁学术出版生态系统的商业模式	涉及的出版商包括 Elsevier 等，案件尚在推进中
4	音乐行业代表	指控 OpenAI 使用未经许可的音乐作品训练生成型 AI，可能侵犯音乐作曲家和艺术家的版权	涉及音乐创作的权利问题，目前尚未有定论
5	法国新闻出版机构	指控 OpenAI 使用其内容训练 AI 工具，但未支付费用或进行补偿，侵犯版权。,法国版权法对此类问题有较高关注	法国版权法对此类问题有较高关注，诉讼正在进行
6	书籍作者集体	包括小说家、非小说类作家等指控 OpenAI 抓取书籍内容进行训练，要求版权补偿，并提出未来 AI 使用内容的透明化规则	案件审理中，同时推动立法保护作家内容
7	互联网档案馆	指控 OpenAI 使用其数字存档内容训练语言模型，侵犯了公益性存档的版权和使用限制	尚无公开进展，但案件可能对开放存档和 AI 训练资源的法律界限带来影响。

除此之外，涉及其他 AI 公司的案例还有：

视觉艺术家起诉 Stable Diffusion、Midjourney 和 DreamUp

- 起诉内容：这些公司创建的图像生成器基于用户提供的文本提示生成图像，被指控通过抓取互联网上的图像来训练 AI 模型，从而侵犯版权。

Getty Images 诉讼

Getty Images 起诉 Stable Diffusion，声称其使用 Getty 图片来训练模型侵犯了版权。

不难看出，尽管起诉很多，判例却很少。

去年，德国摄影师 Robert Kneschke 发现自己的摄影作品未经授权，被 LAION 纳入其 LAION-5B 数据集中。该数据集包含 58.5 亿个图像文本对，用于训练生成式 AI 模型。2024 年 9 月 27 日，德国汉堡地方法院裁定 LAION 使用 Kneschke 的照片进行数据挖掘属于合理使用，并不构成侵害著作权

这是欧盟人工智能法案生效后第一起关于数据训练侵权案的判决，也是全球对此为数不多的判例之一。

类似案件，作为一个新命题，都有这雷同的争议点，值得 AI 行业和法律行业深入讨论。

1. 数据使用是否构成“合理使用”

在美国，“合理使用”是判定版权侵权的关键标准。AI开发者常以“变革性用途”为由，主张训练数据仅用于分析模式或生成新的表达形式，而非直接复制原始内容。然而，这种辩护是否成立取决于多个因素：比如，

-数据使用是否具有商业目的？

- AI生成的内容是否过于接近原始作品？

- 原始作品的性质（如高度创意的内容更难被视为合理使用）。

2. 数据获取是否经过授权

大多数生成式AI模型需要海量数据支持，但许多开发者直接抓取网络公开数据，未获得版权持有者授权。这种行为被更广泛地认为有侵权嫌疑。

3. AI技术与传统侵权的区别

各国司法体系在这些案件中逐渐认识到，AI技术的侵权方式与传统权有很大不同。例如，AI在训练阶段可能复制了整个作品的“数据表示”，即使生成的新内容并非直接复制原作，也可能被视为侵权。

可以预见，未来几年，全球范围内可能会出现更清晰的法律规范与行业自律规则。而这一过程，将是新技术与法律不断博弈与妥协的结果。