公众号
关注微信公众号
移动端
创头条企服版APP

使用未授权数据训练大模型,这家 AI “六小龙”被爱奇艺告了

11434
2025-01-21 11:44 抢发第一评
训练数据的合法性问题,是全球AIGC发展过程中的重要议题之一。而这个议题在中国也已正式开启。

日前,爱奇艺指控国内AI大模型“六小龙”之一的MiniMax,在其“海螺AI”模型训练过程中,未经授权使用了前者享有版权的素材,导致生成的内容构成了对爱奇艺的侵权。
爱奇艺方面要求MiniMax,立即停止这一侵权行为,并索赔约10万元人民币。
但这并非国内首起涉AI模型训练数据来源合法性的案件。
2013 年 12月,四位绘画创作者将社交平台小红书的主体公司及小红书Trik软件主体公司,诉至法院,理由是Trik未经授权使用了画师的原创作品作为训练数据,从而生成了与原作高度相似的图片,“侵犯了创作者的合法权益”。
这是首次 AI 大模型因训练数据被告上被告席。
据公开信息,该案件在北京互联网法院已开庭审理,被告方辩称,即使使用了原告作品,也属于合理使用,不构成侵权。目前,案件仍在进一步审理中,没有定论。
对于全球的法律体系而言,这都是个新鲜的议题。
而类似的案件,在国外更是不胜枚举,这成了蓬勃发展的 AI 大模型产业绕不过去的坎之一。
最近的高关注度案例是
1.加拿大媒体公司起诉 OpenAI
- 起诉方:包括 Torstar、Postmedia、The Globe and Mail、The Canadian Press 和 CBC/Radio-Canada 等多家加拿大媒体公司
- 起诉内容:指控 OpenAI 通过抓取大量加拿大媒体内容来开发其产品(如 ChatGPT),且未获得许可或对内容所有者进行补偿,从而侵犯了版权和在线使用条款。
2.The Intercept 起诉 OpenAI
- 起诉内容:The Intercept 起诉 OpenAI 使用其记者的作品来训练 ChatGPT,且未获得许可或给予署名。
- 进展:2024 年 11 月 25 日,联邦法院驳回了 OpenAI 想要驳回该诉讼的请求。
3.《纽约时报》起诉 OpenAI 和微软
- 起诉内容:《纽约时报》称 OpenAI 和其最大投资者微软非法使用其数百万篇文章来构建人工智能工具,指控 ChatGPT 等聊天机器人“搭便车”利用《纽约时报》的内容,威胁到其收入。
 4.印度新闻机构 ANI 起诉 OpenAI
- 起诉内容:ANI 起诉 OpenAI 未经授权使用其“原创新闻内容”,可能成为印度第一家将 AI 公司告上法庭的出版商,指控其侵犯知识产权。
5.德国版权机构 GEMA 起诉 OpenAI
- 起诉内容:GEMA 起诉 OpenAI 系统性地使用其音乐作品来训练其系统。
6.代码开发者起诉 GitHub、微软和 OpenAI
- 起诉内容:围绕 GitHub Copilot 展开,该工具将普通英语命令转换为数十种不同编程语言的计算机代码。Copilot 是在数十亿行已编写的开源代码上训练和开发的,引发了关于归属权的问题。诉讼指控这些公司违反了软件许可条款。
显而易见,这其中,openAI几乎成了众矢之的。
我们还整理了openAI其他相关的被告案例如下表:

序号起诉方诉讼内容进展
1Sarah Silverman 等作家包括 Sarah Silverman 在内的多位作家起诉 OpenAI 未经许可使用其图书作品来训练语言模型,侵犯了版权法此案仍在调查中,尚未有明确结果
2漫画家集体诉讼漫画家起诉 OpenAI 使用大量插图和艺术作品来训练 AI,未获得许可,侵犯了视觉艺术家的知识产权案件正在审理中,涉及更多关于视觉版权和艺术家的权益问题
3学术出版商集体,多家学术出版商指控 OpenAI 抓取其研究论文和学术文章进行训练,未获得授权,威胁学术出版生态系统的商业模式涉及的出版商包括 Elsevier 等,案件尚在推进中
4音乐行业代表 指控 OpenAI 使用未经许可的音乐作品训练生成型 AI,可能侵犯音乐作曲家和艺术家的版权涉及音乐创作的权利问题,目前尚未有定论
5法国新闻出版机构 指控 OpenAI 使用其内容训练 AI 工具,但未支付费用或进行补偿,侵犯版权。,法国版权法对此类问题有较高关注法国版权法对此类问题有较高关注,诉讼正在进行
6书籍作者集体包括小说家、非小说类作家等指控 OpenAI 抓取书籍内容进行训练,要求版权补偿,并提出未来 AI 使用内容的透明化规则案件审理中,同时推动立法保护作家内容
7互联网档案馆 指控 OpenAI 使用其数字存档内容训练语言模型,侵犯了公益性存档的版权和使用限制尚无公开进展,但案件可能对开放存档和 AI 训练资源的法律界限带来影响。

除此之外,涉及其他 AI 公司的案例还有:

视觉艺术家起诉 Stable Diffusion、Midjourney 和 DreamUp
- 起诉内容:这些公司创建的图像生成器基于用户提供的文本提示生成图像,被指控通过抓取互联网上的图像来训练 AI 模型,从而侵犯版权。
Getty Images 诉讼
Getty Images 起诉 Stable Diffusion,声称其使用 Getty 图片来训练模型侵犯了版权。
不难看出,尽管起诉很多,判例却很少。
去年,德国摄影师 Robert Kneschke 发现自己的摄影作品未经授权,被 LAION 纳入其 LAION-5B 数据集中。该数据集包含 58.5 亿个图像文本对,用于训练生成式 AI 模型。2024 年 9 月 27 日,德国汉堡地方法院裁定 LAION 使用 Kneschke 的照片进行数据挖掘属于合理使用,并不构成侵害著作权
这是欧盟人工智能法案生效后第一起关于数据训练侵权案的判决,也是全球对此为数不多的判例之一。
类似案件,作为一个新命题,都有这雷同的争议点,值得 AI 行业和法律行业深入讨论。
1. 数据使用是否构成“合理使用”
在美国,“合理使用”是判定版权侵权的关键标准。AI开发者常以“变革性用途”为由,主张训练数据仅用于分析模式或生成新的表达形式,而非直接复制原始内容。然而,这种辩护是否成立取决于多个因素:比如,
-数据使用是否具有商业目的?
- AI生成的内容是否过于接近原始作品?
- 原始作品的性质(如高度创意的内容更难被视为合理使用)。
2. 数据获取是否经过授权
大多数生成式AI模型需要海量数据支持,但许多开发者直接抓取网络公开数据,未获得版权持有者授权。这种行为被更广泛地认为有侵权嫌疑。
3. AI技术与传统侵权的区别
各国司法体系在这些案件中逐渐认识到,AI技术的侵权方式与传统权有很大不同。例如,AI在训练阶段可能复制了整个作品的“数据表示”,即使生成的新内容并非直接复制原作,也可能被视为侵权。
可以预见,未来几年,全球范围内可能会出现更清晰的法律规范与行业自律规则。而这一过程,将是新技术与法律不断博弈与妥协的结果。
您怎么看待这个议题,欢迎与小编一起在下方评论区交流。


声明:该文章版权归原作者所有,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本网联系。
您阅读这篇文章花了0
转发这篇文章只需要1秒钟
喜欢这篇 11
评论一下 0
凯派尔知识产权全新业务全面上线
相关文章
评论
试试以这些内容开始评论吧
登录后发表评论
凯派尔知识产权全新业务全面上线
宁波城市站
金华城市站
×
#热门搜索#
精选双创服务
历史搜索 清空

Tel:18514777506

关注微信公众号

创头条企服版APP