使用未授權數據訓練大模型，這家 AI “六小龍”被愛奇藝告了

2025-01-21 11:44 搶發第一評

訓練數據的合法性問題，是全球AIGC發展過程中的重要議題之一。而這個議題在中國也已正式開啟。

日前，愛奇藝指控國內AI大模型“六小龍”之一的MiniMax，在其“海螺AI”模型訓練過程中，未經授權使用了前者享有版權的素材，導致生成的內容構成了對愛奇藝的侵權。

愛奇藝方面要求MiniMax，立即停止這一侵權行為，并索賠約10萬元人民幣。

但這并非國內首起涉AI模型訓練數據來源合法性的案件。

2013 年 12月，四位繪畫創作者將社交平臺小紅書的主體公司及小紅書Trik軟件主體公司，訴至法院，理由是Trik未經授權使用了畫師的原創作品作為訓練數據，從而生成了與原作高度相似的圖片，“侵犯了創作者的合法權益”。

這是首次 AI 大模型因訓練數據被告上被告席。

據公開信息，該案件在北京互聯網法院已開庭審理，被告方辯稱，即使使用了原告作品，也屬于合理使用，不構成侵權。目前，案件仍在進一步審理中，沒有定論。

對于全球的法律體系而言，這都是個新鮮的議題。

而類似的案件，在國外更是不勝枚舉，這成了蓬勃發展的 AI 大模型產業繞不過去的坎之一。

最近的高關注度案例是

1.加拿大媒體公司起訴 OpenAI

- 起訴方：包括 Torstar、Postmedia、The Globe and Mail、The Canadian Press 和 CBC/Radio-Canada 等多家加拿大媒體公司

- 起訴內容：指控 OpenAI 通過抓取大量加拿大媒體內容來開發其產品（如 ChatGPT），且未獲得許可或對內容所有者進行補償，從而侵犯了版權和在線使用條款。

2.The Intercept 起訴 OpenAI

- 起訴內容：The Intercept 起訴 OpenAI 使用其記者的作品來訓練 ChatGPT，且未獲得許可或給予署名。

- 進展：2024 年 11 月 25 日，聯邦法院駁回了 OpenAI 想要駁回該訴訟的請求。

3.《紐約時報》起訴 OpenAI 和微軟

- 起訴內容：《紐約時報》稱 OpenAI 和其最大投資者微軟非法使用其數百萬篇文章來構建人工智能工具，指控 ChatGPT 等聊天機器人“搭便車”利用《紐約時報》的內容，威脅到其收入。

?4.印度新聞機構 ANI 起訴 OpenAI

- 起訴內容：ANI 起訴 OpenAI 未經授權使用其“原創新聞內容”，可能成為印度第一家將 AI 公司告上法庭的出版商，指控其侵犯知識產權。

5.德國版權機構 GEMA 起訴 OpenAI

- 起訴內容：GEMA 起訴 OpenAI 系統性地使用其音樂作品來訓練其系統。

6.代碼開發者起訴 GitHub、微軟和 OpenAI

- 起訴內容：圍繞 GitHub Copilot 展開，該工具將普通英語命令轉換為數十種不同編程語言的計算機代碼。Copilot 是在數十億行已編寫的開源代碼上訓練和開發的，引發了關于歸屬權的問題。訴訟指控這些公司違反了軟件許可條款。

顯而易見，這其中,openAI幾乎成了眾矢之的。

我們還整理了openAI其他相關的被告案例如下表：

序號	起訴方	訴訟內容	進展
1	Sarah Silverman 等作家	包括 Sarah Silverman 在內的多位作家起訴 OpenAI 未經許可使用其圖書作品來訓練語言模型，侵犯了版權法	此案仍在調查中，尚未有明確結果
2	漫畫家集體訴訟	漫畫家起訴 OpenAI 使用大量插圖和藝術作品來訓練 AI，未獲得許可，侵犯了視覺藝術家的知識產權	案件正在審理中，涉及更多關于視覺版權和藝術家的權益問題
3	學術出版商集體	,多家學術出版商指控 OpenAI 抓取其研究論文和學術文章進行訓練，未獲得授權，威脅學術出版生態系統的商業模式	涉及的出版商包括 Elsevier 等，案件尚在推進中
4	音樂行業代表?	指控 OpenAI 使用未經許可的音樂作品訓練生成型 AI，可能侵犯音樂作曲家和藝術家的版權	涉及音樂創作的權利問題，目前尚未有定論
5	法國新聞出版機構?	指控 OpenAI 使用其內容訓練 AI 工具，但未支付費用或進行補償，侵犯版權。,法國版權法對此類問題有較高關注	法國版權法對此類問題有較高關注，訴訟正在進行
6	書籍作者集體	包括小說家、非小說類作家等指控 OpenAI 抓取書籍內容進行訓練，要求版權補償，并提出未來 AI 使用內容的透明化規則	案件審理中，同時推動立法保護作家內容
7	互聯網檔案館?	指控 OpenAI 使用其數字存檔內容訓練語言模型，侵犯了公益性存檔的版權和使用限制	尚無公開進展，但案件可能對開放存檔和 AI 訓練資源的法律界限帶來影響。

除此之外，涉及其他 AI 公司的案例還有：

視覺藝術家起訴 Stable Diffusion、Midjourney 和 DreamUp

- 起訴內容：這些公司創建的圖像生成器基于用戶提供的文本提示生成圖像，被指控通過抓取互聯網上的圖像來訓練 AI 模型，從而侵犯版權。

Getty Images 訴訟

Getty Images 起訴 Stable Diffusion，聲稱其使用 Getty 圖片來訓練模型侵犯了版權。

不難看出，盡管起訴很多，判例卻很少。

去年，德國攝影師 Robert Kneschke 發現自己的攝影作品未經授權，被 LAION 納入其 LAION-5B 數據集中。該數據集包含 58.5 億個圖像文本對，用于訓練生成式 AI 模型。2024 年 9 月 27 日，德國漢堡地方法院裁定 LAION 使用 Kneschke 的照片進行數據挖掘屬于合理使用，并不構成侵害著作權

這是歐盟人工智能法案生效后第一起關于數據訓練侵權案的判決，也是全球對此為數不多的判例之一。

類似案件，作為一個新命題，都有這雷同的爭議點，值得 AI 行業和法律行業深入討論。

1. 數據使用是否構成“合理使用”

在美國，“合理使用”是判定版權侵權的關鍵標準。AI開發者常以“變革性用途”為由，主張訓練數據僅用于分析模式或生成新的表達形式，而非直接復制原始內容。然而，這種辯護是否成立取決于多個因素：比如，

-數據使用是否具有商業目的？

- AI生成的內容是否過于接近原始作品？

- 原始作品的性質（如高度創意的內容更難被視為合理使用）。

2. 數據獲取是否經過授權

大多數生成式AI模型需要海量數據支持，但許多開發者直接抓取網絡公開數據，未獲得版權持有者授權。這種行為被更廣泛地認為有侵權嫌疑。

3. AI技術與傳統侵權的區別

各國司法體系在這些案件中逐漸認識到，AI技術的侵權方式與傳統權有很大不同。例如，AI在訓練階段可能復制了整個作品的“數據表示”，即使生成的新內容并非直接復制原作，也可能被視為侵權。

可以預見，未來幾年，全球范圍內可能會出現更清晰的法律規范與行業自律規則。而這一過程，將是新技術與法律不斷博弈與妥協的結果。