訓練數據的合法性問題,是全球AIGC發展過程中的重要議題之一。而這個議題在中國也已正式開啟。日前,愛奇藝指控國內AI大模型“六小龍”之一的MiniMax,在其“海螺AI”模型訓練過程中,未經授權使用了前者享有版權的素材,導致生成的內容構成了對愛奇藝的侵權。愛奇藝方面要求MiniMax,立即停止這一侵權行為,并索賠約10萬元人民幣。但這并非國內首起涉AI模型訓練數據來源合法性的案件。2013 年 12月,四位繪畫創作者將社交平臺小紅書的主體公司及小紅書Trik軟件主體公司,訴至法院,理由是Trik未經授權使用了畫師的原創作品作為訓練數據,從而生成了與原作高度相似的圖片,“侵犯了創作者的合法權益”。據公開信息,該案件在北京互聯網法院已開庭審理,被告方辯稱,即使使用了原告作品,也屬于合理使用,不構成侵權。目前,案件仍在進一步審理中,沒有定論。而類似的案件,在國外更是不勝枚舉,這成了蓬勃發展的 AI 大模型產業繞不過去的坎之一。- 起訴方:包括 Torstar、Postmedia、The Globe and Mail、The Canadian Press 和 CBC/Radio-Canada 等多家加拿大媒體公司- 起訴內容:指控 OpenAI 通過抓取大量加拿大媒體內容來開發其產品(如 ChatGPT),且未獲得許可或對內容所有者進行補償,從而侵犯了版權和在線使用條款。2.The Intercept 起訴 OpenAI- 起訴內容:The Intercept 起訴 OpenAI 使用其記者的作品來訓練 ChatGPT,且未獲得許可或給予署名。- 進展:2024 年 11 月 25 日,聯邦法院駁回了 OpenAI 想要駁回該訴訟的請求。- 起訴內容:《紐約時報》稱 OpenAI 和其最大投資者微軟非法使用其數百萬篇文章來構建人工智能工具,指控 ChatGPT 等聊天機器人“搭便車”利用《紐約時報》的內容,威脅到其收入。- 起訴內容:ANI 起訴 OpenAI 未經授權使用其“原創新聞內容”,可能成為印度第一家將 AI 公司告上法庭的出版商,指控其侵犯知識產權。- 起訴內容:GEMA 起訴 OpenAI 系統性地使用其音樂作品來訓練其系統。6.代碼開發者起訴 GitHub、微軟和 OpenAI- 起訴內容:圍繞 GitHub Copilot 展開,該工具將普通英語命令轉換為數十種不同編程語言的計算機代碼。Copilot 是在數十億行已編寫的開源代碼上訓練和開發的,引發了關于歸屬權的問題。訴訟指控這些公司違反了軟件許可條款。我們還整理了openAI其他相關的被告案例如下表:
| 序號 | 起訴方 | 訴訟內容 | 進展 |
|---|
| 1 | Sarah Silverman 等作家 | 包括 Sarah Silverman 在內的多位作家起訴 OpenAI 未經許可使用其圖書作品來訓練語言模型,侵犯了版權法 | 此案仍在調查中,尚未有明確結果 |
| 2 | 漫畫家集體訴訟 | 漫畫家起訴 OpenAI 使用大量插圖和藝術作品來訓練 AI,未獲得許可,侵犯了視覺藝術家的知識產權 | 案件正在審理中,涉及更多關于視覺版權和藝術家的權益問題 |
| 3 | 學術出版商集體 | ,多家學術出版商指控 OpenAI 抓取其研究論文和學術文章進行訓練,未獲得授權,威脅學術出版生態系統的商業模式 | 涉及的出版商包括 Elsevier 等,案件尚在推進中 |
| 4 | 音樂行業代表? | 指控 OpenAI 使用未經許可的音樂作品訓練生成型 AI,可能侵犯音樂作曲家和藝術家的版權 | 涉及音樂創作的權利問題,目前尚未有定論 |
| 5 | 法國新聞出版機構? | 指控 OpenAI 使用其內容訓練 AI 工具,但未支付費用或進行補償,侵犯版權。,法國版權法對此類問題有較高關注 | 法國版權法對此類問題有較高關注,訴訟正在進行 |
| 6 | 書籍作者集體 | 包括小說家、非小說類作家等指控 OpenAI 抓取書籍內容進行訓練,要求版權補償,并提出未來 AI 使用內容的透明化規則 | 案件審理中,同時推動立法保護作家內容 |
| 7 | 互聯網檔案館? | 指控 OpenAI 使用其數字存檔內容訓練語言模型,侵犯了公益性存檔的版權和使用限制 | 尚無公開進展,但案件可能對開放存檔和 AI 訓練資源的法律界限帶來影響。 |
除此之外,涉及其他 AI 公司的案例還有:
視覺藝術家起訴 Stable Diffusion、Midjourney 和 DreamUp- 起訴內容:這些公司創建的圖像生成器基于用戶提供的文本提示生成圖像,被指控通過抓取互聯網上的圖像來訓練 AI 模型,從而侵犯版權。Getty Images 起訴 Stable Diffusion,聲稱其使用 Getty 圖片來訓練模型侵犯了版權。去年,德國攝影師 Robert Kneschke 發現自己的攝影作品未經授權,被 LAION 納入其 LAION-5B 數據集中。該數據集包含 58.5 億個圖像文本對,用于訓練生成式 AI 模型。2024 年 9 月 27 日,德國漢堡地方法院裁定 LAION 使用 Kneschke 的照片進行數據挖掘屬于合理使用,并不構成侵害著作權這是歐盟人工智能法案生效后第一起關于數據訓練侵權案的判決,也是全球對此為數不多的判例之一。類似案件,作為一個新命題,都有這雷同的爭議點,值得 AI 行業和法律行業深入討論。在美國,“合理使用”是判定版權侵權的關鍵標準。AI開發者常以“變革性用途”為由,主張訓練數據僅用于分析模式或生成新的表達形式,而非直接復制原始內容。然而,這種辯護是否成立取決于多個因素:比如,- 原始作品的性質(如高度創意的內容更難被視為合理使用)。大多數生成式AI模型需要海量數據支持,但許多開發者直接抓取網絡公開數據,未獲得版權持有者授權。這種行為被更廣泛地認為有侵權嫌疑。各國司法體系在這些案件中逐漸認識到,AI技術的侵權方式與傳統權有很大不同。例如,AI在訓練階段可能復制了整個作品的“數據表示”,即使生成的新內容并非直接復制原作,也可能被視為侵權。可以預見,未來幾年,全球范圍內可能會出現更清晰的法律規范與行業自律規則。而這一過程,將是新技術與法律不斷博弈與妥協的結果。您怎么看待這個議題,歡迎與小編一起在下方評論區交流。