袁如陵

2024-05-05發佈

2024-05-06更新

歐盟人工智慧法案上路了！能改善生成式 AI 對著作權的衝擊嗎？｜智財科技

本文將聚焦著作權爭議，探討本法案的效益與背後的國際博弈。

AI 雖帶給人們極大便利，卻也引發諸多爭議，例如捏造事實、侵犯著作權及隱私權等社會倫理及法律議題。經過數年的研議後，歐盟終於在 2024 年 3 月 13 日正式通過《人工智慧法案》（Artificial Intelligence Act，簡稱AI法案）。

這是世界首部直接規範人工智慧的法案，彰顯歐盟試圖主導全世界 AI 技術發展的決心。

如同《時代雜誌》報導，這部法案依照風險程度，將不同的人工智慧系統分級管理──風險愈高，受到的監管就愈嚴格；而像社會評分、預測罪犯行為等直接侵犯人民基本權利的系統，則被明文禁止。另外，政府只能在特定的重大犯罪案件，例如涉及恐怖攻擊時，才能使用 AI 加持的臉孔掃描技術來監控人民（註一）。

考量「能力越大、責任越大」，有了前述的分級管理，才能預防 AI 造成難以預測的風險，例如侵犯隱私、種族歧視、大規模網路攻擊等。

以下本文將聚焦著作權的問題，藉此談談本法案能否緩解 AI 帶來的衝擊。

被低估的著作權問題

隨著 AI 輸出的文字、圖片、影片品質愈來愈高，甚至開始威脅原本人類的工作，許多創作者開始質疑 AI 使用資料、訓練模型時，是否確實詢問過創作者的意願？這是否是對著作權赤裸裸的侵害？當 AI 公司以創新之名賺進大把鈔票時，可曾考慮過他人的權益？

試想，若有一個 AI 系統違反了規範，頂多是服務被勒令停止，但如果 AI 模型本身侵害了著作權，則會影響到所有使用此 AI 模型的服務，故筆者認為這是 AI 產業最大的一顆未爆彈。

話雖如此，即使初期有 AI 開發商不幸夭折，整個 AI 產業也一定會繼續發展。就如同大家熟悉的音樂產業，雖然帶領網路下載音樂的 Napster 已死（註二），線上音樂仍以串流的商業模式蓬勃發展。現今的 AI 公司中，誰將成為過往的 Napster，誰又能成為現在當紅的 Spotify 呢？

公開透明，是避免侵權的防腐劑

依照歐盟 AI 法案，AI 模型的開發商必須說明哪些資料被用於訓練 AI 模型，並提供「足夠詳盡的摘要」（sufficiently detailed summary），例如：

列舉用於訓練模型的主要資料集
提供其他資料來源的敘述性說明

在最初的立法草案中，其實只有要求公佈受著作權保護的資料即可，不過最終版本則擴大要求揭露所有訓練資料，以便第三方行使權利。根據 AI 法案，新成立的人工智慧辦公室（AI office）將會提供摘要的範本給外界參考。

對 AI 公司來說，雖然只被要求提供摘要，而非窮盡說明所有訓練資料，但由於大型 AI 模型往往使用數以億計的作品進行訓練；所以即便是摘要，對企業的負擔也十分巨大。

另外，由於許多資料集是由第三方提供，AI 公司可能永遠無法確認它們的原始來源及正確性。

這還不打緊，更嚴重的問題是，許多資料來源幾乎可以確定是非法的，例如 OpenAI 用於訓練 ChatGPT 的 Books2 資料集，被強烈懷疑來自俗稱「盜版書天堂」的影子圖書館，如 Libgen genesis；而 Meta 用以訓練 LLaMA 模型的 Books3 資料集，內容也是滿滿侵權書籍。

主動公開這些資料，不只會遭到輿論撻伐，也等於是把侵權證據向著作權人雙手奉上。這或許才是 AI 公司一直閉口不提訓練資料來源的真正理由。

我相信當初開發 AI 的研究人員可能沒想太多，或完全輕忽了著作權的風險。

就算撇開著作權不談，創作時如果參考了他人的內容或想法，也該列出出處以表揚有貢獻的創作者。這不只是約定成俗的慣例，也是基本的禮儀。即使生成式 AI 在技術上無法做到這點，起碼應該讓公眾知道產出的內容「可能」參考了哪些作品吧？

OpenAI 及 Meta 如果直接使用盜版內容來訓練 AI，又以窒礙難行當作藉口拒絕提供資訊，或是以阻礙創新為由威脅監管機構，可能難以服眾。

著作權人有說「不」的權利

除了前述規範，AI 法案還要求開發商必須遵守歐盟《數位單一市場著作權指令》第 4 條 3 款。這個條款，讓第三方在進行「文字和資料探勘」（Text and Data Mining）時，不必擔心侵害著作權；但前提是，如果著作權人主動表示要「退出」（opt-outs），不想讓自己的創作被利用，AI 公司就必須尊重其意願。

法案採取這樣的作法，是很重要的決定，代表歐盟為了不阻撓 AI 產業的發展，允許廠商在符合法規的前提下，能用前述方式訓練模型。

不過下一個問題是：訓練 AI 模型涉及到成千上萬的著作權人，每個人表示「退出」的方式或許各有不同，而目前也不知道哪些「退出」方式是符合標準的，所以還須等待進一步的指引。

不過在 AI 法案中，已經明文要求開發商使用「最先進的技術」來辨識、尊重著作權人的退出要求（也許在網頁放置一段簡單的文字就足夠了？）。這似乎意味歐盟傾向把責任交給AI公司，畢竟他們才是現在佔人便宜的那一方，對吧？

過往當 AI 公司被質疑擅自使用他人創作時，最常見的抗辯就是：「向如此多的著作權人取得授權，是不可能的事」。但即使是為了追求創新，也至少該做合理的努力。舉例來說，OpenAI 提供了完整的說明，讓著作權人在網站使用 robots.txt 的標記，以避免被 OpenAI 的網路爬蟲給索引。

這是所有 AI 廠商最起碼應該嘗試去做的。或許政府應該說：「嘿！已經給了你們不少時間，是時候約束一下自己了」。

有人認為，AI 反而鬆綁著作權的桎梏？

事實上，許多開放文化的愛好者十分歡迎生成式 AI 的到來。

目前大多數國家認定只有人類創作的內容可以享有著作權，所以如果可以將原本帶有著作權的內容藉由 AI 轉化，並以新的形式出現，藉此逃脫現行著作權法的限制，就可以成為打開創作自由，甚至是言論自由的突破口。

別忘了，在訓練完成的語言模型中，單一的訓練資料無法與其他內容區分開來，所以產出的內容也幾乎不可能追溯是源自何處。

而為了鼓勵開發商將 AI 模型開源，AI 法案提供了額外的豁免。

如果是開放給公眾自由存取、修改和發布的 AI 模型（例如 Meta 的 LLaMA 模型），就不需要揭露訓練資料的內容。當然，只是標註「開放原始碼」肯定是不夠的。由於軟體業界對於「開源」有不同的標準，我們也期待未來的 AI 監管單位能盡快讓公眾知道要使用何種授權條款，才能符合 AI 法案所定義的開源模型。

然而， AI 工具已開始威脅到許多職業，如果連模型也被科技巨獸所壟斷並攫取所有的商業利益，顯然令人難以接受。相較之下，生成式 AI 運用人類的集體智慧來產生更多有價值的內容，這與開源軟體的精神不謀而合。這些將成果貢獻給公眾的開源模型，任何人都能使用，即使同樣存在爭議，至少是「大家的模型」，聽起來是不是真的比較討人喜歡？

科技巨頭及國家間的博奕

人工智慧如同疫情期間的半導體，已經成為國安議題，沒有任何國家敢在賽道中落後。在 2023 年，法國總統馬克宏直言：擔心歐盟在 AI 領域的競爭能力落後美國與中國，就是最真實的寫照。7

雖然歐盟不斷強調 AI 法案的重點是讓人工智慧更安全、可信賴，但真實的目的還是是想把歐盟打造成一個最有利於 AI 發展的環境。

筆者認為，AI 對社會及文化的衝擊還只在很初期的階段，如果不提前設定好框架而放任 AI 恣意發展，日後一定會造成社會對立，最終傷害到 AI 產業，所以歐盟的確踏出了重要的第一步。

歐盟已經決定在既有的著作權框架下管理 AI，而暫時不對著作權法進行大刀闊斧的改革。而其他國家是否會選擇與歐盟相同的管理框架呢？

過去歐盟已經透過極為嚴格的《一般資料保護規則》（GDPR）管制個人資料的利用，影響了所有大型企業雲端服務的發展，其他世界強權是否能接受歐盟再次於 AI 領域設定國際標準？

OpenAI 執行長之前曾表示，如果無法完全符合歐盟規範，有可能導致 ChatGPT 這家美國公司退出歐盟市場。我一向不喜歡陰謀論，不過這或許是歐盟暗自期待的結果之一？

對 AI 新創企業，例如專精於圖像生成的 Midjourney 來說，要謹記 Napster 的教訓，只要一有閃失，就會消失在科技的洪流中。即使對資源充裕的科技巨頭來說，違反規定所衍生的成本，可能也是切膚之痛。例如 Meta 在2023年，就因違反前述的歐盟《一般資料保護規則》，而被愛爾蘭政府處以高達 12 億歐元的罰款。

關於透明度要求，筆者認為揭露訓練資料是相當合理的，也難以想像有什麼正當理由不去配合。即便對 AI 公司來說是個龐大負擔，但在「AI 是否會毀滅人類」都成了要嚴肅回答的話題時，試問誰能忍受、放任AI模型永遠是個黑盒子，更別說科技巨頭早以透過 AI 開始獲利，實在沒有裝聾作啞的權利，也必須站出來面對潛在使用盜版內容的問題。

不過，由於 AI 法案提供了著作權人拒絕提供訓練資料的管道，如果許多擁有大量高品質內容的公司選擇不與 AI 公司合作（例如已經與 OpenAI 對簿公堂的紐約時報），可能造成訓練資料中低品質內容的比例上升，而使生成式 AI 所產生內容的品質及正確度下降；又或是 AI 公司須付出更高的費用來取得授權，使目前的 AI 商業模式無法持續。

在風風雨雨中，AI 法案應該算是歐盟給人工智慧產業的合理方案。如果 AI 公司還不買單，很容易就會被解讀為利用法律的漏洞謀利，而遭致更大的批評。

值得注意的是，完全開源的 AI 模型可以承受較低的監管壓力，這是否會促使更多業者跟隨美國的 Meta、法國的新創 Mistral AI 採取開源路線？或是雙線並行，像 Google 一樣同時開發私有的 Gemini 及開源的 Gemma 模型？而在圖像生成領域，Stable diffusion 早已是最佳選擇之一，與 Midjourney 及 DALL·E 分庭抗禮。

筆者猜測，未來會有更多 AI 模型選擇開源，不過無論我的猜測是否準確，AI 的巨大浪潮都不會停歇，即使要花費鉅資多方押寶，也一定要站在浪頭之上。

【本文作者】

袁如陵

對智財有著無限熱情、喜歡攪動同溫層的年幼大叔。台灣大學植病所碩士、倫敦大學智財管理碩士。曾任上市醫材公司法務主管、英國顧問公司產業分析師、科技業專利工程師。台灣專利師。近期興趣是研究 LLM 以彌補讀不到法學碩士的遺憾。

【本文核稿】

網站主編，王鼎棫

註一：其實，歐盟早在 2021 年，就啟動了 AI 法案的倡議。只是在當時，人工智慧仍被視為小眾領域，關注的應用主要也侷限在文字、影像辨識等。然而 2022 年底 OpenAI 推出 ChatGPT 後，這個看似萬能的聊天機器人震驚了全世界，其展現的強大能力及泛用性，也讓歐盟的 AI 法案備受各方囑目。

註二：若要更明瞭著作權對新興產業的潛在威脅，我們可以重回1999年，一個名為Napster的公司曾經橫空出世，讓全球用戶能夠輕易地下載、聆聽他人所收藏的音樂。這個服務在幾個月內橫掃音樂產業，在極盛時期有高達8000萬的註冊用戶，所佔用的網路頻寬甚至癱瘓了多個大學宿舍的網路3。但就是因為侵犯著作權，Napster在誕生後兩年後就被勒令停業，曾經輝煌的獨角獸在轉瞬間化為泡影。

換言之，從約 1995 年開始，MP3 格式的音樂開始流行，並隨著網路的快速發展不斷擴散。Napster 進一步利用 P2P 技術，突破了音樂難以被搜尋到的瓶頸，宣告線上音樂正式起飛。但當時的音樂產業及著作權法規，還未能完全跟上此一變化，因此導致一連串的音樂著作權訴訟問題。這聽起來是否與現今的 AI 產業有點類似？

在那個時期，美國通過了《數位千禧年著作權法案》，以平衡創作者的權益、公眾利益和新興產業的發展。同樣的，現在世界各國都急於建立的 AI 監管方案，也是在為人工智慧產業的未來發展鋪路，以免國內的 AI 產業落到國際的後段班，甚至如同 Napster 般急速殞落。

【參考資料】

https://artificialintelligenceact.eu/the-act/
https://time.com/6903563/eu-ai-act-law-aritificial-intelligence-passes/
https://www.lifewire.com/history-of-napster-2438592
https://platform.openai.com/docs/gptbot
https://www.technollama.co.uk/the-eu-ai-act-and-copyright
https://walledculture.org/two-important-reasons-for-keeping-ai-generated-works-in-the-public-domain/
https://ipkitten.blogspot.com/2023/12/guest-post-transparency-requirements-in.html

＊本頻道「智財科技」，分享江湖在走，科技要懂，法律在這裡扮演什麼角色？

【知識新聞的力量】

我們堅持為所有人免費提供內容，因為我們深知，閱讀新聞的機會，不應有任何門檻，尤其是當人權議題備受矚目的時候，這常是推動社會進步的契機。然而，如果您有能力，《法律白話文運動》提供高品質的解釋報導，是推廣法律及人權思想的重要力量，每個月不到100元，我們就能在「官網」、「Facebook」、「Instagram」、「Twitter」、「Line Voom」、「Podcast」、「Reels」、「TikToks」、「實體活動」上發佈，沒有比這個更划算的選擇了。