近期,隨著以ChatGPT為杰出代表的人工智能(Artificial Intelligence,“AI”)軟件一次次“火爆出圈”,針對AI軟件功能、價值、意義等多領域的討論也從原先的僅限于技術圈內部擴散至社會全域。2023年2月27日,中共中央、國務院印發《數字中國建設整體布局規劃》(“《規劃》”),《規劃》指出,要全面賦能經濟社會發展,推動數字技術和實體經濟深度融合,在農業、工業、金融、教育、醫療、交通、能源等重點領域,加快數字技術創新應用。AI作為支撐數字經濟發展的重要基礎設施,正在與各行業典型應用場景相融合,將為我國數字經濟發展提供核心驅動力。
商業實踐中,AI軟件發揮作用的方式通常體現為AI企業將其研發的AI軟件許可給使用者,以收取許可費的形式盈利。如何合理安排AI軟件許可協議中雙方的權利義務,特別是知識產權和數據相關條款如何設計,在該等業務模式下至關重要。以下,我們將基于AI軟件與傳統軟件的區別,對AI軟件許可協議中知識產權和數據條款設計所應當包含的要素進行探討。
一、 AI軟件與傳統軟件的區別
1. 軟件開發方式
對于傳統軟件而言,軟件開發者更關注的是軟件的功能需求,即軟件必須實現的功能。因此,軟件開發者需要通過使用各種模型對相關功能需求進行描述,數據處理等規則往往已經被事先設計確定。而對于AI軟件而言,功能需求相對并不那么重要,模型訓練則十分關鍵,模型開發者通過使用大量的數據對待訓練模型進行持續訓練,使之歸納出處理新數據的規則。待訓練模型通過學習知識成為具有推理和決策能力的訓練后模型,從而實現智能化。因此,相比于傳統軟件,AI軟件開發者更關注的是模型、訓練模型的數據以及支撐模型訓練的算力。
2. 數據使用方式
在傳統軟件開發過程中,由于沒有模型訓練的環節,軟件開發者一般不需要收集并使用大量的數據。而在AI軟件的開發過程中,軟件開發者則必須借助大量且高質量的數據對模型進行訓練,并在訓練過程中不斷優化參數以提高運行效率和準確性。訓練數據通常根據具體的應用場景進行確定。以計算機視覺應用場景為例,盡管利用一些現有的開源數據也可以對模型進行訓練,但是這些數據通常不能很好地滿足特定的視覺應用場景需求,解決上述問題的關鍵在于如何采集足夠多的來自于實際應用場景的真實圖像或視頻數據,并對這些數據進行一定的處理,例如數據清洗、數據標注等。
3. 軟件部署方式
從軟件使用者角度出發,AI軟件的安裝部署方式與傳統軟件可能并無明顯差異,但是從運營方式和商業模式來看,二者還是存在一定區別。對于傳統軟件而言,其對算力的要求相對較低,因此通常是由企業購買后安裝在其自有服務器上,相關數據也通常存儲在本地計算機或服務器中。而對于AI軟件而言,新興應用場景產生的海量數據對AI算力的需求持續加大,例如云游戲、自動駕駛等對數據傳輸的速度和量級都提出了更高的要求,而通過云計算和云部署的方式便可以在很大程度上解決上述問題。在該等情形下,相關數據則被傳輸并存儲在云端。
二、 AI軟件許可協議知識產權關注要點
鑒于上述提到的區別,相比于傳統軟件許可協議,AI軟件許可協議在知識產權條款的設計方面也存在特殊的安排,尤其是在許可標的、知識產權權屬、侵權風險以及責任承擔方面。
1. 許可標的及其知識產權權屬
為了明確軟件許可協議中不同知識產權的權屬安排,我們有必要先對軟件許可中常見的許可標的進行梳理。
(1) 軟件許可標的
在傳統軟件許可協議中,關于許可標的的安排一般會區分源代碼和目標代碼。源代碼是由程序員用人類可讀的語言編寫的用于執行某些任務的代碼,然后將文件保存為規定的格式,但該等代碼未經編譯無法被機器直接執行;而目標代碼則是通過編譯器將源代碼轉換而成的機器可直接執行的代碼。由于目標代碼通常難以被人類所理解,因此倘若需要對軟件進行修改,例如增加定制化的功能模塊,則往往需要對源代碼進行修改。實踐中,如果被許可方對軟件的需求僅涉及運行和使用,一般不涉及源代碼的交付;但是如果被許可方對軟件的維護、調整、改進和升級有特定需求,許可方通常還需要向被許可方交付軟件的源代碼,并授予其源代碼層面的許可。
如上文所述,在處理傳統軟件相關許可標的時,一種常見的思維模式是“程序員編程→源代碼→編譯→目標代碼→機器執行”;而在面對AI軟件時,上述思維模式可能需要予以進一步調整,這是因為還需要考慮到AI模型在整個軟件開發過程中的作用。不同于傳統軟件通常直接由程序員編寫源代碼賦予功能,AI軟件通常由算法工程師編寫的訓練程序訓練而來,訓練程序通過執行一定的算法,從訓練數據中歸納出某些“推理規則”,這些“推理規則”代碼化后便構成了訓練后的AI模型。從上述意義上說,模型是程序產生的程序。
基于上述比較,回到AI軟件許可協議許可標的的層面,應當專門對AI模型予以特別約定——如果被許可方僅需利用許可方已有的訓練后模型,則被許可方根據許可協議取得訓練后模型一定的使用權即可;但在很多場景下,被許可方需要的并非已有的訓練后模型,而是定制化的訓練后模型,對于該等定制化的訓練后模型的權利歸屬、使用條款,雙方有必要在許可協議中予以進一步約定。
(2) 知識產權權屬
在傳統軟件許可協議中,無論許可標的是目標代碼還是源代碼,雙方均應當對相關知識產權的權屬安排進行提前約定,以免后續產生糾紛。一般而言,軟件許可協議的知識產權歸屬安排會根據時間順序采用“三段式”的敘述邏輯,即背景知識產權、前景知識產權和改進知識產權。其中,背景知識產權是指協議一方在履行協議前擁有或取得的技術成果及相關知識產權,前景知識產權是指在雙方合作期間產生的知識產權,而改進知識產權則是指對前景知識產權進行的修改、改編或提升,包括但不限于對前景知識產權相關的功能、性能、部件或模塊的變更等。
在傳統軟件許可協議的談判過程中,以前景知識產權為例,若許可方向被許可方提供目標代碼或源代碼層面的許可,相關前景知識產權的安排一般需要考慮雙方的談判地位。強勢的一方通常會要求前景知識產權全部歸其所有,在某些情形下可以考慮后續免費或附條件地許可另一方使用。倘若雙方之間的談判地位相當,則一般會約定由做出實質性貢獻的一方享有相關前景知識產權。
而在AI軟件許可協議中,由于許可標的涉及AI模型,相關前景知識產權在形成與權屬約定方面則與傳統軟件許可協議存在諸多差異。如上文所述,模型是由訓練程序從訓練數據中歸納出的某種“推理規則”,在此過程中,訓練數據的質量和標注精度對模型的準確性起到至關重要的作用,換言之,訓練程序輸入不同的訓練數據后所輸出的模型也不盡相同。一般而言,模型的訓練分為靜態訓練(static training)和動態訓練(dynamic training)兩種,因此,模型也分為靜態模型與動態模型。對于靜態模型,模型訓練好則長期投入使用,而對于動態模型而言,隨著新數據的不斷輸入,通過對這些數據的整合,模型也將不斷進行更新迭代。
因此,在AI軟件許可中,若許可方許可的僅是靜態模型,則被許可方在具體的應用場景下使用該等模型,模型不會在被使用時同步自我演化或改進,被許可方只能通過許可協議要求許可方向其定期提供更新后的模型。但是,若被許可方獲得的是動態模型的許可,由于被許可方持續不斷地向模型輸入實際應用場景的數據,模型也將被不斷訓練進而形成新的版本。在該等情形下,由于模型在使用被許可方所提供的數據過程中實現了自我改進,被許可方本身便可以對該等改進所形成的前景知識產權主張相應的權利。即使在許可方較為強勢進而主張相關前景知識產權為自己單獨所有的情況下,被許可方也可以考慮要求許可方就最新版本的模型向自己提供一項免費的許可,對此,雙方還應當在許可協議中進一步明確許可費、更新維護等相關事項。
(3) AIGC的保護
在傳統軟件許可中,許可方基于目標代碼進行研發或創作的成果一般歸屬于被許可方,例如被許可方利用Word軟件編寫的文檔在構成作品的前提下受到著作權法的保護。但是,在AI軟件許可中,則面臨關于人工智能生成內容(Artificial Intelligence Generated Content,“AIGC”)可版權性的討論,對該問題的具體分析可以參見我們的上一篇文章《ChatGPT出品:誰是作者?》。整體而言,在現行法律體系下,AIGC很可能難以通過著作權進行保護,以合適的方式向AI使用者明確告知其享有的相關權益至關重要,例如在AIGC構成作品情況下的著作權歸屬、通過AIGC進行二次創作情況下的相關權益分配等。
2. 知識產權侵權風險
當前,對AI知識產權相關問題的討論更多圍繞在AIGC“是否構成作品”以及“權利歸屬”等問題上,然而事實上,模型訓練中可能產生的潛在知識產權侵權風險同樣不能忽視。2023年2月15日,《華爾街日報》記者弗朗西斯科·馬可尼發布推文稱,ChatGPT模型的訓練未經授權使用了大量主流媒體的新聞數據,包括路透社、紐約時報、衛報、BBC等,但從未支付任何費用 [1] 。
僅從我國著作權法相關法律法規(“著作權法”)來看,倘若ChaGPT模型對訓練數據的使用行為無法滿足作品“合理使用”構成要件,在未獲得相關著作權人許可的情況下,可能構成著作權侵權。
(1) “合理使用”的適用困境
根據一般的著作權法理論,“合理使用”是指在特定情況下使用作品,可以不經著作權人許可,不向其支付報酬,但應當指明作者姓名或者名稱、作品名稱,并且不得影響該作品的正常使用,也不得不合理地損害著作權人的合法權益。這是因為著作權法的立法目的在于通過授予著作權人壟斷權利來鼓勵文學、藝術和科學領域的創作和傳播,但有一些事項在立法者眼中具有更高的價值位階,著作權人的壟斷權力需要讓位于這些事項(例如社會運行過程中對于知識和信息的最基本需求)。以我國著作權法為例,“合理使用”的事由包括但不限于“個人使用”“適當引用”“在時事新聞報道中使用”“在課堂教學和科學研究中使用”等。
盡管相關立法已經創設了多種可以適用“合理使用”的場景,但當我們將AI軟件與“合理使用”的相關標準進行比對時,可能依然很難找到可以完全適用的條款。現行立法中與AI軟件情形較為接近的合理使用情形主要包括“個人使用”、“適當引用”和“科學研究”三類,但在適用時均存在一定的困難:首先,AI軟件大多數是面向不特定主體提供服務,難以符合“個人使用”的適用條件;其次,“適當引用”的前提是“為介紹、評論說明某一作品”或“說明某一問題”,ChatGPT等AI軟件對作品的商業化使用行為也不符合上述目的;最后,“科學研究”對作品的使用必須是為了“學校課堂教學或者科學研究”,以及“供教學或者科研人員使用”,此外對使用的作品僅能“少量復制”,而AI模型訓練由于需要使用大量的數據,對相關作品的復制并非“少量”,因此也難以滿足上述要求。綜上,僅從我國著作權法來看,利用已有作品進行AI模型訓練的行為似乎很難構成“合理使用”。
(2) “許可使用”的現實障礙
若AI軟件對作品的使用不構成“合理使用”,則必須取得相關作品著作權人的許可。但是,對于AI模型的訓練數據而言,確保訓練數據中包含的作品全部獲得作品著作權人的許可在現實中并非易事。一方面,AI軟件開發者需要花費大量的時間和成本將可能受保護的作品從訓練數據中識別出來;另一方面,針對識別出來的受保護的作品,AI軟件開發者還需逐一地與作品的著作權人進行協商取得其許可,并支付許可費用。考慮到不同作品許可談判的難度以及AI軟件開發的時效性,在實踐中逐一取得相關作品著作權人許可的可行性可能并不高。
由此可以看出,AI軟件開發過程中模型訓練的特殊性不可避免地導致其可能存在侵犯第三方知識產權的風險。因此,在許可標的涉及AI模型的軟件許可協議中,雙方有必要對該等潛在的知識產權侵權風險以及雙方的責任分配作出明確約定。知識產權不侵權保證條款是軟件許可協議中的常見條款,一般而言,被許可方應當要求許可方就使用許可軟件行為不侵犯第三方知識產權作出陳述與保證,并約定在侵犯第三方知識產權引發賠償的情況下許可方所應承擔的責任。
三、 AI軟件許可協議數據關注要點
AI軟件許可標的的不同使得AI軟件許可協議知識產權條款的設計應當有特殊的考量,而AI模型本身對數據天然的依賴性則要求協議雙方在協商談判時還應當特別關注數據的使用和權屬、數據安全合規等在內的相關問題。
1. 數據使用與權屬
(1) 數據使用
為了不斷提升模型的性能,ChatGPT等AI模型一般還需要使用用戶提供的數據作為模型訓練的新數據來源。ChatGPT的使用條款規定:我們不會使用您提供給我們的API或從我們的API接收的內容(“API內容”)來開發和改進我們的服務。API內容僅用于提供和維護我們的API服務。我們可能會使用API以外的服務內容(“非API內容”)來幫助開發和改進我們的服務 [2] 。在《如何使用您的數據來提高模型性能》文檔中,模型開發者進一步明確了使用相關數據的目的:AI模型最有用和最有前途的特性之一是它們可以隨著時間的推移而改進。我們通過科學和工程突破以及接觸現實世界的問題和數據不斷改進我們的模型 [3] 。
許可方可以使用被許可方提供的數據對模型進行實時的訓練以提高模型的準確性,但是在實踐中,并非所有的被許可方均希望將自己收集的數據作為訓練數據提供給許可方。與傳統軟件許可相比,被許可方的數據更容易被許可方當作訓練數據用于其他模型開發,特別是,倘若許可方將利用被許可方數據開發的模型提供給被許可方的競爭對手,那么將會對被許可方的市場競爭產生巨大影響。因此,部分被許可方會在許可協議中明確約定許可方不能使用相關數據進行模型訓練。即使被許可方獲得的是動態模型的許可,也通常會對許可方使用相關數據的目的和范圍進行限制,例如,若許可方不允許被許可方訪問其全部客戶群的聚合數據,則被許可方同樣可以要求許可方就被許可方的數據對其他客戶施加相同的訪問限制。
(2) 數據權屬
在AIGC的可版權性成為人們的討論焦點之余,AI相關數據的權屬安排也是AI軟件許可協議中雙方繞不開的話題之一。正如我們在《數據交易協議:Checklist請收好》一文中所述,總體而言,數據可以分為原始數據和衍生數據。原始數據是數據采集時提供的、反映客觀事物屬性的記錄,是不經過任何加工、創作或提取、編輯的數據。衍生數據是指基于特定的商業目的、通過運用一系列技術手段對數據進行篩選、分析、處理從而形成的數據。
AI軟件的使用過程中可能涉及的數據主要有三類,包括模型訓練階段使用的訓練數據以及模型使用階段的輸入數據和輸出數據。其中,訓練數據又包括原始訓練數據和訓練數據集。原始訓練數據是指模型開發者直接收集的數據,理論上來說,AI模型接受的訓練數據越多,其自我進化也會更快,但是這種情況必須建立在訓練數據沒有任何錯誤的基礎上。因此,模型開發者往往會在原始訓練數據的基礎上進行一定的處理,例如數據清洗、數據標注、數據分組等,從而形成高質量和高精準的訓練數據集用于模型訓練。模型使用階段的輸入數據一般是具體應用場景下的原始數據,例如使用者的個人信息、受著作權保護的作品等;輸出數據即為上文提及的AIGC。在動態模型訓練中,模型使用階段的輸入數據和輸出數據也有可能成為新的訓練數據以進一步改進模型。模型開發者為了避免在AI模型實際應用過程中發生訓練階段無法預期的事件,可能會要求將使用階段采集的數據作為訓練數據來生成新的精度更高的模型。
目前為止,針對數據權屬的問題雖尚未形成清晰的解決方案,但是一般認為對于原始數據權利的確認并不代表否認原始數據主體的權利。因此,就訓練階段使用的原始訓練數據而言,相關數據主體應當對其享有相關權益。而對于經過模型開發者處理形成訓練數據集而言,在模型開發者經過充分授權對原始訓練數據進行了收集、清洗、標注等衍生開發后,模型開發者對經過自己合法數據活動形成的數據集合原則上應當享有占有、使用、收益和處分的權利。因此,在對衍生數據進行界定的前提下,各方可以基于自身的談判地位以及各自的商業需求對衍生數據的權屬進行安排。與原始訓練數據類似,對于模型使用階段的輸入數據,相關權益也應當歸屬于輸入數據主體。但是對于輸出數據,在其法律屬性界定尚存在爭議的情況下,建議雙方在協議中對相關數據的權益歸屬、使用方式等進行明確約定。
2. 數據安全合規
如上文所述,AI模型訓練、應用中涉及大量的數據,從行業維度來看,這些數據可以分為金融數據、交通數據、自然資源數據、衛生健康數據、科技數據等;從數據載體維度來看,這些數據可以分為音頻數據、視頻數據、圖像數據、文字數據等;而從數據主體維度來分,上述數據又可以分為個人數據、企業數據和公共數據等。在AI模型訓練和后續的許可中,無論是許可方還是被許可方,均應當特別注意數據的來源合規問題。此外,在確保數據來源合規的前提下,雙方還應當就如何使用相關數據,使用相關數據所應當采取的安全保護措施等進行明確約定。
(1) 數據來源合規
考慮到在AI軟件許可協議中,數據的使用場景主要包括模型訓練階段對訓練數據的使用以及模型使用階段對輸入數據的使用,且模型使用階段收集的數據后續也可能成為新的訓練數據,因此,無論是對于許可方還是被許可方,均應當確保自身使用的數據具有合法來源。一般而言,對于AI模型而言,獲取數據的方式主要包括數據交易、自行采集和開放數據爬取。數據交易是指通過合法的交易方式從數據提供方處獲取相關數據,自行采集是指通過APP、傳感器、相機等方式直接采集數據,開放數據爬取則是指通過數據爬蟲等方式獲取開放的數據。對于數據交易和自行采集兩種獲取方式而言,最重要的是要確保如何取得相關數據權利主體的授權。而對于開放數據爬取而言,則更應當關注數據爬蟲行為本身是否合法,例如爬蟲所采取的技術手段是否突破數據訪問控制、數據爬蟲的使用目的是否正當等。
對于許可方而言,例如,在收集和使用個人數據進行模型訓練時,可能存在的風險包括但不限于侵犯人格權和個人信息權。《中華人民共和國民法典》第一百一十條規定:“自然人享有生命權、身體權、健康權、姓名權、肖像權、名譽權、榮譽權、隱私權、婚姻自主權等權利。”第一百一十一條規定:“自然人的個人信息受法律保護。任何組織或者個人需要獲取他人個人信息的,應當依法取得并確保信息安全,不得非法收集、使用、加工、傳輸他人個人信息,不得非法買賣、提供或者公開他人個人信息。”《中華人民共和國個人信息保護法》第二條規定:“自然人的個人信息受法律保護,任何組織、個人不得侵害自然人的個人信息權益。”以個人信息為例,除法律另有規定,許可方只有在取得個人信息主體同意的前提下才能處理相關個人信息。在該等個人信息來源于其他第三方的情況下,許可方至少還應當要求相關個人信息的提供方保證其提供的個人信息獲得了個人信息主體的同意。
對于被許可方而言,一方面,其作為AI模型的使用方,可以在協議中要求許可方對其提供的模型不侵犯第三方權利作出陳述與保證,常見的陳述與保證條款例如:“模型的開發系根據適用法律法規的要求進行,模型的許可不會侵犯任何第三方的合法權益”。但是考慮到在不同的場景下雙方談判地位可能存在的差距,許可方同樣也可以對己方的某些義務進行免除,由許可方作出的、典型的該等陳述與保證條款例如:“模型按‘現狀’和‘可獲得’方式予以授權,不附帶任何種類的明示或默示保證,許可方對模型的使用不承擔任何責任”。另一方面,在被許可方將模型使用階段獲取的數據提供給許可方以對模型進一步訓練改進的情形下,被許可方同樣需要履行相關合規審查義務,包括其向許可方提供數據的行為是否已獲得了數據主體的充分授權,是否違反其應當履行的保密義務等。
(2) 數據安全保護
由于AI軟件的云計算和云部署等特點,在AI軟件許可協議中,許可方的數據安全保護能力往往是被許可方關注的重點。如前文所述,在AI模型的使用階段,其會采集各行業領域的不同類型的數據,這些數據中可能包括敏感個人信息,國家重要數據等對安全保護有特殊要求的數據。
以自動駕駛為例,智能駕駛汽車上集成的攝像頭、激光雷達、導航儀等各類傳感器,每時每刻都在收集車主本人、乘車人、駕駛人等的個人信息、車輛的環境信息以及車輛行駛信息等。根據《汽車數據安全管理若干規定(試行)》,車輛行蹤軌跡、音頻、視頻、圖像和生物識別特征等信息屬于敏感個人信息,而軍事管理區、國防科工單位以及縣級以上黨政機關等重要敏感區域的地理信息、人員流量、車輛流量等數據、汽車充電網的運行數據等則屬于重要數據 [4] 。若汽車數據處理者對收集的上述數據進行不當使用,將可能導致個人信息主體的人身、財產安全以及國家安全受到損害。對此,法律法規規定汽車數據處理者在處理敏感個人信息時,應當符合特定要求,例如應具有直接服務于個人的目的,包括增強行車安全、智能駕駛、導航等;在處理重要數據時,應當按照規定開展風險評估并形成風險評估報告、報送汽車數據的安全防護和管理措施,包括保存地點、期限等 [5] 。
因此,在AI軟件許可協議中,被許可方應當要求許可方對數據的采集、存儲、使用、傳輸等各方面均采取充分的數據安全保護措施,防止數據被竊取、濫用、篡改或毀損,并對可能因數據安全問題導致的責任承擔進行明確約定。此外,在AI軟件許可領域,由于許可方很有可能是境外主體,在該等情形下,數據出境可能引發的數據安全相關問題應當引起被許可方的特別關注。倘若在使用AI軟件過程中確實涉及數據出境,被許可方應當在協議中明確要求許可方遵守數據出境的合規要求和履行數據出境申報義務。例如,被許可方可以在協議中要求許可方承諾其對相關數據的使用應當遵守中國關于數據出境的相關法律法規。
四、 結語
2022年7月29日,科技部等六部門印發的《關于加快場景創新 以人工智能高水平應用促進經濟高質量發展的指導意見》提出,要著力打造人工智能重大場景、提升人工智能場景創新能力、加快推動人工智能場景開放以及加強人工智能場景創新要素供給。應用場景需求是技術進步的重要推動力,而如何合理安排“開發者”與“使用者”雙方的權利義務則是人工智能應用場景落地的重要保障和關鍵一步。本文重點對AI軟件許可協議中的知識產權和數據條款如何設計進行了探討,在此基礎上,交易雙方可以結合具體的交易場景和交易類型進行量身打造,從而最大程度維護自身利益。
[1] 《陷入侵權風波!OpenAI遭媒體指責:白用我們的文章訓練ChatGPT!》,財聯社,https://m.cls.cn/detail/1270005.
[2] https://openai.com/terms/.
[3] https://help.openai.com/en/articles/5722486-how-your-data-is-used-to-improve-model-performance.
[4] 《汽車數據安全管理若干規定(試行)》第三條。
[5] 《汽車數據安全管理若干規定(試行)》第九條、第十條、第十三條。




