生成式人工智能应用凭借其强大的信息处理能力,受到各界关注。生成式人工智能在给社会带来便利的同时,也给知识产权保护带来更为复杂的风险及挑战。
国家互联网信息办公室日前发布《生成式人工智能服务管理暂行办法》(以下简称《暂行办法》),将于2023年8月15日起施行。《暂行办法》透露出人工智能立法哪些趋向?机器学习中涉及哪些版权问题?人工智能生成物是否具有可版权性……这些都值得版权界思考。
人工智能立法趋向值得关注
从体系上来看,《暂行办法》是对今年1月10日生效的《互联网信息服务深度合成管理规定》的升级和扩展。近年来,世界许多国家和地区陆续发布人工智能与数据发展和治理的规范。自2019年以来,美国政府先后发布《人工智能增长研究法案》《人工智能政府法案》《生成人工智能网络安全(GAINS)法案》。加拿大于今年5月推出《人工智能和数据法案》,规定了围绕人工智能系统的评估、风险管理、监测、数据匿名化、透明度和记录保存的做法。亚洲范围内,日本新修订的《个人信息保护法》于2023年4月施行。新加坡国会新修订的《个人数据保护法》(PDPA),对数据许可和例外作出新的规定。针对个人资料隐私引入更多新规定,要求企业承担更多信息安全义务。
今年6月14日,欧洲议会通过了自2021年延宕至今的《人工智能法案》的授权草案。草案中对人工智能从安全、隐私、透明度以及非歧视等方面制定了详细规则,试图建立一个统一的人工智能法律监管框架。对于如ChatGPT等生成式人工智能工具,草案试图依据其可能带来的风险作出层次划分,将透明度要求与风险等级挂钩,并施以不同的规制,具有大算力的模型将面临更严格的监管标准。同时,数据训练模型所使用的数据也将面临额外的审查,也就是说对闭源模型的数据合规性要求将会更加严格。尽管欧盟的这一法案落实起来还可能有数年的周期,但是在人工智能发展和数据利用规制上,依然是一个值得关注的立法方向。
机器学习中的版权问题
关于机器学习是否侵权的问题,要从机器学习所使用的训练数据是否侵权着手分析。训练数据是指被用于训练机器学习模型的标注或者基准数据集。机器学习是使计算机能够从训练数据中自主学习的过程,是人工智能系统重要的行为基础。人工智能系统的价值首先取决于训练数据的规模,即机器在学习阶段被提供的材料的数量,以及这些材料的多样性和质量。
由此,文本和数据挖掘(TDM)是机器学习过程中的一个重要步骤。而在使用自动数据分析技术进行文本和数据挖掘时,必然摄入大量的受版权保护的作品,包括但不限于文字作品、图片作品、视听作品等等。而鉴于其中所涉及的作品数量巨大,找寻并征求每一个所利用的文本或数据之权利人同意,不但劳神费力,也往往难以实现。其中可能会产生相当的侵权纠纷,处理不当,可能影响人工智能产业发展,也可能会损害版权与公共利益。因此,讨论出于机器学习目的使用版权内容的合法性问题十分必要。
目前,也有越来越多的国家和地区在法律中尝试将合理使用拓展到计算机的使用中,允许计算机而不是直接由人类使用受版权保护的作品。
英国版权法29A条款规定了文本与数据挖掘的合理使用。该法条规定,出于非商业目的对合法获取的任何作品进行的复制行为不构成侵权,属于对作品的合理使用。但是,英国版权法将文本与数据挖掘的目的限定为非商业的计算分析。对象限定为行为人本身应当具备合法访问资格的相关版权材料,且只豁免该技术使用过程中不可避免的复制行为,对于汇编、翻译等行为未作规定。
2019年欧盟《数字化单一市场版权指令》要求欧盟成员国对TDM采用版权例外。从《版权指令》的规范内容来看,其对TDM合理使用施加了较严的限制,以非商业的科学研究为主。在行为主体方面,《版权指令》将其定义为“科研机构和文化遗产机构”,但是否可以包含商业性研究机构则由欧盟成员国国内法自行决定。在行为目的方面,仅限定为科学研究。同时,《版权指令》第四条赋予了著作权人“选择—退出”权利,即在著作权人表示反对的情况下,不能对其作品进行文本数据挖掘。
综上所述,机器学习目前倾向于认定其本身可能不侵权。但经机器学习人工智能系统所作出的输出可能会侵犯现有作品的版权。那么人工智能系统的输出是否都属于人工智能生成物,其是否可以享有版权保护呢?
人工智能生成物是否具有可版权性
著作权法意义上的作品是人类创作行为的产物,很多理论都尤为强调作品创造中人之参与的重要性与必要性。因此,就有观点认为,既然人工智能不能像人一样进行思考,那么人工智能势必不能像人一样进行创作。人工智能生成物中不可能体现人类的思想与情感,人工智能生成物自然也就不是作品,而仅为算法和数据学习的结果。那么,人工智能生成物似乎确实不应被认定为《著作权法》中的作品并享受著作权的保护。
诚然,著作权法律保护的是主观创作,而并非客观存在。除了大自然的产物之外,任何具有审美意义的创作结果都是有形成原因的。然而,人的大脑究竟是如何创作的?尚且没有定论。也就是说,人工智能创作是或不是与人类创作的程序和方法相同,是一个既不能证成也不能证伪的命题。根据思想表达二分法,《著作权法》保护表达而非思想。人工智能生成物与人类创作的产物,能够体现出创作主体性质不同而带来的巨大差别吗?
事实上,人工智能生成物的外观与人类创作行为的产物并无太大区别。人工智能生成物与人类创作行为的产物给普通受众的精神生活所带来的一般满足感似乎区别并不大。当人工智能生成物真的经受住市场的检验,而更多、更广地应用开来时,《著作权法》到那时才对人工智能生成物作出反应,或许为时已晚。
在人工智能时代,对于人工智能生成物是否为作品,有必要重新审视传统《著作权法》的一些“陈规”与“定见”。如果人工智能生成物可以通过原创性检验,那么其与“真正的”作品就相差无几。在英国版权法中,如果在客观上形成了与自然人创作产物相同的产物,该产物也可以被称为著作权法意义上的作品。或许认识到创作者与权利主体并不一致是客观存在的,并妥善处理好在此种情形之下有关客体的权利归属和相关责任的承担,是一种更为开放务实的立法态度。
如果是那样,人工智能生成物的版权如何划分呢?根据约定优先原则,在有用户协议的情况下,版权应该优先依用户协议分配。《暂行办法》第九条要求人工智能服务商与使用者签订协议以明确双方权利义务边界,可以作为约定之版权分配的先声。
而在没有用户协议的情况下,版权归属投资者,用户获得使用权,可能是人工智能创作物的著作权归属的一个较优选项。“创作者—权利人”二元结构的安排有成例可循,不会对现有法律体系造成结构性冲击。既然人工智能生成物与普通作品并无本质区别,那么充分地投入市场、将版权运用起来才能真正激发人工智能生成物的活力。将版权归拨给投资者,有利于推动生成式人工智能服务提供者更好地更新生成式人工智能服务,应对市场竞争。同时如前所述,人工智能服务商既然承担了较多的内容义务,其获得版权也符合权责相一致的原则。但同时,人工智能创作离不开机器学习和大数据。而构建人工智能生成内容之“基石”的大数据是由用户提供的。缺乏用户参与和训练,人工智能是无法成长和长期经营的。用户对其投入、训练并生成的成果应拥有使用的权利,这也符合劳动理论。
生成式人工智能服务提供者应承担相应责任
人工智能生成物的侵权固然是一个必须严肃面对的问题,但其实也并不是一个新问题。既然人工智能生成物并不是一个新的类型的作品,也需要与普通作品一样接受原创性的检验,那么对于人工智能生成物的侵权判定也应该遵循“接触+实质性相似”的原则。
机器学习的特点就是大范围地涉猎作品并进行分析,因此人工智能生成物对于在先作品的“接触”应原则上认为成立,除非人工智能服务商提供相反证据。而在实质性相似的判定上,对于公有领域的排除要格外审慎。
对于侵权责任,人工智能和用户间的责任分担首先可依据用户协议来调节,同时需要区分是何侵权违法行为。一般来说,按照责权利相一致的原则,发生版权侵权时,谁据有内容权利并享受内容收益,谁就应承担内容侵权责任。人工智能也应善治,生成式人工智能服务提供者对于其算法及算法生成物应该尽到善良管理人的责任——如果人工智能生成违反法律法规和损害国家安全相关规定,生成式人工智能服务提供者应承担相应责任。
人类社会之中的文学艺术作品从来都是站在巨人的肩膀之上。人工智能技术只是通过机器学习将信息摄入与重组推到了一个崭新的高度。可以预见,在人工智能参与和帮助下,创作者与作品的数量都将大大提高。在未来的几年,随着更多用户参与共建、饲喂语料、训练逻辑,人工智能还将保持较高的成长速率,可能会给我们带来更多的震惊和欣喜。但是,目前人工智能之创作的基本框架并没有颠覆性创新,它依然是一个辅助人类创作的技术工具。在摄影术发明的时候,绘画界也曾陷入巨大的恐慌,逼真的照片让写实派的图画失去用武之地,其时也有人哀叹绘画已死。但回头再看,摄影将绘画从现实中解放出来,更逼近心灵与想象之本质的抽象艺术开始发出光彩。而今,生成式人工智能技术可能也会将人从较为基础的、千篇一律的内容产出上解绑,而使得人可以更高追求心手合一的创作境界。我们应该看到生成式人工智能技术的巨大潜力,看到它广阔的应用场景,做好自主研发、追赶而不是回避人工智能技术的发展。
与此同时,我们也要注意法律是面向人类社会、面向大众的调节规则。法律面对人工智能热,还是要保持冷静的头脑。综合考虑社会发展的整体情况,做好平衡与协调。目前我国《著作权法》还没有就人工智能生成物作出针对性的规定,这是一种审慎和严谨的态度。同时我们需要注意到《著作权法》从法理上也没有否定对人工智能生成作品的保护,这也为未来的立法留下了空间。我们应该探索建立对于人工智能生成物的侵权判定的具体规则,丰富区块链等新型证据保全手段,加强对人工智能技术服务商与生成算法、生成内容的监管。