人工智能“真假”开源 如何负起责任?
在科技浪潮中,开源再次成为焦点。从最初的开放源代码概念,到现在的生成式AI领域,开源文化一直在推动技术的飞速进步。就如同那位程序员在遥远的世纪之交所倡导的一样,软件源代码能被任何人查看、修改、分发,而现今,开源已经深深渗透到互联网行业的每一个角落。特别是随着生成式AI的崛起,开源的力量再次被激发,meta的开源大模型Llama 2的商用化几乎一夜之间重塑了大模型的发展路线。开源社区Github上的生成式AI项目增长更是迅猛,一年同比增加高达248%。Hugging Face的预测更是让我们看到了开源的未来潜力:到2024年,开源大模型的能力有望与闭源模型并驾齐驱。
正如开源软件的诞生初期一样,开源AI也面临着巨大的争议,尤其是其安全性问题。除此之外,开源AI还面临定义模糊、巨头游戏等新生问题。在这些问题背后,我们不禁要问:是否应该对开源AI放宽限制?“绿灯”应该如何定义?不同开放程度的AI究竟如何界定?它们的价值和风险又是什么?
为了解决这些问题,学界和业界专家齐聚一堂,参与了“清华伍舜德楼行政法学工作坊·人工智能立法之开源发展与法律规制”会议。这次会议由清华大学科技发展与治理研究中心及公共管理学院法制研究中心共同举办。会议中,专家们就开源AI的规制问题进行了深入的探讨。会议中提及的现状显示,尽管生成式AI的风险日益凸显,但无论是从业者还是监管者,目前都对开源AI展现出更大的包容性。
以欧盟为例,即将发布的两部法律明确为开源AI亮起“绿灯”。同济大学法学院助理教授、上海市人工智能社会治理协同创新中心研究员朱悦介绍了这两部法律的主要内容。其中,《人工智能法案》将不会监管免费、开源的AI系统,而《产品责任指令》则将AI产品纳入了适用范围,但规定“在商业活动之外研发、提供自由且开源的软件”除外。
中美也在这一领域进行了类似的探索。例如,中国社科院与南财合规科技研究院共同起草的《人工智能示范法(专家建议稿)》提出,对于免费且开源提供人工智能的个人和组织,如果能证明已经采取足够的安全措施,可以减轻或不承担责任。最近,美国议员的《人工智能基础模型透明度法案》提案也引起了广泛关注,其中也给予了开源模型豁免权。
这种普遍宽松的态度主要目的是为了鼓励创新、促进技术交流。对于开源AI的未来发展,我们充满期待。从人工智能产业链的整体视角来看,无论是框架性的代码、数据、预训练模型还是评估基准,开源在其中所扮演的角色无疑是至关重要的。正如专家朱悦所言,若需评估一个大模型的性能水平,我们需参照与其他大模型的基准进行比较。而这样的评估基准,很多时候依托于开源平台,如Hugging Face。显然,开源在大部分AI组件的开发和应用中,都是核心生态的支撑。
中国信息通信研究院的人工智能研究中心高级业务主管呼娜英女士亦对此深有体会。她认为,相比于工业时代的封闭产业模式,开源的分工模式效率更高,对建设一个开放的产业生态有着重要作用。实际上,在产业经济的贡献上,开源的作用也是显而易见的。
而开源的透明性是其更大的优势。朱悦指出,在GitHub、hugging face等开源社区,开发者公开AI组件时,需披露权重、参数、架构等详细信息,这既帮助了其他开发者更好地使用,也履行了监管者期待的义务。对于是否需要对开源进行硬性监管,我们需要深思熟虑。
尽管开源有着诸多优势,但它也面临新的挑战。专家们警告说,要警惕“假开源”现象。目前的开源AI往往是“有限的开放”,只公开模型架构,很少公开训练数据和过程。而且,它可以限制使用者的身份和核心功能的使用,甚至选择旧版本开源、新版本闭源。如Llama2大模型,就限制了特定公司的使用。
面对这种情况,21世纪经济报道合规科技部副主任王俊指出,开源站在法律、技术、商业的交叉口,开源AI其实更多时候是一种商业选择。星纪魅族集团数据合规执行总监朱玲凤进一步解释,目前有些开源AI由头部公司主导,“它们利用开源扩大用户群体,强化网格效应,并可能利用监管豁免的方式获得寻租空间。”换言之,以开源为噱头的巨头游戏,可能会进一步强化大公司的垄断地位,对产业竞争产生不利影响。
当前,对于产业自主性和国际依赖性的问题,我们必须保持谨慎的态度。国内正在尝试发展自己的开源生态,这是一项至关重要的任务。当前限制竞争的隐忧已经得到一定程度的缓解。
朱悦指出,欧盟的两部法律为开源领域设定了新的方向,强调公益性、社群性和自律性。对于通过开源获取货币对价、绑定额外服务或出于安全、兼容之外的目的获取个人信息进行商业变现的行为,不再享受豁免。法规鼓励通过数据卡、模型卡、系统卡等方式披露信息,以促进行业互助。
如何运用立法技术来明确开源AI的边界成为了一个重要问题。是否需要设定基本的义务,以及如何设定,这些都是我们必须面对的挑战。
治理开源AI面临两大难题:定义和安全风险评估。专家们对于支持开源豁免已有基本共识,但具体如何支持仍然困难重重。如何定义开源AI以及如何看待其安全风险是其中的主要难点。
朱玲凤发现,与传统的开源软件相比,开源AI的复现能力更加复杂。AI是由代码、模型、数据和算力等多个组件构成的复杂系统,仅仅开放源代码无法完全复现其能力。为此,我们需要重新审视并定义开源AI的具体含义。
作为参照,我们可以看看开源运动的创始人如何看待这个问题。那位写下《大教堂与集市》的程序员后来创立了开放源代码促进会(OSI)。该组织正在召集全球专家讨论开源AI的定义,并发布了最新报告,提出了开源AI应具备的四种自由。这包括为任何目的使用系统、研究系统的工作机制、修改系统以及共享系统供他人使用。
朱玲凤指出,OSI的定义明确了开源AI不仅仅是公开模型的源代码,但仍然不清楚具体开源的对象是什么,是否会设计不同的开源许可证。在完全封闭和完全开放之间,AI有许多可选路径,包括有使用限制、完全没有使用限制等。我们需要更精确的定义来识别不同层次的风险。对此,安远AI的资深研究经理方亮也表达了类似的观点。关于开源AI的安全性问题,确实值得我们深入思考。朱玲凤对OSI所提出的一个观点表示担忧,即虽然开源社群的创新价值被一再强调,但关于如何确保开源AI的安全使用,社群和协会并没有给出明确的保证。这让人们不禁思考,开源是否也会放大AI的固有安全风险。
开源的安全性一直备受争议。《大教堂与集市》一书中的名言:“如果有足够多的眼睛,错误将无处遁形”,深刻体现了开源的优势:借助集体力量审查技术、发现漏洞、修复缺陷。许多AI科学家也坚信,长远来看,开源是保障AI安全的最佳途径。
呼娜英提醒我们,不能忽视AI开源的安全风险。她指出,大型的网络安全事件大多与开源有关。对于高风险行业而言,尤其需要注意安全和发展之间的平衡。
针对开源AI的定义,中国人民公安大学教授、数据法学研究院院长苏宇认为,对于完全免费、允许所有人自由访问和利用的开源AI组件,可以先豁免其定义。这类组件在人工智能研发中起到了基础性作用,经过大量使用者的反复打磨和完善,相较于信息不对称、不透明的闭源组件和应用更为安全。对此,坚持完善透明度义务是关键。而对于带有商业性质的开源、不完全开源组件及软件的豁免条件,则可在制度实践更成熟之后逐步确定。
专家们普遍认为,保持透明度的基础义务,并分层治理开源AI是重要共识。对于属于通用目的、高风险或基础模型的开源AI,仍需重视并规制其安全风险。
苏宇教授最后强调,对于开源AI,我们需要明确区分哪些是固有风险,哪些是由于开源而引发的风险。我们应该采取精准敏捷的治理措施,避免一刀切的做法。