同盾李晓林:解决时代困境,知识将成为AI3.0的“

工业机器人 2021-06-01 09:04www.robotxin.com工业机器人教育

同盾科技合伙人、人工智能研究院院长李晓林教授

尽管已经离开讲台,李晓林身上仍留着些许象牙塔内的痕迹。

之前,他是学界精英,佛罗里达大学终身教授;现在,他是同盾科技人工智能研究院的院长。平时与人交谈时,他语言温和,但一旦涉及专业问题时,立即进入学者气常

在谈及知识联邦相关话题时,这种转变尤为明显。

这是他带领研究院伙伴们提出的理论体系,希望一种更安全的方式,利用好现有数据,搭建一个开放的智能大脑,最终推动人工智能3.0时代的到来。

打破数据孤岛

上世纪80年代,中国人工智能专家姚期智曾提出过“百万富翁”假设两个百万富翁在街头相遇,他们想知道谁更有钱,出于隐私,又不想让对方知道自己到底拥有多少财富。

姚期智提出用“多方安全计算”方式来解决这一问题。如今的人工智能领域,正面临类似的困境,人工智能的发展进步,离不开,但大家对数据边界越发重视,又不愿数据离开本地。

在李晓林教授看来,这是AI 2.0时代必须要解决的困境。他认为,我们当下经历的人工智能热潮,兴起于21世纪第二个十年初期,属于AI 2.0时代,依托于深度学习理论。

AI 2.0的快速发展,主要依靠三个因素算法、算力和。深度学习提供算法,CPU和GPU提供算力,信息社会则储存和提供足够的数据。

李晓林举例,谷歌的AlphaGo之所以能实现快速进化,便在于它一共学习了3000万盘已有的棋局,自己跟自己又下了3000万盘。

这种依靠海量数据训练的人工智能模式,经过初期野蛮发展后,正面临无数据可用的困境。

原来主要来自两个方面,是数据不足,拥有海量数据的往往只有少数行业,大多数领域的数据往往有限,或者数据质量较差。则是“数据孤岛”和数据安全使得数据共享越发困难。数据在不同公司间,甚至同一家公司内部,都难以实现无障碍流动。

而数据带来的隐私暴露或数据泄露,使得加强保护数据安全和隐私保护,成为各国政府的共同选择。

2018年5月25日,欧盟《通用数据保护条例》(GDPR)正式生效,这个堪称目前世界范围内最严格的用户数据保护条款,允许用户对自己数据拥有完全自主的权利。而美国和中国正在制定类似的隐私和安全法案。

这些现象都预示着,AI 2.0时代,似乎即将因为数据孤岛与数据安全,陷入双重困境。在同盾科技所在的金融科技领域,这一问题尤为重要。银行等金融机构,迫切想要提高风控水平,却又对数据安全极端看重,甚至将其作为立身之本。

2019年春天,李晓林加盟同盾科技后,出任合伙人、人工智能研究院院长,试图通过“知识联邦”技术,来解决这一问题。

当年冬天的网易未来大会上,同盾提出知识联邦概念,它不是单一技术方法,而是一套层次化技术框架体系将散落于不同机构或个人的数据联合起来,转换成有价值的知识,并在联合过程中采用安全协议保护数据隐私。

这一理论提出后发展迅速,已经成长为国内联邦学习五大代表流派之一。

搭建数字技术生态

2017年,为保障数据交换时的信息安全,保护个人隐私,谷歌公司的科学家在一篇文章里提出联邦学习概念。理论提出后不久,国内各互联网公司纷纷搭建团队,投入相关研究。

李晓林说,硅谷的竞争速度更像是古代战场你来一剑,我捅一刀,大家排兵布阵慢慢打。而在中国,“基本是赤膊角斗,相当激烈”。

根据国内媒体统计,目前联邦学习在国内已经形成“五大流派”,分别是微众银行主打的联邦学习,蚂蚁金服主攻的共享智能,平安科技的联邦智能,京东数科开展的异步联邦学习研究,以及同盾科技推出的知识联邦理论体系。

要在多方竞争中占据一席之地,无疑需要具备独特优势。李晓林指出,知识联邦比联邦学习的范畴更大、更系统,更有层次,“联邦学习是知识联邦的一个子集。”

知识联邦作为一套技术框架体系,与联邦学习、、隐私计算、安全多方计算等其它技术领域都紧密相关。这些单一技术,在知识联邦的不同层面各自发挥作用,共同服务于数据“可用不可见”的大目标。

同盾发布的知识联邦白皮书显示,知识联邦具有三大优势第一是全样本触达。联邦后机构间的数据,虽然各自为所有者控制,由于可以触达更多的数据,其性能甚至会超越维度有限数据的中心化聚集方式。

第二是数据不动模型动。联邦后的原始数据保留在本地,计算和学习也发生在本地,中心节点仅对参与方模型知识进行安全的聚集。弱中心化模式达成了效率和安全之间的平衡,尤其适合在强监管行业应用。对银行等金融机构来说,知识联邦的应用前景尤为广阔。

第三是知识也可以安全的共享融合。比如参与方通过NLP构建本地的知识图谱和各种网络节点的关系,再通过知识联邦来构建更完整的虚拟图谱,这样既能帮助识别欺诈团伙,又能提升企业征信的风控模型。人工的知识也可以融入其中(human in the loop),自主自适应的构建和融合多源知识,提炼出最有效的洞见来做智能分析与决策。

李晓林说“在知识联邦的模式下,模型训练时每个银行和金融机构,各自的数据不需对外输出,甚至连模型的参数都不用给到对方,只需要将模型梯度的变化加密后在密文空间里安全的聚合。这样攻击者不能反推出源数据。”

基于知识联邦理论体系,同盾科技推出了工业级应用产品智邦平台(iBond),通过建立相应的任务联盟,解决不同应用场景需求。

在2020年10月举办的全球人工智能大会智能金融上,同盾联合浙江大学、复旦大学、百度实验室、360集团、平安科技、等学界业界等多家顶尖机构成立“知识联邦产学研联盟”,旨在实现数据安全前提下,共同构建优质数字技术生态。

李晓林认为,按照目前人工智能发展态势,2040年前后,人工智能将步入3.0时代,除数据、算力、算法三要素之外,知识要素将成为第四要素。

开放智能大脑浮出水面

2020年11月,同盾人工智能研究院发布知识联邦技术体系下的数据安全交换(FLEX)协议,并于12月将其开源。该协议中包含一系列的约定,只要遵守这些约定,参与方就可以安全地加入到联邦,无需担心数据隐私会有泄漏风险,全面实现数据可用不可见。

协议背后,藏着李晓林和同盾对未来的野心。在李晓林看来,未来肯定不会只有知识联邦一个联邦平台存在。

行业需要一套完整的联邦数据安全交换标准,让各个参与方在选择使用联邦平台时有规可依,只要遵循相应标准,不同体系之间同样可以实现数据交换,知识互通。

一旦参与机构(数据提供者)足够多,联邦规模足够大,数据多样性就有保障,也就会有更多机构(数据使用者)愿意来使用联邦服务,也会有更多科技型机构(模型和应用开发者)来提供丰富的算法、模型和应用。

届时,知识联邦可以充分发挥平台作用,对参与机构提供的数据,以及科技机构提供的模型和应用进行评估,将数据作为生产资料的价值发挥到最大。

李晓林将其称之为电商式的平台,参与方在数据可用不可见的安全环境中,进行数据、模型应用的交换,甚至可以在等技术的保障下进行自由交易。而知识联邦作为平台方,可以对参与方贡献出的数据和模型评分。

良性循环就此建立,李晓林说,知识联邦的应用范围,也将不再局限于某一个行业,而是有可能成为贯穿各行各业的开放的智能大脑。

上世纪90年代,李晓林在浙大读书时,人工智能尚是冷门专业。课堂上只有五六个学生,图书馆里的资料大多是过期的油印本。如今的课堂,500人的教室常常坐满,课上提出理论,课后甚至可以立刻做出样品,一个学期的作业就可以做出的原型,行业应用不断创新。

这一切都让李晓林觉得,人工智能的下一个时代或许加速到来,在这其中,必然将有知识联邦的身影。

Copyright © 2016-2025 www.robotxin.com 人工智能机器人网 版权所有 Power by