陈根:人工智能回应两难困境,可正确趋利避害
选择的艺术:当轻重与难易交织
生活中的选择如织网般繁复,有的简单明了,只需我们依据目标作出判断;面对两难选择时,却是一场深思与抉择的较量。每一个抉择的交叉点,都如同生活中的必经之路,体现了生物本能中的智慧。为了更好地理解这一过程,科学家们开始生物在两难选择中的大脑机制,以期为人工智能的研究提供新的灵感。
中国科学院自动化研究所类脑智能研究中心的研究团队,近期深入研究了果蝇脑自主决策的神经机制。他们借鉴果蝇的决策模式,提出了一个类果蝇决策的脉冲模型。这一模型不仅展现了趋利避害的行为模式,更能在面临两难抉择时迅速作出清晰的选择。在强化学习、反转学习和复杂决策任务中,这一模型均展现出强大的验证效果。
果蝇的决策过程并非单一路径,而是融合了基于经验的线性抉择和非经验的非线性抉择两大通路。在面临选择时,果蝇能够自适应地选择适当的通路,进行不同程度的抉择。
在实验中,研究团队教会果蝇对绿色正T图案产生喜好,而对伴随热刺激惩罚的蓝色倒T图案产生厌恶。在选择阶段,他们转换了惩罚与视觉线索的搭配,让果蝇在绿色倒T和蓝色正T之间进行选择,以此观察果蝇在冲突视觉线索下的决策行为。实验发现,在不同的颜色强度下,果蝇的决策行为呈现出“S”型的抉择曲线。
通过单细胞测序,研究团队发现了一条基于价值的非线性抉择通路,它由多巴胺能神经元、GABA能神经元和蘑菇体环路共同构成“增益-门控”的抉择机制。当蘑菇体受损的果蝇只能进行简单的感知抉择,呈现线性的抉择曲线。
在此次研究中,基于果蝇简单感知抉择(线性通路)和价值抉择(非线性通路)的神经机制,研究团队构建了多脑区协同的抉择模型。这一模型不仅模拟了果蝇的决策过程,更将类果蝇抉择的脉冲模型应用于实际任务中。使用小拳头打击模拟惩罚信号,模型能够学会飞向安全的视觉图形,并对图形中的线索表现出趋利避害的行为。更令人惊奇的是,这一模型能够灵活适应任务反转,仅仅经过4次错误选择就能学会新的规则。
人工智能的未来发展不在于简单的模仿人类确定目标的行为(有限游戏),更在于模拟人类的自我进化能力和直觉智慧。当我们沉浸在人工智能带来的便捷时,更应关注人与智能之间的关系。在这个人工智能的时代,如何平衡人与机器的关系,如何让机器具备真正的智能和意识,将成为我们面临的重要问题。“为机器立心”,不仅是技术的挑战,更是对人类智慧的深层次思考。