现有人工智能(artificial intelligence,简称ai)价值对齐方案试图借助自然科学的经验证据与实证方法厘清人类道德的自然主义基础,并通过技术手段将其应用到ai对人类价值观的学习之中,忽视了道德的自然主义解释的根本性缺陷,引发了ai价值对齐难题。有限主义认为,现有ai价值对齐方案主张使ai具备类人道德,在本质上遵循ai发展的自由主义进路。这过于乐观化、理想化。在现实中,时空有限性、类人有限性与算法有限性等难题导致ai价值对齐的功能有限性。同时,ai价值对齐的功能有限性又伴随着各类技术风险与社会风险,即ai失控风险、人类机器化风险、无人担责风险与ai滥用风险。对此,应坚持有限主义的ai价值对齐方案,反对通用ai价值对齐的路线,坚持ai价值对齐的去道德化,制度化防止ai道德责任对齐,以及控制ai价值对齐的应用范围。
刘永谋,中国人民大学哲学院教授、博士研究生导师
随着ai的普遍化与强大化,人类正处于“魔法师学徒”的境地,对齐问题(the alignment problem)成为最紧迫的问题之一,即“如何确保这些模型捕捉到我们的规范和价值观,理解我们的意思或意图,最重要的是,以我们想要的方式行事”。当ai伦理风险不断涌现,价值对齐问题已然成为各大ai企业竞相研究、践行的核心策略。2023年7月,openai宣布成立“超级对齐”(superalignment)团队,计划花费4年时间、投入20%算力,全力解决超级智能的价值对齐问题。此外,谷歌、微软、openai和anthropic共同创建了前沿模型论坛,旨在通过与政策制定者、学术界的合作,推动ai模型安全、负责任的开发。不可否认,ai价值对齐能够大幅纠正偏见、促进公平,已被视为解决ai发展负面后果的关键举措。
但是,ai价值对齐亦存在问题。从根本上来看,现有的各类ai价值对齐方案遵循ai发展的自由主义进路,坚持类人ai理念,强调技术至上,主张资本的无序扩展与有效加速主义(effective accelerationism, e/acc)。具体来说,ai价值对齐追求类人道德,对技术发展极度乐观,试图借助科学知识与技术手段,使ai习得人类价值观。人类道德是不完美的,类人道德并非圣人道德,并不一定有益于人类。因此,虽然ai价值对齐将有益ai视为最终目标,但是在实践路径上却发生偏移,逐渐趋向自由主义进路,不可避免地伴随着ai失控、人类机器化、无人担责与ai滥用等风险。
跳出自由主义框架,以有限主义视域审视ai价值对齐是必要的、有价值的。尼克·波斯特洛姆(nick bostrom)在分析智能大爆发的动力学、超级智能的形式和能量的基础之上,转向ai控制问题的研究。他区分了确保ai可控的能力控制方法与动机选择方法,认为能力控制方法最多只是暂时的、辅助的手段,人类应更多地掌握ai动机选择机制。在此基础之上,波斯特洛姆详细分析了ai获取人类价值观的多种方法,如详细表达、进化选择、强化学习、价值观累积、动机性支架、价值观学习、仿真调节、体制设计,并对可行性与效果进行评估。此外,斯图尔特·罗素(stuart russell)同样强调,要保持对ai的绝对控制权,确保ai永远对人类有益。他提出了人机之间的一种新关系,即:当致力于使ai实现人类目标时,应明确人类的目标是不确定的,如此才能确保ai服从于人类,在行动前请求许可、接受纠正、允许被关闭。无论是尼克·波斯特洛姆,还是斯图尔特·罗素,均遵循ai发展的有限主义进路,强调ai的可控性与有益性。正如科技谦逊主义所认为的,“人类发展科技的最终目标毫无疑问是为了人类福祉,即使追求真理的冲动,最后也是要落实到造福社会上的”。与自由主义进路相对,有限主义进路关注对ai的控制而非无限发展,“重要的是努力控制,而不是完成控制”。因此,在有限主义视域下审视ai价值对齐的基本预设、功能范围与具体方案,才能确保ai安全、有益、实用,避免陷入“ai必须拥有像人类一样的价值观”的技术、伦理等跨学科难题中。
一、ai价值对齐的自然主义预设
在有限主义看来,现有的ai价值对齐方案遵循自由主义进路,试图通过无限发展技术使ai具备类人道德,因此,该方案不可避免地以自然主义道德观为基础和预设。其原因在于,强调技术至上的自由主义进路倾向于选择一种普遍的、绝对的道德观,以便被统计、量化与编码至ai系统。一直以来,人类普遍将自由意志、意识等视为道德的核心要素,但此种对道德本质的形而上学思辨难以被证实,无法通过技术手段将其应用至ai价值对齐方案中。相较而言,近来兴起的生物伦理学、神经伦理学等探寻人类道德的自然主义基础,从自然科学的角度解释人类道德的起源与本质,为ai价值对齐提供了可操作的、可实现的技术路径。但是,通过有限主义视域的审视,可以发现,道德的自然主义解释存在根本性缺陷,它忽视了道德的文化维度,消解了人类道德的复杂性与多样性。
(一)人类道德的自然主义理论基础
在认知神经科学领域,人类道德行为被认为与大脑中的特定区域相关。通过利用“脑电图(eeg)、事件相关电位(erp)等电信号方法以及正电子发射断层技术(pet)、功能磁共振成像(fmri)等方法”,可发现大脑中有两个与道德相关的系统:情感系统与认知系统。在情感系统中,杏仁核在面临道德情境时会被激活,产生愤怒和恐惧等情绪反应,进而影响道德判断;岛叶与同情、内疚等道德情感相关,有助于推动我们做出道德行为;腹内侧前额叶皮层负责整合来自杏仁核与岛叶的情感信息,并结合认知信息,做出综合的道德决策。在认知系统中,背外侧前额叶皮层帮助人类在道德判断中应用逻辑与规则权衡利弊;下顶叶皮层有助于我们在道德决策前识别他人意图、行为与情感状态;前扣带皮层在识别道德冲突、纠正错误行为方面有着重要作用。此外,大脑中的多巴胺作为情感与认知系统间的桥梁,能够确保人类在面临复杂的道德情境时,综合情感与理性做出道德判断。多巴胺作为一种神经递质,是大脑奖励机制中的驱动力。当预测或感知到某一道德行为会带来奖励时,大脑的某些区域会释放多巴胺并产生愉悦感,使主体对奖励产生依赖与渴望,进而强化、学习、内化某些道德判断与行为。当某人做出符合社会道德规范的行为(如看到他人受苦时给予帮助)并得到认可与积极反馈,多巴胺的释放便会加强该行为的重复。在道德困境中,多巴胺通过调节奖励预期做出最终抉择。
在生物进化学看来,道德主要是一种合作形式与利他行为,二者有利于人类生存与繁衍,因此人类道德能够在自然选择中被保留。合作即个体同他人一起从事互利活动的行为,“同情是纯粹的合作,公平是某种竞争的合作化”。当合作需个体付出净成本,为他人带来净利益,便展现为利他主义。据考古学可知,大约4万年前,智人的一支突然出现戴蒙德所谓的“跳跃式演化”,拥有了道德感,开始照顾老弱病残,成为现代智人有道德的祖先克罗马农人。在很大程度上,此道德演化源于人类早期环境的影响。晚更新世祖先生活在资源分布不均、大型捕食者众多、气候多变的非洲大草原,合作狩猎大大提升了效率与安全性,集体养育后代减少了时间与资源成本,共同防御提升了对抗外部威胁的能力,真实信息共享有助于群体做出更优的迁移、防御、捕食等决策。此后,随着时间的推移,人类互惠互利合作出现在劳动分工、生产系统、战争等领域,为人类带来了低成本高收益以及更强的群体适应性。但是,此种道德的自然主义解释无法说明利他主义的存在,根据理查德·道金斯(richard dawkins)的理论,成功基因的一个突出特性是无情的自私性,这将导致个体行为的自私性,只有在特殊情况下个体才会展现出一种有限的利他主义,普遍的爱和利益在进化论中属于毫无意义的概念。对此,塞缪尔·鲍尔斯(samuel bowles)与赫伯特·金迪斯(herbert gintis)认为,支持合作的利他主义在进化过程中可胜过全然非道德的自利的原因有三:第一,人类群体设置了回避、排斥、惩罚、均整化实践等方法保护利他成员免于遭受自利者的利益剥夺;第二,人类长期且复杂的社会化系统引导个体内化能够导向合作行为的规范,如声誉选择;第三,拥有大量合作成员的群体,能够在与其他群体的竞争中取胜,获得繁殖优势,并通过文化传播扩散合作行为。此外,模仿也是关键因素,当个体注意到合作者获得了高利益,便会模仿其合作行为;当父母经常做出利他行为,幼年个体便会不自觉模仿。由此,合作与利他行为便会迅速在群体中扩散与普及。总之,无论是通过暴力驯化还是自我驯化,随着对非道德个体的压制和消灭,人类的基因库与行为方式逐渐改变,经由一种特殊的自然选择过程留下了有道德感的后代。
(二)基于自然主义道德观的ai价值对齐
在现有技术路径中,ai价值对齐方案可分为两大类:插入式对齐与微调式对齐。插入式对齐(plug-in alignment)包括参数高效的调整(parameter-efficient tuning)、输出矫正(output rectification)、上下文学习(in content learning);微调式对齐(fine-tuning based alignment)包括全监督微调 (supervised fine-tuning, sft)和基于人类反馈的强化学习微调(reinforcement learning from human feedback, rlhf)。此外,anthropic公司提出的“宪法人工智能”(constitutional ai)作为一种微调方法,主张以训练好的“宪法ai”模型评估主模型的输出是否符合“宪法”规则,力图基于模型训练而非人类反馈实现高效的、规模化的ai价值对齐。
有限主义认为,在上述方案中,部分ai价值对齐技术以认知神经科学为基础,探寻ai学习人类道德的可能性。多模态情感分析与人类大脑的情感系统相类似,ai可通过表情、语调、语义等多模态输入识别情感状态,从而做出情感驱动的道德判断。例如,ai社交软件利用多模态情感分析技术,通过分析文字、图片、音频、视频中的情感倾向,可识别与处理某些不道德内容,如仇恨言论、偏见歧视等。知识图谱与伦理规则引擎可表示、执行、推理复杂的伦理关系与规则,类似于人类大脑认知系统中的规则与逻辑应用,ai可使用知识图谱与伦理规则引擎进行复杂的道德推理与决策。例如,自动驾驶系统可利用知识图谱整合道路环境、交通规则、事故数据,并结合伦理规则引擎,根据内置的道德规则,在面临“电车难题”等情况时权衡各项因素,做出最优决策。此外,强化学习模仿大脑多巴胺系统的奖励信号与调节机制,针对ai的道德输出,人类的反馈被作为一种奖励信号,能够帮助ai区分道德行为与不道德行为。通过计算人类实际反馈与ai预期反馈之间的差异,ai不断调整其行为策略以符合道德规范。因此,人类准确及时的正面反馈能够强化ai的道德行为,负面反馈有助于纠正ai不道德行为。例如,当人类对chatgpt的某些回答给予负面反馈,模型便会调整其生成策略,避免类似回答再次出现。
此外,在有限主义看来,ai价值对齐运用的某些算法与学习方式尝试借鉴生物进化学中的合作与利他行为,帮助ai在与人类的互动中更好地理解、辨别与学习道德行为。在多智能体强化学习中,智能体通过合作博弈模型学习如何在多个利益相关者之间实现公平与协作。例如,ai医疗系统中的合作博弈模型可在医疗资源有限的情况下实现公平分配,并在面对紧急情况时综合病人伤情、治疗效果等情况进行救治优先级决策,做出较为公正的道德判断。进化算法可通过初始化、评估和选择、交叉和变异、替换等过程训练ai进行道德决策,以逐渐逼近最优解。首先,确保一定数量的ai模型的参数是随机初始化的,其中每个模型都被设计用来评估道德情境并做出决策;其次,通过道德任务评估每个ai模型的道德表现并进行评分,选取表现最好的模型进入下一代;再次,通过交叉操作,将两个优秀模型的参数进行结合和重组,并随机修改新ai模型的部分参数,引入新的遗传多样性;最后,用新模型替换初始表现最差的ai模型。这一过程迭代进行,ai模型不断优化,直到ai道德决策不断逼近人类道德判断。例如,护理机器人运用进化算法,可在面临保护客户隐私与提供必要帮助的道德抉择时,做出合理并能满足用户需求的道德决策。此外,模仿学习方法(如逆强化学习与行为克隆的运用)使ai能够在人机交互中模仿人类道德行为。例如,ai助理法官通过逆强化学习,学习人类法官在判决过程中的决策逻辑与道德考量,避免受原生数据影响而产生偏见行为。
(三)自然主义道德观存在明显缺陷
通过分析道德的自然主义基础及其在ai价值对齐技术方案中的应用,不难发现,ai价值对齐的自然主义预设体现在三个层面:第一,主张道德现象可还原为自然事实,且事实间存在因果关系;第二,认为道德相关项可通过统计与数据方法进行明确表征;第三,认可存在普遍化的、绝对化的道德。
以有限主义视角对ai价值对齐的自然主义预设进行批判性审视,可以发现,自然主义道德解释存在自然主义谬误、理论不确定性与认识片面性的根本缺陷,极易引发ai价值对齐难题。首先,自然主义谬误即一种从“是”到“应当”的逻辑推演错误。现有ai价值对齐以自然主义为预设,试图从生物学、神经科学事实中推导出道德价值,忽视了描述性事实与规范性判断之间的根本差异。当某些神经生理结构被视为人类做出道德决策与行为的根源时,要求不道德者为自身行为负责似乎缺乏合理性。其次,理论不确定性即道德的某些自然主义解释难以被完全证实。例如,生物进化理论认为,合作演化过程包括亲属选择、族群选择、互利共生和互惠、利他主义,这一关于合作行为的自然主义解释,存在从基因决定论到社会决定论、从利己合作到利他合作的断裂。其实,“就目前的实验条件而言,尚未存在任何一种道德属性与自然属性之间的因果性关系能够在科学上获得充分认可”。即便关于人类道德的某些生物学与神经科学解释暂时难以被证伪,也应避免从碎片化的、特殊性的某类科学知识中推导出一般性的道德规范。最后,认识片面性即自然主义道德解释忽视了道德的文化维度。“人类道德不是一个单一庞大的东西,而是个混杂物,是在不同生态压力下,在人类进化的数百万年间的不同时期,由来源于各种不同的东西拼凑而成”。认知神经科学与生物进化等领域的道德理论以某些经验证据与实证数据为基础,试图确立某种普遍的道德原则,但是,道德兼具规范性与描述性的双重本质,其中,规范性作为道德的核心特征,难以被还原为某些实证知识。不可否认,道德规范也是多样的、相对的,在不同的社会环境中受人类后天文化教育、文化传播的影响而不断发展。正如道金斯提出的模因(memes)概念,其作为文化的基本单位,与自然科学中的基因(gene)概念相对,可通过社会传播、代际传播等方式塑造不同的道德规范。
总之,有限主义认为,对道德的自然主义解释是有限度的,道德虽然在自然方面持续演化,但同时在文化方面也不断建构,因此应避免走到决定论的地步。人类的道德行为是“自然—先天”与“文化—后天”两方面综合作用的结果,既有自然属性,也有社会属性。因此,较为合理的解释可被总结为“道德的自然空间说”。即:人类的生物学特征给我们的道德观念以某种自然主义基础或框架,使之不可能超出某种可能性空间,但这种限制并不导致唯一性的道德观念,而是存在细节上的多元化道德选择。