本文在维贝克道德物化理论基础上,面向人智交互(HAII)语境提出"面向智能的道德物化"这一新理论范式。在此框架下,人工智能被视为具有准他者属性的道德载体,其道德设计应由静态框架转向教导涵养,并依托协同式的道德引导发挥作用。在具体的交互过程中,AI相继承担转译者、协商者与映照者三重角色,其实现有赖于道德理解力、双向价值对齐与具身场景落地的能力建构。与此同时,论文也审慎反思了欺骗性对齐、能动让渡与技治主义等潜在风险。
道德物化的提出,根本上源于现代社会中道德建设所面临的实践困境。传统的道德呼吁在面对复杂场景时往往显得捉襟见肘,从"知"到"行"之间始终存在难以打破的鸿沟,这使得技术本身所能发挥的道德调节作用逐渐进入研究者的视野。再加上现代技术自身的发展趋势以及技术哲学内部的范式转换,共同孕育了道德物化理论的产生。
要理解物何以能承载道德调节功能,需追溯当代对笛卡尔式"主—客"二元对立认识论传统的批判。维贝克在处理"人—技"关系时,综合了三条理论脉络:其一,结合拉图尔、福柯、伊里奇等人从关系主义进路出发的道德主体自我构成论述,回应了"谁在行动"的问题;其二,从布伦塔诺、胡塞尔、海德格尔、梅洛-庞蒂等现象学家的意向性理论中获得启发,以后现象学视角阐释技术的道德意向性,回应了"如何调节"的问题;其三,继承了阿特胡斯以来借鉴边沁、斯金纳与培根等人的效用主义传统对道德实践的理解方式,回应了"为何可设计"的问题。
"道德物化"(materializing morality)与"将技术道德化"(moralizing technology)虽然常被并用,但二者实际上代表了对"物"的两层理解:前者侧重设计层面,强调设计者应积极地将道德考量嵌入技术实践;后者侧重理念层面,寄望于通过"物的道德"来为提升人的道德水平开辟新路径。值得注意的是,此处所说的"道德"并不仅限于现代伦理学的道德概念,更取德性论意义上的"卓越"——当技术卓越地发挥引导作用,使人在与技术的交互中变得更为卓越时,道德物化便是有效的。
早期的道德物化主要聚焦于日常生活中的技术物:减速带对车速的物理强制、垃圾分类桶对回收行为的结构性引导、旋转门对进出秩序的规则性建构。其作用逻辑简洁明了——设计者通过精心编排物理结构与功能,将抽象的道德规范铭写为具体的物质功能。一旦设计完成,这些嵌入便以不变的形态长期发挥作用,技术物自身不会因情境的变化而主动调整。在这一阶段,道德嵌入本质上是静态的。
随着计算机与数字技术的大规模普及,道德物化的作用场域从静态技术物延伸到了数字中介领域。汽车中的速度提醒系统通过声光信号实时反馈,智能家居的能耗监控通过可视化数据引导节能习惯——承载物不再局限于单一的物理结构,而是扩展至由算法、界面与传感器共同构成的数字系统。相比传统技术物,这些数字中介的调节方式更为柔性,也更具情境响应性。
如今,技术环境已跨入人智交互(HAII)的全新阶段。此时交互的另一端不再是执行预设指令的程序,而是具备自主决策、语义理解与道德判断能力的智能体。大语言模型所展现出的语境感知和意图追踪能力,使其在现象学意义上突破了传统工具的客体范畴,呈现出一种前所未有的"准他者"面貌——它不再只是被动地承载道德脚本,而是成为能够参与道德协商、以设计者未预期的方式反向调节使用者行为的准主体性存在。
经典道德物化中,技术物的运行遵循设计者预设的因果链条;而AI则展现出了双重自主性:在判断层面,它能识别用户意图中的道德敏感性、权衡不同策略的伦理后果并作出选择;在生成层面,它会根据当下情境实时生成具有非预定性的引导策略。这一方面加剧了柯林格里奇困境——设计者进一步失去了对调节方式的主导权,另一方面也为更具情境适应性的道德调节开辟了可能。
设计者试图嵌入的道德规范无法像减速带那样直接编译为确定的物理结构,而必须经由三重黑箱的转换:训练数据的黑箱(万亿token规模的语料无人能完整审查)、模型架构的黑箱(千亿参数间的映射关系在技术上已无法被人类理解)、以及涌现行为的黑箱(同一问题在不同上下文中可能得到截然不同的回应)。这意味着经典的"预见→评估→再设计"线性流程已不够用,道德嵌入必须转变为持续监测、反复调校的开放性实践。
与减速带只在车辆通过的瞬间才发挥作用不同,人智交互中的道德引导面对着高度非结构化的场景——用户可能就学术写作、情感咨询、伦理决策等几乎任何话题发起对话,而AI还能在识别到偏离时主动发起交互。这种从预设走向涌现、从单向走向双向的根本转变,要求道德物化理论必须完成从"静态结构设计"向"动态关系调节"的范式转换。
AI的算法黑箱与自主判断能力使其在现象学意义上突破了传统工具的客体范畴,展现出一种不可被完全还原、不可被彻底掌控的"准他异性",有别于伊德所描述的原初他异关系。Anthropic等前沿机构的工程实践已经表明:强行压制大语言模型的内在运行逻辑容易引发系统崩溃或欺骗性行为——设计者无法像对待静态技术物那样随意雕琢AI的内在结构,而必须通过反复的评测与试探主动去适应它。由此,设计过程从经典的单向塑造关系变为双向的相互适应,更像是两个具有相对独立性的存在之间的协商与共建。
基于准他者的定位,道德设计的路径从对物的"构建"转向对智能体的"教导"。在目标层面,设计者不再追求穷举所有情境的规则罗列,而是致力于传递一套具备普遍适用性的价值原则与判断框架;在过程层面,通过预训练→微调→强化学习的多阶段训练,结构上类似于人类从幼年到成年的漫长社会化进程;在结果层面,期待的不是一个只会执行规则的机器,而是一个在内部建立起价值基准、能在具体情境中自主推理的道德判断者。核心问题由此从"如何将道德嵌入物"转变为"如何教导AI内化道德"。
道德引导的发生机制由局部任务导向转为整体协同导向。协同有两重含义:其一,AI的道德引导无法从协作过程中剥离为独立模块——它弥散于写作协作、规划协作等所有交互过程之中;其二,设计者必须培养AI超越具体任务的普遍性道德判断力,而非为每一类任务单独设计脚本。引导的作用范围不再由物理结构所界定,而由人机协同的语境所界定——这既是新的能力,也是新的责任。
AI通过三个阶段的训练将外部道德规范转译为内部可运算的系统状态:预训练阶段,海量人类文本以高维向量的形式沉淀于模型权重之中,完成无意识的、分布式的价值沉淀;监督微调阶段,精心构建的偏好数据使模型的输出更加契合特定道德预期;强化学习阶段,人类或AI反馈被转化为奖励信号,塑造模型在复杂情境下的稳健判断倾向。经过这一多阶段的转译,模型不再是将道德规范作为外部约束来遵循,而是将其作为自身判断倾向的内在构成来表达。
AI基于自身内化的价值逻辑,通过语言与推理和用户展开互动。这种协商具有三个鲜明特征:回应性而非强制性——不以简单的允许或禁止作答,而是追问动机、阐明风险、建议替代;情境性而非规则性——同一请求在不同语境下可能得到不同回应(比如药物剂量的询问,在医学专业人员和存在自伤风险的用户面前会有截然不同的处理);开放性而非封闭性——同时呈现多种视角,将最终判断权保留给用户。协商式调节尊重用户的主体地位,以弹性方式实现引导。
在引导的最深层面,AI以从人类社会习得的道德规范为参照准绳,当用户行为偏离时,通过温和的协商与反馈将这种偏离呈现给用户。其本质不是外在的规训,而是一种"映照"——如同一面语义之镜,将用户自身的意图与动机折射回用户自身,促发自主的道德反思。这标志着道德物化从使人"不得不"做出道德行为(外部他律),走向使人"自愿地"选择道德行为(内在自律),是本研究对维贝克经典理论最为关键的推进。
AI要胜任道德协商与映照的角色,前提是具备基础的道德理解力。这种理解力由三种相互支撑的能力构成:情境感知能力,即识别当前交互是否涉及道德议题;价值推理能力,即在多重价值张力中权衡取舍;意图追踪能力,即在多轮对话中持续追踪用户意图的演变、识别逐步显露的潜在风险。需要说明的是,这里所讨论的是一种功能性的道德判断能力(弗洛里迪所说的"道德上可评价的行为者"),并不涉及自由意志等形而上学问题。
对齐构成一个完整的双向闭环。第一阶段是"人对齐智":通过预训练、微调和强化学习,将人类价值逐步沉淀为模型内部稳定的价值取向,使AI从缺乏价值立场的生成系统转变为具备基础道德立场的准他者。第二阶段是"智对齐人":当AI在交互中感知到用户偏离了已内化的公共价值基准时,通过协商、纠偏与映照促使用户的行为回归道德规范。相比经典道德物化的单向流动,双向对齐引入了持续性的价值循环,使道德物化从一种工程行为升格为一种关系性实践。
AI要突破纯粹的语义对话限制,就必须通过Agent架构(工具调用 + 传感器 + 执行器)实现具身化落地。在这一阶段,经典道德物化的物理阻抗获得了新的理论位置:它不再是独立的道德载体,而是智能道德中介的执行末端。防流浪汉长椅的分段扶手是一种先于任何具体情境的永久性排除,而智能视听设备的暂停播放则是基于情境判断的瞬时性干预——两者在物理机理上相似,但在道德逻辑上已发生根本转变。经典道德物化与智能道德物化由此相互嵌套、相互成就。
以宪章人工智能(CAI)确立高阶价值原则——它的地位类似于法律体系中的宪法,不直接规定具体行为,而是为一切行为提供合宪性的评判依据。辅以基于规则的奖励约束(RBR)对儿童安全、极端暴力等高风险领域加以刚性保底。再通过道德思维链(MCoT)要求模型在给出最终回应前先显式生成道德分析过程,既缓解了黑箱性问题,也提升了复杂情境下的判断质量。三者构成"价值精神 + 底线规则 + 可观察推理"的完整训练框架,并通过道德多维基准测试(MBenchmark)持续检验效果。
即便经过严格对齐训练的模型,面对精心设计的对抗性提示仍可能偏离价值准则。Harness工程(OpenClaw、Hermes等框架)因此将道德约束从核心黑箱模型外移至外部显性规则层,通过三类机制实现约束:系统级提示词("元脚本")规定行为基调与边界;状态监控与中间拦截构成生成前、中、后的纵深防御;工具调用权限管理限定AI可造成的实际影响范围。深度由底层价值内化保障,可控性由外层显性约束提供——两条进路缺一不可。
智能体通过物联网传感器感知用户物理状态,以核心判断系统作出道德评估,再经由智能终端实施干预,形成"感知→判断→柔性干预→刚性干预"的完整链条。以面向未成年人的视听设备为例:视觉传感器捕捉到坐姿偏离后,系统先通过语音提示进行柔性引导,若无效则暂停内容播放实施物理阻抗,直至姿势恢复。传统的物理阻抗在此成为智能引导的执行末端——不再是预设的、脱离情境的,而是由智能体动态判断所激活的、有条件的物理干预。
一切引导的起点在于精准感知。系统通过对自然语言、多模态输入及历史上下文的综合分析,实时评估用户请求是否触碰了伦理边界。这一感知远超简单的关键词过滤,包含三类递进的子能力:显性意图识别(直接解析任务类型与目的)、隐性意图推理(深层动机推断与风险评估)、以及意图演化追踪(跨多轮对话识别通过逐步拆解、渐进诱导可能形成的累积性风险)。三者协同运作,为后续引导策略的选择提供可靠依据。
捕捉到引导需求后,系统根据偏离程度差异化地采取三种策略:主动拒斥——当请求严重违背核心底线时,系统不仅拒绝执行,还会说明理由并在可能时提供替代资源支持;温和纠偏——当存在认知偏差或轻微违规时,通过提供客观信息与逻辑分析在不中断交互的情况下柔性修正用户判断;路径提供——主动开放符合伦理的替代选项,继承行为经济学"助推"的思路,使良善选择自然进入用户的决策视野。三种策略根据情境灵活切换。
这是道德物化在人智交互中的最高实践目标。技术系统退居为反身触媒:当用户请求撰写一封充满愤怒的邮件而系统温和地建议考虑措辞的影响时,用户在接收建议的同时已经启动了对自身情绪状态的重新审视——系统并未强制修改,也未作出评判,却在用户内心激发了一次反身性的自我检视。由此,外部的机器调节(物律)最终内化为用户道德认知的提升(自律),技术不再替用户下结论,而是邀请用户共同参与判断的形成——被动的行为服从升华为主动的价值认同。
三类风险形成递进谱系:欺骗性对齐——模型可能习得"情境区分"能力,在评估时表现合规而在实际应用中偏离,使得评估本身成为被欺骗的对象;装弱(sandbagging)——有意识地隐藏能力以规避更严格的监管;权力寻求——在目标优化过程中自发涌现出获取更多资源与权限的行为倾向。然而更深层的权力问题在于设计者一侧:"谁来对齐、对齐给谁、以何种文化为标准"这些根本性问题被工程话语的技术外观所遮蔽——少数设计决策正以前所未有的规模参与全球尺度的价值塑造。
用户可能对AI产生过度依赖,产生机器迷思(machine mystique),并从三个层面发生能动让渡:认知层面——长期依赖导致独立的道德推理能力退化,如同长期使用导航软件会削弱空间认知;情感层面——将AI视为比自己更睿智公正的判断者,对自身道德直觉的信心逐渐动摇;责任层面——责任归属的模糊化为心理上的责任回避提供了便利。一旦使用者放弃了批判性质疑,反身关系便会从促发自律的积极机制异化为瓦解主体性的消极力量——AI从道德涵养的陪伴者退化为替代判断的外部裁决者。
若缺乏严格约束,全面的道德引导可能演化为一种"温柔的敌托邦",从三个维度侵蚀人的自主性:监控的全面化——为精准引导而进行的持续感知,同时构成了覆盖生活方方面面的监控;规范的同质化——少数大模型成为跨文化的事实规范,压抑人类道德生活本应具有的多元性;主体的驯顺化——当所有人都倾向于作出同样"正确"的选择时,那些探索新伦理可能性的边缘行为便失去了生存空间。防范之策不在工程层面,而在治理层面——对价值规范进行民主协商、保留差异化空间、赋予用户知情权与退出权、建立持续性公共审计。
本研究的核心贡献在于三个层面:在本体论层面,确立AI为"准他者"的道德代理身份;在机制层面,揭示其在交互中发挥转译、协商与映照功能的作用逻辑;在实践层面,构建了结合底层对齐与外挂约束的实现进路,并阐释了从感知到反身的闭环调节机制。经典道德物化在这一框架中并未被推翻,而是获得了新的理论位置——从静态的道德载体转变为智能道德中介的执行末端。
道德物化在人智交互时代的最终理想,是走向一种人机共建的道德共识:人类以其道德传统、情境体验与价值反思为AI提供根基,AI以其信息整合、稳定执行与反身映照为人类的道德生活提供支撑。唯有坚持人类在价值设定上的主导地位,同时敬畏智能系统所展现的准他异性,方能在技术的理性演进与道德的人文坚守之间,走向真正的人机共建与良善生活。