黑种人a毛片,午夜成人无码福利免费视频,国内精品久久久久久无码不卡

社科網首頁
客戶端
官方微博
報刊投稿
郵箱

2020年2月14日

首頁
本所概況
哲學所簡介

中國社會科學院哲學研究所是我國哲學學科的重要學術機構和研究中心。其前身是中國科學院哲學社會科學部哲學研究所。歷任所長為潘梓年、許立群、邢賁思、汝信（兼）、陳筠泉、李景源、謝地坤。中華人民共和國成立前，全國沒有專門的哲學研究機構。為了適應社會主義改造和建設事業(yè)發(fā)展的需要... ... <詳情>
現(xiàn)任領導
更多+

張蕾

黨委書記

張志強

黨委副書記，所長

劉志明

黨委常委，紀委書記，副所長

周丹

黨委常委，副所長
更多+

王立勝

黨委書記、副所長

馮顏利

黨委書記、副所長

張志強

黨委書記、副所長

王立勝

黨委書記、副所長
組織機構
更多+
研究室

習近平文化思想研究室

馬克思主義哲學原理研究室

馬克思主義哲學史研究室

中國馬克思主義哲學研究室

中國哲學研究室

東方哲學研究室

西方哲學史研究室

現(xiàn)代外國哲學研究室

美學研究室

倫理學研究室

科學技術哲學研究室

邏輯學研究室

智能與邏輯實驗室
編輯部、圖書資料室

《哲學研究》編輯部

《哲學動態(tài)》與《中國哲學年鑒》編輯部

《世界哲學》編輯部

圖書資料室

職能處室

人事處

辦公室

科研處

社團學會

研究中心
黨建工作
歷史沿革

哲學研究所現(xiàn)行的領導體制是黨委領導下的所長負責制。此前曾實行過黨支部、黨的領導小組、黨總支、黨委、機關黨委、分黨組、聯(lián)合黨委等領導形式。
1955年4月，哲學所成立第一屆黨支部，周宜明擔任支部書記，下半年黨支部增設宣傳委員和組織委員，李奇擔任宣傳委員，魯孝文擔任組織委員。<詳情>

黨建專欄
更多+
離退休工作
更多+
哲學研究所舉辦離退休干部2025年度秋季講壇...

閔家胤同志訃告

哲學研究所舉辦離退休干部2025年度夏季講壇...

哲學研究所舉辦離退休干部2025年度春季講壇...

哲學研究所春節(jié)前夕走訪慰問離退休干部
工會、青年工作
更多+
展現(xiàn)女性哲人獨特風采聚焦女性哲人睿智力量——...

關于做好我所甲型H1N1流感防控工作的通知

青年哲學論壇暨哲學所建所55周年系列學術報告會
研究學人
已故名家
更多+
- 潘梓年
- 金岳霖
- 賀麟
- 杜任之
- 容肇祖
- 沈有鼎
- 巫白慧
- 楊一之
榮譽學部委員
更多+
徐崇溫

陳筠泉

姚介厚
學部委員
更多+
李景源

趙汀陽
本所同仁
在職學者

正高級

副高級

中級

初級

離退休學者
科研工作
學科建設
更多+
馬克思主義哲學

中國哲學

西方哲學

東方哲學

倫理學

邏輯學

科學技術哲學

美學

文化哲學
學術動態(tài)
更多+
中國社會科學院重大創(chuàng)新項目“中華文明‘五個突出...

研究闡釋中華文明突出特性構建中國哲學自主知識體系

哲學研究所賈澤林、王柯平、詹文杰獲2024年翻譯界...

哲學所“中國哲學學科團隊”獲評“首屆中國社會科...

我所1項課題獲2020年度國家社科基金后期資助項目立項
論著評介
更多+
侯杰耀著《社會選擇與社會正義：當代分配正義的規(guī)...

田時綱譯《獄中札記（第一卷）：歷史唯物主義和克...

《中國哲學年鑒2024》出版

陳靜點校｜以元本為底本的《四書纂疏》首次整理出版

李薇著《從道德感到同情：18世紀英國道德情感主義...
學術爭鳴
更多+
【周丹】抗日戰(zhàn)爭偉大勝利的哲學闡釋

【閆培宇】“第二個結合”的世界歷史意蘊

【王京】大數(shù)據(jù)視域下馬克思主義與中華優(yōu)秀傳統(tǒng)文...

【董鍵銘】作為契約論政治哲學前提批判的生命政治學

【賀翠香】社會批判理論關于“內在批判”的爭議
獲獎、成果
學術期刊
人才培養(yǎng)
博士后
更多+
中國社會科學院博士后工作管理規(guī)定

《中國社會科學院博士后工作管理規(guī)定》實施細則

中國社會科學院博士后經費使用與管理辦法

哲學研究所關于博士后工作的管理辦法

2012年中國社會科學院哲學研究所博士后流動站...
青年哲學論壇
更多+
青年哲學論壇
訪問學者
更多+
中國社會科學院哲學研究所國內訪問學者招收簡章
中英美暑期哲學學院
更多+
中英美暑期哲學學院第24期高級研討班在京重啟

中英美暑期哲學學院第24期高級研討班（道德責任與...

中英美暑期哲學學院第24期高級研討班（道德責任與...

中英美暑期哲學學院第23期高級研討班在華東師范大...

中英美暑期哲學學院第22期高級研討班在首都師范大...
圖書檔案
圖書館簡介

哲學專業(yè)書庫的前身是哲學研究所圖書館，與哲學研究所同時成立于1955年。1994年底，院所圖書館合并之后將其劃為哲學所自管庫，從此只保留圖書借閱流通業(yè)務，不再購進新書。

2009年1月16日，作為中國社會科學院圖書館體制機制改革的重要舉措之一，哲學專業(yè)書庫正式掛牌。
<詳情>
哲學學科服務
更多+
中文社會科學常用核心期刊目錄來源

中國社會科學院哲學研究所圖書室館藏哲學書刊簡況

哲學書庫——幾代館人竭盡心力完整系統(tǒng)收藏書

圖書室藏書凝聚著科研人員的心血與汗水
特色館藏
更多+
【高穎蘭倩】四庫底本《記纂淵海》考略

傅蘭雅與《格致匯編》
哲學系
哲學系簡介

哲學系以中國社會科學院哲學研究所為依托，成立于1978年。中國社會科學院哲學研究所為國家級專業(yè)研究學術機構。1955年成立中國科學院哲學社會科學部后，哲學所便開始招收培養(yǎng)研究生，因“文革”一度停止招生。自1978年中國社會科學院成立以來...<詳情>
哲學系動態(tài)
更多+

哲學院成功舉辦“深化科教融合，做好本科生教學和...

哲學院召開2021年度春季工作會議

第二屆“中華傳統(tǒng)文化民生獎學金”樓宇烈民生獎學...
招生信息
更多+

2026年哲學院全國統(tǒng)考招收碩士研究生招生名額情況（接收推免生后）

中國社會科學院大學哲學院2026年預推免研究生招生復試結果

2026年哲學院接收推免研究生招生復試名單及復試安排

中國社會科學院大學哲學院2026年碩士研究生招生專業(yè)目錄

2026年中國社會科學院大學哲學院碩士研究生招生入學考試參考書目
表格下載
更多+

中國社會科學院大學碩士研究生招生思想政治素...

報考導師意向表

中國社會科學院大學研究生招生體格檢查表

2025年中國社會科學院大學哲學院哲學專業(yè)博士...

中國社會科學院大學哲學院2025年博士研究生招...

您當前的位置：首頁>科研工作>學術爭鳴>倫理學

學術爭鳴

【李亞明】“價值對齊”還是“理由對齊”？—人工智能倫理設計的元倫理學反思

發(fā)布時間： 2025-07-31

【

字號 +字號 -】

摘要：“價值對齊”被視為人工智能倫理治理的重要方案，該方案蘊含著一種信念，即在對齊了人類價值的情況下，人工智能所做出的行為抉擇就會符合人類有關“正確”行為的標準。堅持“正確”可以依賴于“價值”的元倫理學立場，面對著諸多理論困境，如無法對價值給出可分析的解釋，難以在道德判斷中容納義務，無法對行為本身的價值給出論證等，以上理論難題直接導致了當代人工智能“價值對齊”面對的現(xiàn)實困境。元倫理學中的另一種立場以“正確”來解釋“價值”，進而又通過“理由”來解釋“正確”。該方案為價值提供了一種可分析的解釋，在道德考量中以簡明的方式平衡了后果和義務；揭示了原則在實踐推理中發(fā)揮作用的方式，有效避免了以“價值”指示“正確”的那類理論所面對的困難。人工智能倫理設計中已存在多種形式的“對齊”人類“理由”的嘗試，這類嘗試有助于探究促使人工智能系統(tǒng)做出正確行為的根本因素，同時澄清了“價值”在人工智能道德推理中發(fā)揮作用的方式。

關鍵詞：人工智能;價值對齊;人工智能倫理;正確;理由

在人工智能倫理治理中，“價值對齊”是當前的主導范式。人們普遍認為，與人類的價值充分“對齊”足以引導人工智能在復雜情況中做出符合人類期望的行為決策。由聯(lián)合國教科文組織發(fā)布的《關于人工智能倫理的建議》中就曾指出，價值在塑造政策措施和法律規(guī)范方面發(fā)揮著強大的激勵作用，激發(fā)了理想的行為，并代表了原則的基礎[1]。

然而，依據(jù)“價值”確定“正確”的推理方式在元倫理學層面面對著諸多困境，在20世紀初至今的倫理學研究中受到了廣泛爭論。人工智能倫理設計中出現(xiàn)的如道義論與后果主義無法恰當平衡，已有道德原則難以普遍應用等現(xiàn)實問題，均與這些元倫理學困境直接相關。反思有關“價值”與“正確”關系的另一立場：即以“正確”確定“價值”的立場，將對現(xiàn)實問題提供重要啟發(fā)。20世紀末，有學者借助“理由”概念對這一立場進行了重新表述。在支持和反對“理由基礎主義”的論證中，這一立場進而得到了非常深入的闡釋。以“理由”指示道德上的“正確”有效避免了以“價值”指示“正確”所面對的困難。“理由對齊”能夠為“價值對齊”提供重要的解說，為人工智能倫理設計提供具有實踐可操作性的思路。

一、以“價值”指示“正確”所面對的困難

通常人們認為，規(guī)范概念有兩大類。第一類是評價性的，例如，善與惡，高尚或有價值；第二類是道義性的，例如，正確和錯誤，理由、應當、責任、義務或禁止等。關于哪一類概念在規(guī)范性判斷中更為根本，各種重要的倫理學理論持有不同觀點。認為一類概念更加根本，就意味著可以憑借這類概念對另一類概念做出合理的解釋說明，因而，這類概念也就可以被視為規(guī)范性判斷的根本依據(jù)。摩爾（G.E.Moore）有關“善”的論述開啟了20世紀以來的元倫理學探討，提出“善”在道德考量中具有最為根本性的地位。在《倫理學原理》（1903年）中，摩爾甚至用“善”來給“正確”下定義，即所謂“正確”就是產生最大程度的“善”。如果這一觀念能夠得到充分辯護，也就為人工智能“價值對齊”提供了理論基礎。然而，這類觀點面對很多理論困難。

以“善”來定義“正確”的觀念會受到摩爾在同一本著作中提出的“開放問題論證”的質疑。“開放問題論證”指的是，如果以某種非道德的性質來定義“善”，就會使原本“封閉”的問題變得“開放”：我們總是可以有意義地追問“快樂就是善嗎？”我們也可以有意義地追問任何其他自然性質“就是善嗎？”于是，對什么是善這個問題的回答成為不確定。如果“促進快樂”等產生“善”的特性不是“善”本身，那么基于同樣的邏輯，“正確”也不等同于產生“正確”的那些特性。這些性質只是使“正確”成為“正確”的一種性質。羅素在對《倫理學原理》的評論中提出，即便可以證明某種行為會產生最佳結果，我們仍可能追問為何要采取這種行為。考慮到這個問題，摩爾在《倫理學》（1912年）中修改了他的觀點，提出能夠促進“善”并非“正確”的定義，而是使行為成為“正確”的唯一屬性[2]。即便同第一種觀點比，摩爾的第二種觀點已發(fā)生很大改變，但“善”可以用來指示行為的“正確性”這一點沒有改變。20世紀很多重要的哲學理論均支持這一觀念。

認可“正確性”依賴于“善”，導致“正確性”的判斷標準自然地傾向于行為結果。摩爾在《倫理學原理》中提出，“正確”意味著“不會造成比任何可能的替代方案更少的善”[3]。“如果我們的行為使得整個世界實際上變得更糟，那么這種行為必然是錯誤的。”[3]約瑟夫（H.W.B.Joseph）認為，如果一項行為有助于實現(xiàn)善，無論這種善是以幸福、福祉還是其他價值來定義，那么它就被認為是正確的。并且他認為這意味著，一項行為的正確性往往取決于其產生良好結果的能力。拉什達爾（H.Rashdall）在《價值的可共度性》一文中主張，“善”是“邏輯上首要的概念”，而“正確”僅僅意味著“傾向于促成善的事物”[4]。對他而言，結果具有的“善”甚至高于善良意志具有的“善”：善良意志或許比它所意愿的任何結果都具有無限多的價值；但除非那個結果是善的，否則這種意志本身也不能說是善的[4]。認可“價值”的優(yōu)先性意味著允許人工智能道德行動者無需訴諸“正確行為”的概念而對環(huán)境和事態(tài)做出價值判斷，這一立場在人工智能的倫理訓練中同樣導向了基于后果主義的訓練方案，即一個行為是“正確”的，當且僅當（并且因為）該行為在它所能掌控的所有可行選擇中，會帶來最好的結果，

后果主義類型的倫理理論被認為最有可能成為機器倫理的基礎，其在人工智能行動者訓練中的優(yōu)勢就在于，一方面，后果主義本質上具有算法性；另一方面，人工智能的計算能力有望在很大程度上化解后果主義理論一直以來面對的一項重大質疑。后果的不確定性曾導致后果主義理論長期受到詬病：人類行動者往往處于一種貧乏的認知地位，實際上不可能知道其所有可能行動的后果，甚至，其欲望的對象未必真的對其有益。人工智能則具有解決這一問題的潛力，在最大程度上實現(xiàn)對人有益的結果。這樣的結果類似于雷爾頓（Peter Railton）所提出的“客觀化的主觀利益”。雷爾頓假設存在一個對自身和環(huán)境擁有充分信息，有能力全面而生動地思考他所有可能的選擇及其結果，并且沒有工具理性層面的任何錯誤的行動者，這樣一個行動者認為其應當欲求的，才是行動者的真正利益。雷爾頓稱之為行動者的“客觀化的主觀利益（Objectified Subjective Interest）”。相比人類自身，人工智能無疑能夠在更大程度上實現(xiàn)“客觀化的主觀利益”。

然而，即便能夠更充分地計算作為結果的“價值”，秉承“價值”優(yōu)先性的人工智能卻不能同樣好應對另一類針對后果主義的詰難，即有些“正確”的行為恰恰是沒有價值的。出于義務的行為通常并不會導致最大的“善”，甚至不會產生任何價值，但我們都有理由依據(jù)義務行事。依照羅素的觀點，“正當?shù)男袨槭悄墚a生最大可能的善的行為”與“能產生最大可能的善的行為產生最大可能的善”并不是同義反復[5]。康德闡釋的義務就是意志依據(jù)道德法則的必然行動，排除了一切出自偏好的根據(jù)。即便某一行動沒有任何價值，一個行動仍然可能是某人的義務，因而應當被選擇。

為應對作為“正確性”判斷標準的“價值”同義務相沖突的問題，“理想功利主義”（Ideal Utilitarianism）曾提出了這樣的解決方案，即義務也可以被賦予價值，并且其價值可以高于后果產生的價值，因此，“正確的理論應當禁止那些有足夠高的概率違反義務的行為，不論其后果如何……”[6]。將有義務的行為視為具有內在善，有望對后果和義務之間的平衡給出合理方案。例如，針對后果主義可能要求關押無辜“替罪羊”以減少社會動蕩這一有爭議的意見，理想功利主義會回應說，關押無辜者本身就是一件非常糟糕的事，而且確實比它所能減少的社會動蕩要糟糕得多。因此，關押無辜者是錯誤的，如此，他們也就可以得出不違背義務的結論[7]。“行為具有內在價值”的觀念對于旨在通過將義務納入價值論框架來應對相關質疑的后果主義而言至關重要。然而，這里需要注意的是，持這一立場必須承認行為本身是有價值屬性的，進而關于某行為的義務或相關道德原則本身是有價值屬性的。

行為本身的價值很難得到論證。正如羅斯（R.D.Ross）提出的，“善”是動機和結果的屬性，而不是行為的屬性。一種行為可以是內在正確或錯誤的，但絕不是內在善或惡的[8]。眾所周知，任何一種在某種情境下正確的行為，都可能在另一些情境下成為非常不道德，甚至是非常荒謬的行為。反之亦然。撒謊是壞行為，但通過撒謊以避免傷害他人感情的行為則顯然具有道德價值。坐視一個人失去生命是壞行為，但如果以拯救許多人的生命為前提，對該行為道德價值的判斷就會有所不同。

在當代“價值對齊”問題研究中，研究者以兩種不同的方式理解“價值”。一方面，價值被理解為人類所珍視和渴望的東西，即人類的偏好；另一方面，價值被理解為倫理原則。這兩種理解方案對應著行為結果的價值和行為本身的價值。在以“善”指引“正確”的思路之下，我們對于正確性的探究不可避免地依賴于行動具有的這兩個維度的價值。然而，如前文所述，如果行為的價值只能來自于后果，而不具有內在價值，那么就難以確保人工智能行動者在現(xiàn)實道德判斷中平衡義務和后果，得出符合常識的結論；如果假設行為具有內在價值，不同境遇中我們對于同一行為價值判斷迥異的現(xiàn)實，又很可能導致關于應當/不應當做出某項行為的倫理原則成為錯誤的行為指導。

更加根本的問題在于，這類立場中的“善”是某種獨立的、不可知、不可分析的屬性，因而只能得自直覺。如拉什達爾認為一項行為、規(guī)則、政策或制度的道德性完全取決于其導致的狀態(tài)或事態(tài)的價值或善，而這些價值是“由道德或實踐理性直觀地辨別和相互比較的”[9]。摩爾更為直白地表達了價值本應是不言自明的這一觀念[2]。的確，人們往往很容易識別某事物為善，但并非所有人都稱同樣的事物為善。不愿意解釋他們所賦予的事物的“善”究竟是什么，就會在“善”的現(xiàn)實應用中帶來困惑。例如，很多人工智能倫理研究者都曾明確提出，專家直覺常常不是自洽的，并且是有偏見的[10]。如果直接用以訓練人工智能系統(tǒng)，就會犯“自然主義的謬誤”。何況專家直覺也會有分歧，這往往導致人工智能無法做出選擇[11]。

以上就是以“價值”指示“正確”所面對的主要困難，這些困難是人工智能“價值對齊”須回應的元倫理學挑戰(zhàn)。在20世紀的元倫理學爭論中，曾產生了另外一種解釋“價值”和“正確”之間關系的方案。這類方案用“正確”來指示“價值”，用“理由”來指示“正確”。其所提供的解釋能夠有效避免上述種種理論困境，推進我們對于“正確行為”的理解。

二、“推諉論證”：確認“正確”的另一路徑

“推諉論證（Buck Passing Account）”通過“道義性概念”闡釋“評價性概念”，體現(xiàn)了同摩爾相對的另一種元倫理學立場。該理論將對價值的解釋推諉給價值以外的性質，從而對“價值”給出了一種“還原論”說明，即如果一事物具有的某種價值以外的“低階屬性”會在適當情況下，給行動者提供對該事物做出積極反應的恰當理由，那么就可判定該事物具有“價值”這一“高階屬性”。“推諉論證”為“價值”提供明確的、可分析的解釋，同時為確認“正確”提供了一種更加具有實踐可操作性的方案。當代引起大量關注的“推諉論證”是斯坎倫（Thomas Scanlon）在《我們彼此負有什么義務》（1998年）一書中提出來的。在斯坎倫提出其觀點之前，也曾出現(xiàn)過非常類似觀念。

甚至有人認為，就將價值理解為一種“支持態(tài)度”而言，我們可以合理地將這一思路的起源歸于康德。康德曾提出，“實踐上的善……是通過理性表象來決定意志的東西，因此不是由主觀原因決定的，而是客觀地決定的……是由對所有理性存在者都有效的理由來決定的”[12]。這種理論以“道義性概念”理由來闡釋“評價性概念”善，對兩類規(guī)范性概念的關系提供了一種不同于摩爾的理解。直覺主義者尤因（A.C.Ewing）也提出過類似觀點。尤因在《善的定義》（1947年）中將“善”定義為應當成為“贊成態(tài)度”（Pro-attitude）的目標的東西[13]。他提出“贊成態(tài)度”旨在涵蓋對某物的任何有利態(tài)度，例如選擇、欲望、喜愛、追求、認可或欽佩等等。當某物本質上是善的，在其他條件相同的情況下，它本身就是我們應當歡迎的東西，如果它存在，我們就應當為之欣喜，如果不存在，我們就應當努力去創(chuàng)造它。我們應當認可對它的獲取，應當將失去它視為一種剝奪，如果它有可能到來，我們就應當期待而不是害怕，避免阻礙其產生的東西，等等[13]。所謂“善”就是有“理由”贊成。

20世紀末，作為對摩爾元倫理學思想的反思，斯坎倫在《我們彼此負有什么義務》（1998年）中提出了和尤因類似的觀點，即珍視某物就是認為自己有理由對它持有某種積極的態(tài)度，并以某種方式對它采取行動。斯坎倫提出，“善和價值純粹是形式上的、高階的屬性，具有某些低階屬性，正是這些基本的低階屬性，在為以某些特定方式對其采取行動提供了理由的同時，為我們對某對象持有某種評價態(tài)度提供了理由。道義性概念“理由”相對于“善”而言是更加根本性的概念，并優(yōu)先于“善”。正因如此，這一理論被稱為“推卸責任”的解釋。當我們評估“價值”時，完全可以把論證的責任推卸給那些證明其價值的基礎。將某物視為有價值就是認為自己對某物具有某些類型的理由，如欽佩、尊重、保存和保護的理由，促進的理由，以及以某些特定方式行動的理由等。

在對價值給出不同于摩爾的說明的同時，斯坎倫也對如何判斷“正確”做出了進一步反思：如果某些價值以外的“低階特征”提供了行動理由，那么，我們就無需依據(jù)“價值”而得到“正確”，而是可依據(jù)“理由”得到“正確”。通過對“理由”的探討，斯坎倫想要駁斥一種錯誤觀點，即除了源自“產生價值的屬性”的理由之外，一物的“價值”本身會為我們的行動或為我們對其持有積極態(tài)度增添理由。當一個事物是好的，它具有一些基本屬性，這些屬性為我們提供了采取行動或采取積極評價態(tài)度的全部理由。例如，是一個度假區(qū)所具有的風景優(yōu)美、設施完善，或氣候宜人等屬性，而不是該度假區(qū)具有的價值，讓我們認為應當前往該度假區(qū)。即便該度假區(qū)具有價值，這種價值也不會在諸多“低階屬性”帶來的理由之外，增加我們對其持有積極態(tài)度的理由。又比如，頭疼是不好的，但這種價值判斷并不會為我們看醫(yī)生的正確行為抉擇增添額外理由。疼痛這一“低階屬性”已經給出了充分理由。

不是善或價值本身提供的理由，而是其他屬性提供的理由。這種解釋的優(yōu)勢在于，顯示了道德價值并非僅僅是主觀的或隨意的，而是“可知”和“可分析”的，它們均基于能夠被分享和討論的理由。摩爾等直覺主義者往往不能清晰界定價值，對于價值排序也存在分歧。這種情況在人工智能系統(tǒng)的倫理設計中導致很多困難。而“推諉論證”則通過對“善”的還原解釋，為解決上述問題提供了一種方案。

“推諉論證”也能夠在道德判斷中更好地平衡后果和義務。行為的價值可以通過支持它的理由得到說明；同時，行為的正確性，也就是它的規(guī)范效力，也來自于支持它的理由。因此，在后果和義務中，“推諉論證”不會偏向某一方。在當代規(guī)范性研究中，“理由”概念受到越來越多的重視。人們普遍認可，理由在規(guī)范性論證中能夠承擔重要作用。其中部分觀點甚至認為，理由在規(guī)范理論中起著根本性的解釋作用，多數(shù)，以至所有其他規(guī)范事實都是以關于理由的事實為基礎的。斯坎倫所持有的“理由基礎主義（Reasons Foundamentalism）”就是這類觀點中的最強版本，雖然該理論引起非常多的爭議，但因其受到關注之多，即便持有相反立場的規(guī)范性研究也不能忽視對該理論的探究。“理由基礎主義”對每一個規(guī)范性屬性和關系進行量化，聲稱關于這些屬性或關系的事實在根本上全面地基于關于理由關系的事實。同樣支持理由基礎主義的帕菲特（Derek Parfit）提出，其他重要的規(guī)范屬性和規(guī)范關系均可還原為理由而得到解釋，而理由本身則是不可還原的[14]。在規(guī)范性屬性和關系的類別中，理由是最根本的。理由優(yōu)先于關于某人應當做什么的事實，同樣也優(yōu)先于價值。

對理由進行考量有助于澄清道德原則的應用方式。我們曾基于各種所珍視的價值，為人工智能制定了諸多道德原則，用于指導它們的行為。然而，任何道德原則均不具有絕對的效力，需要依據(jù)特定情境對原則是否能夠應用做具體考量。人類的道德判斷具有靈活性和情境適應性，而人工智能嚴格依據(jù)預設規(guī)則和算法行動，無法像人類一樣在復雜情境中通過綜合考量做出道德決策，在具體情境中缺乏權衡能力，由此常常導致錯誤決策。這一狀況對人工智能倫理設計構成了顯著困擾。

道德原則意在告訴我們應當/不應當做什么。例如，不應當撒謊。任何道德原則所描述的僅僅是行為的某一個特征，例如撒謊，而未涉及其他可能具有重大道德意義的特征。但在現(xiàn)實情境中，我們決定是否要做出的任何一種行為都具有多重特征，被描述為撒謊的行為同時也可能是拯救無辜生命的行為。我們有不應當撒謊的原則，也有應當在可能的條件下拯救無辜生命的原則，在針對某一行為做出抉擇的時候，同時可以被描述為X、Y和Z行為，會受到一些原則的支持，同時受到另一些原則的禁止。羅斯在《正當與善》中提出，很難為某人應當做什么制定出模態(tài)上充分的條件，是因為關于某人應當做什么的事實實際上是以不同因素之間的競爭為基礎的，而這些因素可能會朝著不同的方向起作用。在這種情況下，我們需要依據(jù)具體情境，以及具體行動者具有的特殊規(guī)范性關系和事實，在X、Y和Z之中選擇某些作為我們行動的理由，進而做出行為抉擇。理由揭示了行動具有的各種不同屬性與行動者之間的關系，以及它們之間的權重比較，因而是良好推理的前提。

在技術研究界，不希望人工智能以極其字面的方式遵循指令是研究者們的普遍共識。至少在西方哲學傳統(tǒng)中，每一種主要的道德理論都可能在某些已知的情境下形成強烈的反直覺的道德判斷，或者存在明顯的證據(jù)不足，難以提供充分論證，不能應對倫理原則的沖突等問題。道德原則是抽象的、普遍性的，不包含對于所有適用條件和適用前提的描述，不能夠照顧到特定個體的特殊價值排序和個體所處的具體情境。與道德原則不同，基于理由的慎思明確了道德原則的前提條件和我們對沖突的道德原則進行選擇的方法。“道德不僅告訴我們以某種方式待人，如不要傷害他人”等原則，道德“還給予我們一些這樣去做的理由”[15]。在理由抉擇的過程中，被許可/不許可的各種行動并非因為其本身具有的價值而被許可/不許可，行動具有的諸多屬性同行動者之間的關系決定了行動是否被許可，對于具體境遇中規(guī)范性要素的明確考量為我們判斷正確行為提供了更加充分的依據(jù)。

三、人工智能倫理抉擇中的理由權衡

對齊人類“理由”的嘗試通過引導人工智能學習人類理由抉擇的方法，促使人工智能做出道德上正確的行動。曾有人工智能倫理設計研究者指出，康德和斯坎倫契約主義的道德理論中所要求的理解“理由”的能力遠遠超出了大多數(shù)現(xiàn)有的人工智能行動者的能力[16]。同時，也有觀點認為，對于那些存在正確答案且可以通過推理和權衡證據(jù)而回答的問題，人工智能有能力做出比人類更好的回答，至少超級智能能夠比人類更準確地做出回答。

在人工智能系統(tǒng)倫理訓練中，以“理由”為基礎的“正確性”判斷已經得到采用。無論最終是否能夠為人工智能系統(tǒng)構建非常完善的理由推理知識體系和訓練體系，“理由對齊”至少可被視為一個非常具有前景的努力方向：一方面，行動理由是一個行動者就某一具體事態(tài)向另一個行動者主張的理由。理由權衡的過程能夠引導人工智能關注具體行動者及其特殊境遇，從而將涉及的人類行動者尊重為具有內在價值的實體，同時得出更恰當?shù)男袨榫駬瘢涣硪环矫妫绻f以“價值”指引“正確”的思路僅僅導向了對于“行為結果”和“行為本身”的價值的關注，“理由”的權衡則能夠揭示恰當?shù)摹靶袨閯訖C”對于引導正確行為的重要意義，進一步保證行為結果的合目的性。

（一）尊重人類行動者的行動性

只有一個要在某具體情境中做出行動的主體才可能主張理由。當我們說某物具有價值，我們無需指明施動者。即便周圍無人采取任何行動，無人有機會采取任何行動，也無人可以說有理由采取行動，具有價值的某物仍舊是具有價值的。然而，一個獨立于行動者，并等待行動者去獲取的理由則并不存在。如果我們說某一種情形產生了行動的理由，我們就必須將該理由分配給某個行動者。在反思個體行動者有何恰當?shù)男袆永碛蓵r，該行動者具有的特定關系以及面對的具體情境就被賦予了道德權重，尊重這些特定的關系和具體的情景就是對于行動者內在價值的尊重，因為這是行動者行使行動性的前提條件。

種種具體的關系和情境，而非價值，決定我們對特定事態(tài)應采取的態(tài)度或行為。正如某人的貧困本可以為處于適當位置的任何行動者提供理由，但這并不意味著這些特征已經提供了理由。這就是為什么辛格的援助理論受到很多批評。我們不能合理地要求所有人對某個貧困的人進行援助，直到變得和他一樣貧困為止。每個有能力援助的人和某貧困的人可能有不同的關系，不同關系決定了其可以合理持有的不同態(tài)度。友誼、親屬關系和各種形式的特殊關系都是行動者判斷“正確”行為的依據(jù)。我們可以對貧困這一現(xiàn)象做出統(tǒng)一的價值判斷，但在不同個體的道德慎思中，這一價值將被賦予不同的道德權重。這類似于斯坎倫曾經說到過的“有價值”和“重視”之間的區(qū)別。“說我重視我的孩子是很自然的；但如果我說他們是有價值的（除了在每個人都有價值的意義上），那就太奇怪了”[17]。我們珍視自己的孩子超過別人的孩子，但我們并不認為自己的孩子比別人的孩子更有價值。有價值或無價值本身并不是直接給出理由的特征。相比價值，具體情境中的特殊關系同理由判斷之間存在更直接的聯(lián)系。

以理由為導向的推理支持特殊義務，同樣支持普遍性的義務。理解理由的能力被視為理性行動者的典型特征，也是他們內在價值的來源。尊重一個理性行動者，就要對他們的這種能力做出充分回應，即以理由與之進行論辯。這種論辯關注特殊理由，如我曾經幫助過你是我現(xiàn)在要求你幫助的特殊理由，同時，只有具有普遍性的特殊理由才能成為辯護性理由，如“對于曾經施以援手的人，所有人都必然負有更多的援助義務”，因此，考慮到我曾幫助過你，你對于我負有更多援助義務。由此得出的道德推理具有普遍性的權威性，在現(xiàn)實場景中也更具有說服力。

理由是一個特定行動者向另一個特定行動者所主張的，這意味著在互動中形成的決策才有可能是道德上正確的。“自下而上”的人工智能訓練方法就是對這一原則的響應。“自上而下”的方法將明確的倫理原則植入程序或機器，再通過分析其計算要求尋找能夠執(zhí)行這一理論的算法。與之不同，“自下而上”的方案基于實例而推進，更加注重與人類的互動，從而使其倫理目標超越了價值和原則。模擬對人工實體的進化壓力的方法通過與其他人工智能體的反復互動，來發(fā)展人工智能體的道德行為，因而無需從上層進行道德理論的編碼[18]。有設計者曾提出，一個人工智能行動者不應采取其理性上認為與另一行動者的道德行動方案相矛盾的行動方案，除非得到知情同意[19]。知情同意使得來自經驗的理由能夠具有某種普遍性。

合理的行動理由來自于對涉及的所有行動者可能持有的理由的權衡，因此，訓練集的選取和設計同樣關系到這類訓練的成敗。當代科技的特點是每個個體的決策都可能影響同該行動毫無關系的人，如異種器官移植除了影響接受者，還可能造成全社會范圍內的跨物種感染；基因編輯會使人類基因池受到改變；特定算法的應用塑造著所有人的世界觀。人工智能得到的經驗反饋的范圍當然應不僅限于技術使用者，也應包括處于特定情境中的非直接用戶的反饋。其訓練集還要包括各種不同的價值觀，并包含各種不同的人際關系。人們當然不可能在道德上完全達成共識，實際操作中，各方只需就規(guī)定特定主題或關系集的原則達成一致即可[16]。一致認可的原則就是處于不同規(guī)范性關系中，擁有不同規(guī)范性事實的個體均沒有合理的理由反對的原則。

（二）關注行動動機的道德意義

具體情境中的理由抉擇的過程，不僅揭示了應當怎樣尊重一個人類行動者，而且為行為動機賦予了特殊的道德意義。行動者所認可的行動理由，就是他認為支持其行為或至少不能排除其行為的那些因素，而動機的形成正是對那些因素的回應。動機反映了行動者實際上對于理由的權衡和抉擇，反映了這些理由實際上如何被用于確定其行為的可許可性。斯坎倫曾在《道德之維》中提出，在很多情況下，道德上正確的判斷來自于動機而非結果[15]。在《正當與善》一書中，羅斯曾宣稱，無論一行為可能具有何種內在價值……都應歸因于其動機的本質，而非行為本身是正當還是不正當[8]。在很重要的意義上，“有價值的行為”或“正確行為”所施加的約束都不僅在于你做了什么，還在于做事的方式，尤其是動機。

動機也能夠顯示“有價值的行為”和“正確行為”的范圍在何處重疊，顯示“評價性概念”和“道義性概念”間存在著能夠得到明確表述的聯(lián)系。“理由基礎主義”提出，有一類行動既可以被判定為有理由為之，同時也可以被判定為具有價值，它們是“具有價值的正確行動”。使一行動成為“具有價值的正確行動”的是，促使行動者做出該行動的動機理由與其應當據(jù)以行動的規(guī)范性理由之間存在恰當?shù)钠ヅ洹Ｖ庇^地說，行動者出于使行動正當?shù)睦碛扇プ鲞@件事使行動具有價值。例如，我并非為了騙取一個人的信任，而是出于真正的關心，在他受傷的時候打電話慰問了他，就是有價值的正確行動。當然，一個人無需為了所有對其而言具有規(guī)范性的理由而行動，只需為了其中足夠多的理由行動，就能做出具有道德價值的行為。

對行為動機的分析能夠有效避免人工智能的錯誤行為，從而在很大程度上為作為結果的價值提供保障。一方面，即便對于人工智能，行為結果也并非可充分預期，如研究者曾援引元倫理學討論中的觀點“一旦承認必須考慮后果，那么在社會影響的計算中隨意停止于任何一點都是武斷的”[20]。這里表達的態(tài)度是，除非我們清楚了解自身行為的全部后果，否則就不能說知道應當做什么，因此，“在未考察其對人類整體福祉的影響之前就對行為的道德性做出判斷是不合理的”[20]。另一方面，我們要求人工智能實現(xiàn)的結果常常最終被證明并非我們真正想要的結果。正如邁達斯國王的故事就是一個警示[21]。在這個虛構的場景中，主人公得到了他所要求的東西——他觸摸到的一切都變成了金子——而不是他真正想要的。人工智能被編程為解決某些技術問題的工具，并且它的直接目標就是解決這個技術問題。結果就會使人工智能形成這樣一種信念，即解決這個問題的最有效行動就是正確的行動。例如，如果人工智能的唯一目標是制造盡可能多的回形針，并且會竭盡全力抵制任何改變這一目標的企圖，那么它可能使用所有可能的資源，將地球乃至越來越多的太空區(qū)域改造成回形針制造工廠。這顯然不是我們設計這臺機器的初衷。然而，在實踐中避免這樣的結果可能極其困難。人工智能善于完成局部任務，這一特征導致非預期結果增加。

目標是實踐推理的起點，而不是實踐推理的結論。要“正確地”達成目標，人工智能可能需要理解指令背后的意圖，人工智能需要更完整的人類語言和互動模型，以及對人類文化、制度和實踐的理解，這些將使得人工智能能夠理解術語的隱含意義[22]。因此，技術研究界將大量注意力投入到縮小“指令-意圖差距”的任務上是正確的。作為結果的價值可以通過作為動機的價值而得到校正。對動機的關注能夠有效限制結果的不確定性，最大程度地避免以倫理上錯誤的方式實現(xiàn)本應價值無涉的技術目標。如果人工智能被要求制造盡量多的發(fā)動機，為實現(xiàn)這個目標，他可能收集汽車、船舶、飛機上使用的鐵作為原料，雖然制造了更多發(fā)動機，但它造成了更嚴重的破壞。如果他清楚人類的動機是通過更多的發(fā)動機驅動汽車、船舶、飛機，就能夠明確取用材料的范圍至少不包括汽車、船舶、飛機。目標只是形成動機的考量因素，而恰當?shù)男袨閯訖C應包含對目標的反思。

鑒于人類的目標的表達可能總會存在缺陷，“意圖對齊”已經被用于確保人工智能行為背后的意圖與人類真正的目標一致[23]。例如，逆強化學習可以讓人工智能“對激勵人們行動的因素進行建模，而非對行動本身進行建模”[24]，不會預先指定旨在最大化的獎勵函數(shù)，而是專注于“從觀察到的最優(yōu)行為中提取獎勵函數(shù)的問題”[25]。與依賴固定獎勵信號的傳統(tǒng)強化學習不同，來自人類反饋的強化學習所收集到的反饋信號是動態(tài)的，機器能夠辨別哪些行為更有可能滿足人類的動機，并根據(jù)人類反饋持續(xù)更新其行為策略，增強了機器理解行為動機的能力，提升了機器的智能水平。從而在特定任務中的表現(xiàn)隨著時間的推移而不斷提升。人工智能系統(tǒng)在發(fā)展過程中不可避免地會形成自身的價值追求，即實現(xiàn)設計者意圖完成的有限的局部任務，但設計者無法預先對人工智能實現(xiàn)這一結果的方式做出足夠充分的限定。對齊人類動機能夠對人工智能實現(xiàn)特定結果的方式構成有效約束。

四、結語

在人工智能價值對齊研究領域，研究者嘗試依據(jù)“價值”來確定“正確”。這一立場在元倫理學層面的困難正是人工智能倫理設計中現(xiàn)實困境的來源。元倫理學中的對立立場認為，“價值”是由“正確”所確定的，而“正確”可以由“理由”來確定。以“理由”解釋何為正確的行為，能夠有效平衡后果主義和義務論；并解釋道德原則如何應用于具體情境中的個體行動者，明確道德原則的使用方式和前提條件。

結合人工智能倫理設計領域的前沿方法，進一步闡釋以“理由”解釋“正確”的理論方案，揭示了這類理論的現(xiàn)實意義。理由的論辯和權衡涉及個體行動者必須考慮的特殊規(guī)范性關系和和規(guī)范性事實，將個體行動者行使行動性的具體境遇考慮在內，充分尊重了每個個體的內在價值。“理由抉擇”也能夠揭示行為動機具有的道德意義。相比于關注行為后果或行為本身，關注作為理由權衡結果的“行為動機”進一步保證了行為的合目的性，同時更具有實踐上的可操作性。“理由對齊”能夠對“價值對齊”面對的困難做出解釋，并提供解決的方案，促使人工智能系統(tǒng)在更大程度上做出“有價值的行動”和“正確的行動”。

【參考文獻】

[1]The General Conference of the United Nations Educational,Scientific and Cultural Organization.Recommendation on the ethics of artificial intelligence[EB/OL].(2023-11-23).https://unesdoc.unesco.org/ark:/48223/pf0000381137.

[2]MOORE G E.Ethics[M].Oxford:Oxford University Press,1912.

[3]MOORE G E.Principia ethica[M].Cambridge:Cambridge University Press,1903.

[4]RASHDALL H.The commensurability of all values[J].Mind,1902,XI(1):145-161.

[5]RUSSEL B.Russell on ethics:selections from the writings of Bertrand Russell[M].Oxon:Routledge,1999.

[6]D’ALESSANDRO W.Deontology and safe artificial intelligence[J].Philosophical Studies,2024(13):1-24.

[7]ORSI F.David Ross,ideal utilitarianism,and the intrinsic value of acts[J].Journal for the History of Analytical Philosophy,2012,1(2):1-21.

[8]ROSS W.D.The right and the good[M].Oxford:Oxford University Press,1930.

[9]RASHDALL H.Ethics[M].London:T.C.&E.C.Jack,1913.

[10]SCHWITZGEBEL E,CUSHMAN F.Expertise in moral reasoning?Order effects on moral judgment in professional philosophers and non-philosophers[J].Mind&Language,2012,27(2):135-153.

[11]HOOKER J N,KIM T W.Toward non-intuition-based machine and artificial intelligence ethics:a deontological approach based on modal logic[C]//AAAI&ACM Conference on Artifical Intelligence,Ethics,and Society.[S.l.]:AAAI,2018.

[12]GREGOR M,TIMMERMANN J.Groundwork of the metaphysics of morals[M].Cambridge:Cambridge University Press,2011.

[13]EWING A C.The definition of good[M].London:Macmillan,1947.

[14]PARFIT D.On what matters(volumes 1)[M].Oxford:Oxford University Press,2011.

[15]SCANLON T.Moral dimensions:permissibility,meaning,blame[M].Cambridge:Harvard University Press,2008.

[16]GABRIEL I.Artificial intelligence,values,and alignment[J].Minds and Machines,2020,30(3):411-437.

[17]SCANLON T.What we owe to each other[M].Harvard:Harvard University Press,1998.

[18]FORESTA D.Consequentialism&machine ethics:towards a foundational machine ethic to ensure the right action of artificial moral agents[EB/OL].(2020-03-17).https://philpapers.org/archive/DELCM-4.pdf.

[19]KIM T W,HOOKER J,DONALDSON T.Taking principles seriously:a hybrid approach to value alignment in artificial intelligence[J].Journal of Artificial Intelligence Research,2021(70):871-890.

[20]RASHDALL H.The theory of good and evil:a treatise on moral philosophy(vol 1)[M].Oxford:Oxford University Press,1907.

[21]RUSSEL S.Human compatible:AI and the problem of control[M].Bristol:Penguin UK,2019.

[22]HADFIELD M D,HADFIELD G K.Incomplete contracting and AI alignment[C]//Proceedings of the 2019AAAI/ACM Conference on AI,Ethics,and Society.[S.l.]:AAAI,2019.

[23]YI X,YAO J,WANG X,et al.Unpacking the ethical value alignment in big models[EB/OL].(2023-10-26).https://arxiv.org/abs/2310.17551.

[24]V A S QUEZ D,OKAL B,ARRAS K.Inverse reinforcement learning algorithms and features for robot navigation in crowds:an experimental comparison[EB/OL].(2014-11-06).https://doi.org/10.1109/IROS.2014.6942731.

[25]NG A.RUSSELL S.Algorithms for inverse reinforcement learning[J].International Conference on Machine Learning,2000,1(2):2

原載：《電子科技大學學報(社科版)》2025年第3期

分享到

友情鏈接 中國社會科學網哲學中國網中國儒學網上海社會科學院哲學研究所清華大學哲學系更多>>

地址：北京市東城區(qū)建國門內大街5號郵編：100732

電話：（010）85195506 傳真：（010）65137826 E-mail：philosophy@cass.org.cn

微信

《哲學中國》

《哲學研究》

《哲學動態(tài)》

《世界哲學》

首頁

本所概況

黨建工作

研究學人

科研工作

學術期刊

人才培養(yǎng)

圖書檔案

哲學系

點擊搜索

倫理學

【李亞明】“價值對齊”還是“理由對齊”？—人工智能倫理設計的元倫理學反思

發(fā)布日期： 2025-07-31