摘要:“價(jià)值對(duì)齊”被視為人工智能倫理治理的重要方案,該方案蘊(yùn)含著一種信念,即在對(duì)齊了人類(lèi)價(jià)值的情況下,人工智能所做出的行為抉擇就會(huì)符合人類(lèi)有關(guān)“正確”行為的標(biāo)準(zhǔn)。堅(jiān)持“正確”可以依賴(lài)于“價(jià)值”的元倫理學(xué)立場(chǎng),面對(duì)著諸多理論困境,如無(wú)法對(duì)價(jià)值給出可分析的解釋?zhuān)y以在道德判斷中容納義務(wù),無(wú)法對(duì)行為本身的價(jià)值給出論證等,以上理論難題直接導(dǎo)致了當(dāng)代人工智能“價(jià)值對(duì)齊”面對(duì)的現(xiàn)實(shí)困境。元倫理學(xué)中的另一種立場(chǎng)以“正確”來(lái)解釋“價(jià)值”,進(jìn)而又通過(guò)“理由”來(lái)解釋“正確”。該方案為價(jià)值提供了一種可分析的解釋?zhuān)诘赖驴剂恐幸院?jiǎn)明的方式平衡了后果和義務(wù);揭示了原則在實(shí)踐推理中發(fā)揮作用的方式,有效避免了以“價(jià)值”指示“正確”的那類(lèi)理論所面對(duì)的困難。人工智能倫理設(shè)計(jì)中已存在多種形式的“對(duì)齊”人類(lèi)“理由”的嘗試,這類(lèi)嘗試有助于探究促使人工智能系統(tǒng)做出正確行為的根本因素,同時(shí)澄清了“價(jià)值”在人工智能道德推理中發(fā)揮作用的方式。
關(guān)鍵詞:人工智能;價(jià)值對(duì)齊;人工智能倫理;正確;理由
在人工智能倫理治理中,“價(jià)值對(duì)齊”是當(dāng)前的主導(dǎo)范式。人們普遍認(rèn)為,與人類(lèi)的價(jià)值充分“對(duì)齊”足以引導(dǎo)人工智能在復(fù)雜情況中做出符合人類(lèi)期望的行為決策。由聯(lián)合國(guó)教科文組織發(fā)布的《關(guān)于人工智能倫理的建議》中就曾指出,價(jià)值在塑造政策措施和法律規(guī)范方面發(fā)揮著強(qiáng)大的激勵(lì)作用,激發(fā)了理想的行為,并代表了原則的基礎(chǔ)[1]。
然而,依據(jù)“價(jià)值”確定“正確”的推理方式在元倫理學(xué)層面面對(duì)著諸多困境,在20世紀(jì)初至今的倫理學(xué)研究中受到了廣泛爭(zhēng)論。人工智能倫理設(shè)計(jì)中出現(xiàn)的如道義論與后果主義無(wú)法恰當(dāng)平衡,已有道德原則難以普遍應(yīng)用等現(xiàn)實(shí)問(wèn)題,均與這些元倫理學(xué)困境直接相關(guān)。反思有關(guān)“價(jià)值”與“正確”關(guān)系的另一立場(chǎng):即以“正確”確定“價(jià)值”的立場(chǎng),將對(duì)現(xiàn)實(shí)問(wèn)題提供重要啟發(fā)。20世紀(jì)末,有學(xué)者借助“理由”概念對(duì)這一立場(chǎng)進(jìn)行了重新表述。在支持和反對(duì)“理由基礎(chǔ)主義”的論證中,這一立場(chǎng)進(jìn)而得到了非常深入的闡釋。以“理由”指示道德上的“正確”有效避免了以“價(jià)值”指示“正確”所面對(duì)的困難。“理由對(duì)齊”能夠?yàn)椤皟r(jià)值對(duì)齊”提供重要的解說(shuō),為人工智能倫理設(shè)計(jì)提供具有實(shí)踐可操作性的思路。
一、以“價(jià)值”指示“正確”所面對(duì)的困難
通常人們認(rèn)為,規(guī)范概念有兩大類(lèi)。第一類(lèi)是評(píng)價(jià)性的,例如,善與惡,高尚或有價(jià)值;第二類(lèi)是道義性的,例如,正確和錯(cuò)誤,理由、應(yīng)當(dāng)、責(zé)任、義務(wù)或禁止等。關(guān)于哪一類(lèi)概念在規(guī)范性判斷中更為根本,各種重要的倫理學(xué)理論持有不同觀點(diǎn)。認(rèn)為一類(lèi)概念更加根本,就意味著可以憑借這類(lèi)概念對(duì)另一類(lèi)概念做出合理的解釋說(shuō)明,因而,這類(lèi)概念也就可以被視為規(guī)范性判斷的根本依據(jù)。摩爾(G.E.Moore)有關(guān)“善”的論述開(kāi)啟了20世紀(jì)以來(lái)的元倫理學(xué)探討,提出“善”在道德考量中具有最為根本性的地位。在《倫理學(xué)原理》(1903年)中,摩爾甚至用“善”來(lái)給“正確”下定義,即所謂“正確”就是產(chǎn)生最大程度的“善”。如果這一觀念能夠得到充分辯護(hù),也就為人工智能“價(jià)值對(duì)齊”提供了理論基礎(chǔ)。然而,這類(lèi)觀點(diǎn)面對(duì)很多理論困難。
以“善”來(lái)定義“正確”的觀念會(huì)受到摩爾在同一本著作中提出的“開(kāi)放問(wèn)題論證”的質(zhì)疑?!伴_(kāi)放問(wèn)題論證”指的是,如果以某種非道德的性質(zhì)來(lái)定義“善”,就會(huì)使原本“封閉”的問(wèn)題變得“開(kāi)放”:我們總是可以有意義地追問(wèn)“快樂(lè)就是善嗎?”我們也可以有意義地追問(wèn)任何其他自然性質(zhì)“就是善嗎?”于是,對(duì)什么是善這個(gè)問(wèn)題的回答成為不確定。如果“促進(jìn)快樂(lè)”等產(chǎn)生“善”的特性不是“善”本身,那么基于同樣的邏輯,“正確”也不等同于產(chǎn)生“正確”的那些特性。這些性質(zhì)只是使“正確”成為“正確”的一種性質(zhì)。羅素在對(duì)《倫理學(xué)原理》的評(píng)論中提出,即便可以證明某種行為會(huì)產(chǎn)生最佳結(jié)果,我們?nèi)钥赡茏穯?wèn)為何要采取這種行為??紤]到這個(gè)問(wèn)題,摩爾在《倫理學(xué)》(1912年)中修改了他的觀點(diǎn),提出能夠促進(jìn)“善”并非“正確”的定義,而是使行為成為“正確”的唯一屬性[2]。即便同第一種觀點(diǎn)比,摩爾的第二種觀點(diǎn)已發(fā)生很大改變,但“善”可以用來(lái)指示行為的“正確性”這一點(diǎn)沒(méi)有改變。20世紀(jì)很多重要的哲學(xué)理論均支持這一觀念。
認(rèn)可“正確性”依賴(lài)于“善”,導(dǎo)致“正確性”的判斷標(biāo)準(zhǔn)自然地傾向于行為結(jié)果。摩爾在《倫理學(xué)原理》中提出,“正確”意味著“不會(huì)造成比任何可能的替代方案更少的善”[3]。“如果我們的行為使得整個(gè)世界實(shí)際上變得更糟,那么這種行為必然是錯(cuò)誤的?!?/font>[3]約瑟夫(H.W.B.Joseph)認(rèn)為,如果一項(xiàng)行為有助于實(shí)現(xiàn)善,無(wú)論這種善是以幸福、福祉還是其他價(jià)值來(lái)定義,那么它就被認(rèn)為是正確的。并且他認(rèn)為這意味著,一項(xiàng)行為的正確性往往取決于其產(chǎn)生良好結(jié)果的能力。拉什達(dá)爾(H.Rashdall)在《價(jià)值的可共度性》一文中主張,“善”是“邏輯上首要的概念”,而“正確”僅僅意味著“傾向于促成善的事物”[4]。對(duì)他而言,結(jié)果具有的“善”甚至高于善良意志具有的“善”:善良意志或許比它所意愿的任何結(jié)果都具有無(wú)限多的價(jià)值;但除非那個(gè)結(jié)果是善的,否則這種意志本身也不能說(shuō)是善的[4]。認(rèn)可“價(jià)值”的優(yōu)先性意味著允許人工智能道德行動(dòng)者無(wú)需訴諸“正確行為”的概念而對(duì)環(huán)境和事態(tài)做出價(jià)值判斷,這一立場(chǎng)在人工智能的倫理訓(xùn)練中同樣導(dǎo)向了基于后果主義的訓(xùn)練方案,即一個(gè)行為是“正確”的,當(dāng)且僅當(dāng)(并且因?yàn)椋┰撔袨樵谒苷瓶氐乃锌尚羞x擇中,會(huì)帶來(lái)最好的結(jié)果,
后果主義類(lèi)型的倫理理論被認(rèn)為最有可能成為機(jī)器倫理的基礎(chǔ),其在人工智能行動(dòng)者訓(xùn)練中的優(yōu)勢(shì)就在于,一方面,后果主義本質(zhì)上具有算法性;另一方面,人工智能的計(jì)算能力有望在很大程度上化解后果主義理論一直以來(lái)面對(duì)的一項(xiàng)重大質(zhì)疑。后果的不確定性曾導(dǎo)致后果主義理論長(zhǎng)期受到詬?。喝祟?lèi)行動(dòng)者往往處于一種貧乏的認(rèn)知地位,實(shí)際上不可能知道其所有可能行動(dòng)的后果,甚至,其欲望的對(duì)象未必真的對(duì)其有益。人工智能則具有解決這一問(wèn)題的潛力,在最大程度上實(shí)現(xiàn)對(duì)人有益的結(jié)果。這樣的結(jié)果類(lèi)似于雷爾頓(Peter Railton)所提出的“客觀化的主觀利益”。雷爾頓假設(shè)存在一個(gè)對(duì)自身和環(huán)境擁有充分信息,有能力全面而生動(dòng)地思考他所有可能的選擇及其結(jié)果,并且沒(méi)有工具理性層面的任何錯(cuò)誤的行動(dòng)者,這樣一個(gè)行動(dòng)者認(rèn)為其應(yīng)當(dāng)欲求的,才是行動(dòng)者的真正利益。雷爾頓稱(chēng)之為行動(dòng)者的“客觀化的主觀利益(Objectified Subjective Interest)”。相比人類(lèi)自身,人工智能無(wú)疑能夠在更大程度上實(shí)現(xiàn)“客觀化的主觀利益”。
然而,即便能夠更充分地計(jì)算作為結(jié)果的“價(jià)值”,秉承“價(jià)值”優(yōu)先性的人工智能卻不能同樣好應(yīng)對(duì)另一類(lèi)針對(duì)后果主義的詰難,即有些“正確”的行為恰恰是沒(méi)有價(jià)值的。出于義務(wù)的行為通常并不會(huì)導(dǎo)致最大的“善”,甚至不會(huì)產(chǎn)生任何價(jià)值,但我們都有理由依據(jù)義務(wù)行事。依照羅素的觀點(diǎn),“正當(dāng)?shù)男袨槭悄墚a(chǎn)生最大可能的善的行為”與“能產(chǎn)生最大可能的善的行為產(chǎn)生最大可能的善”并不是同義反復(fù)[5]??档玛U釋的義務(wù)就是意志依據(jù)道德法則的必然行動(dòng),排除了一切出自偏好的根據(jù)。即便某一行動(dòng)沒(méi)有任何價(jià)值,一個(gè)行動(dòng)仍然可能是某人的義務(wù),因而應(yīng)當(dāng)被選擇。
為應(yīng)對(duì)作為“正確性”判斷標(biāo)準(zhǔn)的“價(jià)值”同義務(wù)相沖突的問(wèn)題,“理想功利主義”(Ideal Utilitarianism)曾提出了這樣的解決方案,即義務(wù)也可以被賦予價(jià)值,并且其價(jià)值可以高于后果產(chǎn)生的價(jià)值,因此,“正確的理論應(yīng)當(dāng)禁止那些有足夠高的概率違反義務(wù)的行為,不論其后果如何……”[6]。將有義務(wù)的行為視為具有內(nèi)在善,有望對(duì)后果和義務(wù)之間的平衡給出合理方案。例如,針對(duì)后果主義可能要求關(guān)押無(wú)辜“替罪羊”以減少社會(huì)動(dòng)蕩這一有爭(zhēng)議的意見(jiàn),理想功利主義會(huì)回應(yīng)說(shuō),關(guān)押無(wú)辜者本身就是一件非常糟糕的事,而且確實(shí)比它所能減少的社會(huì)動(dòng)蕩要糟糕得多。因此,關(guān)押無(wú)辜者是錯(cuò)誤的,如此,他們也就可以得出不違背義務(wù)的結(jié)論[7]。“行為具有內(nèi)在價(jià)值”的觀念對(duì)于旨在通過(guò)將義務(wù)納入價(jià)值論框架來(lái)應(yīng)對(duì)相關(guān)質(zhì)疑的后果主義而言至關(guān)重要。然而,這里需要注意的是,持這一立場(chǎng)必須承認(rèn)行為本身是有價(jià)值屬性的,進(jìn)而關(guān)于某行為的義務(wù)或相關(guān)道德原則本身是有價(jià)值屬性的。
行為本身的價(jià)值很難得到論證。正如羅斯(R.D.Ross)提出的,“善”是動(dòng)機(jī)和結(jié)果的屬性,而不是行為的屬性。一種行為可以是內(nèi)在正確或錯(cuò)誤的,但絕不是內(nèi)在善或惡的[8]。眾所周知,任何一種在某種情境下正確的行為,都可能在另一些情境下成為非常不道德,甚至是非?;闹嚨男袨?。反之亦然。撒謊是壞行為,但通過(guò)撒謊以避免傷害他人感情的行為則顯然具有道德價(jià)值。坐視一個(gè)人失去生命是壞行為,但如果以拯救許多人的生命為前提,對(duì)該行為道德價(jià)值的判斷就會(huì)有所不同。
在當(dāng)代“價(jià)值對(duì)齊”問(wèn)題研究中,研究者以?xún)煞N不同的方式理解“價(jià)值”。一方面,價(jià)值被理解為人類(lèi)所珍視和渴望的東西,即人類(lèi)的偏好;另一方面,價(jià)值被理解為倫理原則。這兩種理解方案對(duì)應(yīng)著行為結(jié)果的價(jià)值和行為本身的價(jià)值。在以“善”指引“正確”的思路之下,我們對(duì)于正確性的探究不可避免地依賴(lài)于行動(dòng)具有的這兩個(gè)維度的價(jià)值。然而,如前文所述,如果行為的價(jià)值只能來(lái)自于后果,而不具有內(nèi)在價(jià)值,那么就難以確保人工智能行動(dòng)者在現(xiàn)實(shí)道德判斷中平衡義務(wù)和后果,得出符合常識(shí)的結(jié)論;如果假設(shè)行為具有內(nèi)在價(jià)值,不同境遇中我們對(duì)于同一行為價(jià)值判斷迥異的現(xiàn)實(shí),又很可能導(dǎo)致關(guān)于應(yīng)當(dāng)/不應(yīng)當(dāng)做出某項(xiàng)行為的倫理原則成為錯(cuò)誤的行為指導(dǎo)。
更加根本的問(wèn)題在于,這類(lèi)立場(chǎng)中的“善”是某種獨(dú)立的、不可知、不可分析的屬性,因而只能得自直覺(jué)。如拉什達(dá)爾認(rèn)為一項(xiàng)行為、規(guī)則、政策或制度的道德性完全取決于其導(dǎo)致的狀態(tài)或事態(tài)的價(jià)值或善,而這些價(jià)值是“由道德或?qū)嵺`理性直觀地辨別和相互比較的”[9]。摩爾更為直白地表達(dá)了價(jià)值本應(yīng)是不言自明的這一觀念[2]。的確,人們往往很容易識(shí)別某事物為善,但并非所有人都稱(chēng)同樣的事物為善。不愿意解釋他們所賦予的事物的“善”究竟是什么,就會(huì)在“善”的現(xiàn)實(shí)應(yīng)用中帶來(lái)困惑。例如,很多人工智能倫理研究者都曾明確提出,專(zhuān)家直覺(jué)常常不是自洽的,并且是有偏見(jiàn)的[10]。如果直接用以訓(xùn)練人工智能系統(tǒng),就會(huì)犯“自然主義的謬誤”。何況專(zhuān)家直覺(jué)也會(huì)有分歧,這往往導(dǎo)致人工智能無(wú)法做出選擇[11]。
以上就是以“價(jià)值”指示“正確”所面對(duì)的主要困難,這些困難是人工智能“價(jià)值對(duì)齊”須回應(yīng)的元倫理學(xué)挑戰(zhàn)。在20世紀(jì)的元倫理學(xué)爭(zhēng)論中,曾產(chǎn)生了另外一種解釋“價(jià)值”和“正確”之間關(guān)系的方案。這類(lèi)方案用“正確”來(lái)指示“價(jià)值”,用“理由”來(lái)指示“正確”。其所提供的解釋能夠有效避免上述種種理論困境,推進(jìn)我們對(duì)于“正確行為”的理解。
二、“推諉論證”:確認(rèn)“正確”的另一路徑
“推諉論證(Buck Passing Account)”通過(guò)“道義性概念”闡釋“評(píng)價(jià)性概念”,體現(xiàn)了同摩爾相對(duì)的另一種元倫理學(xué)立場(chǎng)。該理論將對(duì)價(jià)值的解釋推諉給價(jià)值以外的性質(zhì),從而對(duì)“價(jià)值”給出了一種“還原論”說(shuō)明,即如果一事物具有的某種價(jià)值以外的“低階屬性”會(huì)在適當(dāng)情況下,給行動(dòng)者提供對(duì)該事物做出積極反應(yīng)的恰當(dāng)理由,那么就可判定該事物具有“價(jià)值”這一“高階屬性”?!巴普喺撟C”為“價(jià)值”提供明確的、可分析的解釋?zhuān)瑫r(shí)為確認(rèn)“正確”提供了一種更加具有實(shí)踐可操作性的方案。當(dāng)代引起大量關(guān)注的“推諉論證”是斯坎倫(Thomas Scanlon)在《我們彼此負(fù)有什么義務(wù)》(1998年)一書(shū)中提出來(lái)的。在斯坎倫提出其觀點(diǎn)之前,也曾出現(xiàn)過(guò)非常類(lèi)似觀念。
甚至有人認(rèn)為,就將價(jià)值理解為一種“支持態(tài)度”而言,我們可以合理地將這一思路的起源歸于康德。康德曾提出,“實(shí)踐上的善……是通過(guò)理性表象來(lái)決定意志的東西,因此不是由主觀原因決定的,而是客觀地決定的……是由對(duì)所有理性存在者都有效的理由來(lái)決定的”[12]。這種理論以“道義性概念”理由來(lái)闡釋“評(píng)價(jià)性概念”善,對(duì)兩類(lèi)規(guī)范性概念的關(guān)系提供了一種不同于摩爾的理解。直覺(jué)主義者尤因(A.C.Ewing)也提出過(guò)類(lèi)似觀點(diǎn)。尤因在《善的定義》(1947年)中將“善”定義為應(yīng)當(dāng)成為“贊成態(tài)度”(Pro-attitude)的目標(biāo)的東西[13]。他提出“贊成態(tài)度”旨在涵蓋對(duì)某物的任何有利態(tài)度,例如選擇、欲望、喜愛(ài)、追求、認(rèn)可或欽佩等等。當(dāng)某物本質(zhì)上是善的,在其他條件相同的情況下,它本身就是我們應(yīng)當(dāng)歡迎的東西,如果它存在,我們就應(yīng)當(dāng)為之欣喜,如果不存在,我們就應(yīng)當(dāng)努力去創(chuàng)造它。我們應(yīng)當(dāng)認(rèn)可對(duì)它的獲取,應(yīng)當(dāng)將失去它視為一種剝奪,如果它有可能到來(lái),我們就應(yīng)當(dāng)期待而不是害怕,避免阻礙其產(chǎn)生的東西,等等[13]。所謂“善”就是有“理由”贊成。
20世紀(jì)末,作為對(duì)摩爾元倫理學(xué)思想的反思,斯坎倫在《我們彼此負(fù)有什么義務(wù)》(1998年)中提出了和尤因類(lèi)似的觀點(diǎn),即珍視某物就是認(rèn)為自己有理由對(duì)它持有某種積極的態(tài)度,并以某種方式對(duì)它采取行動(dòng)。斯坎倫提出,“善和價(jià)值純粹是形式上的、高階的屬性,具有某些低階屬性,正是這些基本的低階屬性,在為以某些特定方式對(duì)其采取行動(dòng)提供了理由的同時(shí),為我們對(duì)某對(duì)象持有某種評(píng)價(jià)態(tài)度提供了理由。道義性概念“理由”相對(duì)于“善”而言是更加根本性的概念,并優(yōu)先于“善”。正因如此,這一理論被稱(chēng)為“推卸責(zé)任”的解釋。當(dāng)我們?cè)u(píng)估“價(jià)值”時(shí),完全可以把論證的責(zé)任推卸給那些證明其價(jià)值的基礎(chǔ)。將某物視為有價(jià)值就是認(rèn)為自己對(duì)某物具有某些類(lèi)型的理由,如欽佩、尊重、保存和保護(hù)的理由,促進(jìn)的理由,以及以某些特定方式行動(dòng)的理由等。
在對(duì)價(jià)值給出不同于摩爾的說(shuō)明的同時(shí),斯坎倫也對(duì)如何判斷“正確”做出了進(jìn)一步反思:如果某些價(jià)值以外的“低階特征”提供了行動(dòng)理由,那么,我們就無(wú)需依據(jù)“價(jià)值”而得到“正確”,而是可依據(jù)“理由”得到“正確”。通過(guò)對(duì)“理由”的探討,斯坎倫想要駁斥一種錯(cuò)誤觀點(diǎn),即除了源自“產(chǎn)生價(jià)值的屬性”的理由之外,一物的“價(jià)值”本身會(huì)為我們的行動(dòng)或?yàn)槲覀儗?duì)其持有積極態(tài)度增添理由。當(dāng)一個(gè)事物是好的,它具有一些基本屬性,這些屬性為我們提供了采取行動(dòng)或采取積極評(píng)價(jià)態(tài)度的全部理由。例如,是一個(gè)度假區(qū)所具有的風(fēng)景優(yōu)美、設(shè)施完善,或氣候宜人等屬性,而不是該度假區(qū)具有的價(jià)值,讓我們認(rèn)為應(yīng)當(dāng)前往該度假區(qū)。即便該度假區(qū)具有價(jià)值,這種價(jià)值也不會(huì)在諸多“低階屬性”帶來(lái)的理由之外,增加我們對(duì)其持有積極態(tài)度的理由。又比如,頭疼是不好的,但這種價(jià)值判斷并不會(huì)為我們看醫(yī)生的正確行為抉擇增添額外理由。疼痛這一“低階屬性”已經(jīng)給出了充分理由。
不是善或價(jià)值本身提供的理由,而是其他屬性提供的理由。這種解釋的優(yōu)勢(shì)在于,顯示了道德價(jià)值并非僅僅是主觀的或隨意的,而是“可知”和“可分析”的,它們均基于能夠被分享和討論的理由。摩爾等直覺(jué)主義者往往不能清晰界定價(jià)值,對(duì)于價(jià)值排序也存在分歧。這種情況在人工智能系統(tǒng)的倫理設(shè)計(jì)中導(dǎo)致很多困難。而“推諉論證”則通過(guò)對(duì)“善”的還原解釋?zhuān)瑸榻鉀Q上述問(wèn)題提供了一種方案。
“推諉論證”也能夠在道德判斷中更好地平衡后果和義務(wù)。行為的價(jià)值可以通過(guò)支持它的理由得到說(shuō)明;同時(shí),行為的正確性,也就是它的規(guī)范效力,也來(lái)自于支持它的理由。因此,在后果和義務(wù)中,“推諉論證”不會(huì)偏向某一方。在當(dāng)代規(guī)范性研究中,“理由”概念受到越來(lái)越多的重視。人們普遍認(rèn)可,理由在規(guī)范性論證中能夠承擔(dān)重要作用。其中部分觀點(diǎn)甚至認(rèn)為,理由在規(guī)范理論中起著根本性的解釋作用,多數(shù),以至所有其他規(guī)范事實(shí)都是以關(guān)于理由的事實(shí)為基礎(chǔ)的。斯坎倫所持有的“理由基礎(chǔ)主義(Reasons Foundamentalism)”就是這類(lèi)觀點(diǎn)中的最強(qiáng)版本,雖然該理論引起非常多的爭(zhēng)議,但因其受到關(guān)注之多,即便持有相反立場(chǎng)的規(guī)范性研究也不能忽視對(duì)該理論的探究?!袄碛苫A(chǔ)主義”對(duì)每一個(gè)規(guī)范性屬性和關(guān)系進(jìn)行量化,聲稱(chēng)關(guān)于這些屬性或關(guān)系的事實(shí)在根本上全面地基于關(guān)于理由關(guān)系的事實(shí)。同樣支持理由基礎(chǔ)主義的帕菲特(Derek Parfit)提出,其他重要的規(guī)范屬性和規(guī)范關(guān)系均可還原為理由而得到解釋?zhuān)碛杀旧韯t是不可還原的[14]。在規(guī)范性屬性和關(guān)系的類(lèi)別中,理由是最根本的。理由優(yōu)先于關(guān)于某人應(yīng)當(dāng)做什么的事實(shí),同樣也優(yōu)先于價(jià)值。
對(duì)理由進(jìn)行考量有助于澄清道德原則的應(yīng)用方式。我們?cè)诟鞣N所珍視的價(jià)值,為人工智能制定了諸多道德原則,用于指導(dǎo)它們的行為。然而,任何道德原則均不具有絕對(duì)的效力,需要依據(jù)特定情境對(duì)原則是否能夠應(yīng)用做具體考量。人類(lèi)的道德判斷具有靈活性和情境適應(yīng)性,而人工智能?chē)?yán)格依據(jù)預(yù)設(shè)規(guī)則和算法行動(dòng),無(wú)法像人類(lèi)一樣在復(fù)雜情境中通過(guò)綜合考量做出道德決策,在具體情境中缺乏權(quán)衡能力,由此常常導(dǎo)致錯(cuò)誤決策。這一狀況對(duì)人工智能倫理設(shè)計(jì)構(gòu)成了顯著困擾。
道德原則意在告訴我們應(yīng)當(dāng)/不應(yīng)當(dāng)做什么。例如,不應(yīng)當(dāng)撒謊。任何道德原則所描述的僅僅是行為的某一個(gè)特征,例如撒謊,而未涉及其他可能具有重大道德意義的特征。但在現(xiàn)實(shí)情境中,我們決定是否要做出的任何一種行為都具有多重特征,被描述為撒謊的行為同時(shí)也可能是拯救無(wú)辜生命的行為。我們有不應(yīng)當(dāng)撒謊的原則,也有應(yīng)當(dāng)在可能的條件下拯救無(wú)辜生命的原則,在針對(duì)某一行為做出抉擇的時(shí)候,同時(shí)可以被描述為X、Y和Z行為,會(huì)受到一些原則的支持,同時(shí)受到另一些原則的禁止。羅斯在《正當(dāng)與善》中提出,很難為某人應(yīng)當(dāng)做什么制定出模態(tài)上充分的條件,是因?yàn)殛P(guān)于某人應(yīng)當(dāng)做什么的事實(shí)實(shí)際上是以不同因素之間的競(jìng)爭(zhēng)為基礎(chǔ)的,而這些因素可能會(huì)朝著不同的方向起作用。在這種情況下,我們需要依據(jù)具體情境,以及具體行動(dòng)者具有的特殊規(guī)范性關(guān)系和事實(shí),在X、Y和Z之中選擇某些作為我們行動(dòng)的理由,進(jìn)而做出行為抉擇。理由揭示了行動(dòng)具有的各種不同屬性與行動(dòng)者之間的關(guān)系,以及它們之間的權(quán)重比較,因而是良好推理的前提。
在技術(shù)研究界,不希望人工智能以極其字面的方式遵循指令是研究者們的普遍共識(shí)。至少在西方哲學(xué)傳統(tǒng)中,每一種主要的道德理論都可能在某些已知的情境下形成強(qiáng)烈的反直覺(jué)的道德判斷,或者存在明顯的證據(jù)不足,難以提供充分論證,不能應(yīng)對(duì)倫理原則的沖突等問(wèn)題。道德原則是抽象的、普遍性的,不包含對(duì)于所有適用條件和適用前提的描述,不能夠照顧到特定個(gè)體的特殊價(jià)值排序和個(gè)體所處的具體情境。與道德原則不同,基于理由的慎思明確了道德原則的前提條件和我們對(duì)沖突的道德原則進(jìn)行選擇的方法。“道德不僅告訴我們以某種方式待人,如不要傷害他人”等原則,道德“還給予我們一些這樣去做的理由”[15]。在理由抉擇的過(guò)程中,被許可/不許可的各種行動(dòng)并非因?yàn)槠浔旧砭哂械膬r(jià)值而被許可/不許可,行動(dòng)具有的諸多屬性同行動(dòng)者之間的關(guān)系決定了行動(dòng)是否被許可,對(duì)于具體境遇中規(guī)范性要素的明確考量為我們判斷正確行為提供了更加充分的依據(jù)。
三、人工智能倫理抉擇中的理由權(quán)衡
對(duì)齊人類(lèi)“理由”的嘗試通過(guò)引導(dǎo)人工智能學(xué)習(xí)人類(lèi)理由抉擇的方法,促使人工智能做出道德上正確的行動(dòng)。曾有人工智能倫理設(shè)計(jì)研究者指出,康德和斯坎倫契約主義的道德理論中所要求的理解“理由”的能力遠(yuǎn)遠(yuǎn)超出了大多數(shù)現(xiàn)有的人工智能行動(dòng)者的能力[16]。同時(shí),也有觀點(diǎn)認(rèn)為,對(duì)于那些存在正確答案且可以通過(guò)推理和權(quán)衡證據(jù)而回答的問(wèn)題,人工智能有能力做出比人類(lèi)更好的回答,至少超級(jí)智能能夠比人類(lèi)更準(zhǔn)確地做出回答。
在人工智能系統(tǒng)倫理訓(xùn)練中,以“理由”為基礎(chǔ)的“正確性”判斷已經(jīng)得到采用。無(wú)論最終是否能夠?yàn)槿斯ぶ悄芟到y(tǒng)構(gòu)建非常完善的理由推理知識(shí)體系和訓(xùn)練體系,“理由對(duì)齊”至少可被視為一個(gè)非常具有前景的努力方向:一方面,行動(dòng)理由是一個(gè)行動(dòng)者就某一具體事態(tài)向另一個(gè)行動(dòng)者主張的理由。理由權(quán)衡的過(guò)程能夠引導(dǎo)人工智能關(guān)注具體行動(dòng)者及其特殊境遇,從而將涉及的人類(lèi)行動(dòng)者尊重為具有內(nèi)在價(jià)值的實(shí)體,同時(shí)得出更恰當(dāng)?shù)男袨榫駬?;另一方面,如果說(shuō)以“價(jià)值”指引“正確”的思路僅僅導(dǎo)向了對(duì)于“行為結(jié)果”和“行為本身”的價(jià)值的關(guān)注,“理由”的權(quán)衡則能夠揭示恰當(dāng)?shù)摹靶袨閯?dòng)機(jī)”對(duì)于引導(dǎo)正確行為的重要意義,進(jìn)一步保證行為結(jié)果的合目的性。
(一)尊重人類(lèi)行動(dòng)者的行動(dòng)性
只有一個(gè)要在某具體情境中做出行動(dòng)的主體才可能主張理由。當(dāng)我們說(shuō)某物具有價(jià)值,我們無(wú)需指明施動(dòng)者。即便周?chē)鸁o(wú)人采取任何行動(dòng),無(wú)人有機(jī)會(huì)采取任何行動(dòng),也無(wú)人可以說(shuō)有理由采取行動(dòng),具有價(jià)值的某物仍舊是具有價(jià)值的。然而,一個(gè)獨(dú)立于行動(dòng)者,并等待行動(dòng)者去獲取的理由則并不存在。如果我們說(shuō)某一種情形產(chǎn)生了行動(dòng)的理由,我們就必須將該理由分配給某個(gè)行動(dòng)者。在反思個(gè)體行動(dòng)者有何恰當(dāng)?shù)男袆?dòng)理由時(shí),該行動(dòng)者具有的特定關(guān)系以及面對(duì)的具體情境就被賦予了道德權(quán)重,尊重這些特定的關(guān)系和具體的情景就是對(duì)于行動(dòng)者內(nèi)在價(jià)值的尊重,因?yàn)檫@是行動(dòng)者行使行動(dòng)性的前提條件。
種種具體的關(guān)系和情境,而非價(jià)值,決定我們對(duì)特定事態(tài)應(yīng)采取的態(tài)度或行為。正如某人的貧困本可以為處于適當(dāng)位置的任何行動(dòng)者提供理由,但這并不意味著這些特征已經(jīng)提供了理由。這就是為什么辛格的援助理論受到很多批評(píng)。我們不能合理地要求所有人對(duì)某個(gè)貧困的人進(jìn)行援助,直到變得和他一樣貧困為止。每個(gè)有能力援助的人和某貧困的人可能有不同的關(guān)系,不同關(guān)系決定了其可以合理持有的不同態(tài)度。友誼、親屬關(guān)系和各種形式的特殊關(guān)系都是行動(dòng)者判斷“正確”行為的依據(jù)。我們可以對(duì)貧困這一現(xiàn)象做出統(tǒng)一的價(jià)值判斷,但在不同個(gè)體的道德慎思中,這一價(jià)值將被賦予不同的道德權(quán)重。這類(lèi)似于斯坎倫曾經(jīng)說(shuō)到過(guò)的“有價(jià)值”和“重視”之間的區(qū)別。“說(shuō)我重視我的孩子是很自然的;但如果我說(shuō)他們是有價(jià)值的(除了在每個(gè)人都有價(jià)值的意義上),那就太奇怪了”[17]。我們珍視自己的孩子超過(guò)別人的孩子,但我們并不認(rèn)為自己的孩子比別人的孩子更有價(jià)值。有價(jià)值或無(wú)價(jià)值本身并不是直接給出理由的特征。相比價(jià)值,具體情境中的特殊關(guān)系同理由判斷之間存在更直接的聯(lián)系。
以理由為導(dǎo)向的推理支持特殊義務(wù),同樣支持普遍性的義務(wù)。理解理由的能力被視為理性行動(dòng)者的典型特征,也是他們內(nèi)在價(jià)值的來(lái)源。尊重一個(gè)理性行動(dòng)者,就要對(duì)他們的這種能力做出充分回應(yīng),即以理由與之進(jìn)行論辯。這種論辯關(guān)注特殊理由,如我曾經(jīng)幫助過(guò)你是我現(xiàn)在要求你幫助的特殊理由,同時(shí),只有具有普遍性的特殊理由才能成為辯護(hù)性理由,如“對(duì)于曾經(jīng)施以援手的人,所有人都必然負(fù)有更多的援助義務(wù)”,因此,考慮到我曾幫助過(guò)你,你對(duì)于我負(fù)有更多援助義務(wù)。由此得出的道德推理具有普遍性的權(quán)威性,在現(xiàn)實(shí)場(chǎng)景中也更具有說(shuō)服力。
理由是一個(gè)特定行動(dòng)者向另一個(gè)特定行動(dòng)者所主張的,這意味著在互動(dòng)中形成的決策才有可能是道德上正確的。“自下而上”的人工智能訓(xùn)練方法就是對(duì)這一原則的響應(yīng)?!白陨隙隆钡姆椒▽⒚鞔_的倫理原則植入程序或機(jī)器,再通過(guò)分析其計(jì)算要求尋找能夠執(zhí)行這一理論的算法。與之不同,“自下而上”的方案基于實(shí)例而推進(jìn),更加注重與人類(lèi)的互動(dòng),從而使其倫理目標(biāo)超越了價(jià)值和原則。模擬對(duì)人工實(shí)體的進(jìn)化壓力的方法通過(guò)與其他人工智能體的反復(fù)互動(dòng),來(lái)發(fā)展人工智能體的道德行為,因而無(wú)需從上層進(jìn)行道德理論的編碼[18]。有設(shè)計(jì)者曾提出,一個(gè)人工智能行動(dòng)者不應(yīng)采取其理性上認(rèn)為與另一行動(dòng)者的道德行動(dòng)方案相矛盾的行動(dòng)方案,除非得到知情同意[19]。知情同意使得來(lái)自經(jīng)驗(yàn)的理由能夠具有某種普遍性。
合理的行動(dòng)理由來(lái)自于對(duì)涉及的所有行動(dòng)者可能持有的理由的權(quán)衡,因此,訓(xùn)練集的選取和設(shè)計(jì)同樣關(guān)系到這類(lèi)訓(xùn)練的成敗。當(dāng)代科技的特點(diǎn)是每個(gè)個(gè)體的決策都可能影響同該行動(dòng)毫無(wú)關(guān)系的人,如異種器官移植除了影響接受者,還可能造成全社會(huì)范圍內(nèi)的跨物種感染;基因編輯會(huì)使人類(lèi)基因池受到改變;特定算法的應(yīng)用塑造著所有人的世界觀。人工智能得到的經(jīng)驗(yàn)反饋的范圍當(dāng)然應(yīng)不僅限于技術(shù)使用者,也應(yīng)包括處于特定情境中的非直接用戶(hù)的反饋。其訓(xùn)練集還要包括各種不同的價(jià)值觀,并包含各種不同的人際關(guān)系。人們當(dāng)然不可能在道德上完全達(dá)成共識(shí),實(shí)際操作中,各方只需就規(guī)定特定主題或關(guān)系集的原則達(dá)成一致即可[16]。一致認(rèn)可的原則就是處于不同規(guī)范性關(guān)系中,擁有不同規(guī)范性事實(shí)的個(gè)體均沒(méi)有合理的理由反對(duì)的原則。
(二)關(guān)注行動(dòng)動(dòng)機(jī)的道德意義
具體情境中的理由抉擇的過(guò)程,不僅揭示了應(yīng)當(dāng)怎樣尊重一個(gè)人類(lèi)行動(dòng)者,而且為行為動(dòng)機(jī)賦予了特殊的道德意義。行動(dòng)者所認(rèn)可的行動(dòng)理由,就是他認(rèn)為支持其行為或至少不能排除其行為的那些因素,而動(dòng)機(jī)的形成正是對(duì)那些因素的回應(yīng)。動(dòng)機(jī)反映了行動(dòng)者實(shí)際上對(duì)于理由的權(quán)衡和抉擇,反映了這些理由實(shí)際上如何被用于確定其行為的可許可性。斯坎倫曾在《道德之維》中提出,在很多情況下,道德上正確的判斷來(lái)自于動(dòng)機(jī)而非結(jié)果[15]。在《正當(dāng)與善》一書(shū)中,羅斯曾宣稱(chēng),無(wú)論一行為可能具有何種內(nèi)在價(jià)值……都應(yīng)歸因于其動(dòng)機(jī)的本質(zhì),而非行為本身是正當(dāng)還是不正當(dāng)[8]。在很重要的意義上,“有價(jià)值的行為”或“正確行為”所施加的約束都不僅在于你做了什么,還在于做事的方式,尤其是動(dòng)機(jī)。
動(dòng)機(jī)也能夠顯示“有價(jià)值的行為”和“正確行為”的范圍在何處重疊,顯示“評(píng)價(jià)性概念”和“道義性概念”間存在著能夠得到明確表述的聯(lián)系?!袄碛苫A(chǔ)主義”提出,有一類(lèi)行動(dòng)既可以被判定為有理由為之,同時(shí)也可以被判定為具有價(jià)值,它們是“具有價(jià)值的正確行動(dòng)”。使一行動(dòng)成為“具有價(jià)值的正確行動(dòng)”的是,促使行動(dòng)者做出該行動(dòng)的動(dòng)機(jī)理由與其應(yīng)當(dāng)據(jù)以行動(dòng)的規(guī)范性理由之間存在恰當(dāng)?shù)钠ヅ洹V庇^地說(shuō),行動(dòng)者出于使行動(dòng)正當(dāng)?shù)睦碛扇プ鲞@件事使行動(dòng)具有價(jià)值。例如,我并非為了騙取一個(gè)人的信任,而是出于真正的關(guān)心,在他受傷的時(shí)候打電話(huà)慰問(wèn)了他,就是有價(jià)值的正確行動(dòng)。當(dāng)然,一個(gè)人無(wú)需為了所有對(duì)其而言具有規(guī)范性的理由而行動(dòng),只需為了其中足夠多的理由行動(dòng),就能做出具有道德價(jià)值的行為。
對(duì)行為動(dòng)機(jī)的分析能夠有效避免人工智能的錯(cuò)誤行為,從而在很大程度上為作為結(jié)果的價(jià)值提供保障。一方面,即便對(duì)于人工智能,行為結(jié)果也并非可充分預(yù)期,如研究者曾援引元倫理學(xué)討論中的觀點(diǎn)“一旦承認(rèn)必須考慮后果,那么在社會(huì)影響的計(jì)算中隨意停止于任何一點(diǎn)都是武斷的”[20]。這里表達(dá)的態(tài)度是,除非我們清楚了解自身行為的全部后果,否則就不能說(shuō)知道應(yīng)當(dāng)做什么,因此,“在未考察其對(duì)人類(lèi)整體福祉的影響之前就對(duì)行為的道德性做出判斷是不合理的”[20]。另一方面,我們要求人工智能實(shí)現(xiàn)的結(jié)果常常最終被證明并非我們真正想要的結(jié)果。正如邁達(dá)斯國(guó)王的故事就是一個(gè)警示[21]。在這個(gè)虛構(gòu)的場(chǎng)景中,主人公得到了他所要求的東西——他觸摸到的一切都變成了金子——而不是他真正想要的。人工智能被編程為解決某些技術(shù)問(wèn)題的工具,并且它的直接目標(biāo)就是解決這個(gè)技術(shù)問(wèn)題。結(jié)果就會(huì)使人工智能形成這樣一種信念,即解決這個(gè)問(wèn)題的最有效行動(dòng)就是正確的行動(dòng)。例如,如果人工智能的唯一目標(biāo)是制造盡可能多的回形針,并且會(huì)竭盡全力抵制任何改變這一目標(biāo)的企圖,那么它可能使用所有可能的資源,將地球乃至越來(lái)越多的太空區(qū)域改造成回形針制造工廠。這顯然不是我們?cè)O(shè)計(jì)這臺(tái)機(jī)器的初衷。然而,在實(shí)踐中避免這樣的結(jié)果可能極其困難。人工智能善于完成局部任務(wù),這一特征導(dǎo)致非預(yù)期結(jié)果增加。
目標(biāo)是實(shí)踐推理的起點(diǎn),而不是實(shí)踐推理的結(jié)論。要“正確地”達(dá)成目標(biāo),人工智能可能需要理解指令背后的意圖,人工智能需要更完整的人類(lèi)語(yǔ)言和互動(dòng)模型,以及對(duì)人類(lèi)文化、制度和實(shí)踐的理解,這些將使得人工智能能夠理解術(shù)語(yǔ)的隱含意義[22]。因此,技術(shù)研究界將大量注意力投入到縮小“指令-意圖差距”的任務(wù)上是正確的。作為結(jié)果的價(jià)值可以通過(guò)作為動(dòng)機(jī)的價(jià)值而得到校正。對(duì)動(dòng)機(jī)的關(guān)注能夠有效限制結(jié)果的不確定性,最大程度地避免以倫理上錯(cuò)誤的方式實(shí)現(xiàn)本應(yīng)價(jià)值無(wú)涉的技術(shù)目標(biāo)。如果人工智能被要求制造盡量多的發(fā)動(dòng)機(jī),為實(shí)現(xiàn)這個(gè)目標(biāo),他可能收集汽車(chē)、船舶、飛機(jī)上使用的鐵作為原料,雖然制造了更多發(fā)動(dòng)機(jī),但它造成了更嚴(yán)重的破壞。如果他清楚人類(lèi)的動(dòng)機(jī)是通過(guò)更多的發(fā)動(dòng)機(jī)驅(qū)動(dòng)汽車(chē)、船舶、飛機(jī),就能夠明確取用材料的范圍至少不包括汽車(chē)、船舶、飛機(jī)。目標(biāo)只是形成動(dòng)機(jī)的考量因素,而恰當(dāng)?shù)男袨閯?dòng)機(jī)應(yīng)包含對(duì)目標(biāo)的反思。
鑒于人類(lèi)的目標(biāo)的表達(dá)可能總會(huì)存在缺陷,“意圖對(duì)齊”已經(jīng)被用于確保人工智能行為背后的意圖與人類(lèi)真正的目標(biāo)一致[23]。例如,逆強(qiáng)化學(xué)習(xí)可以讓人工智能“對(duì)激勵(lì)人們行動(dòng)的因素進(jìn)行建模,而非對(duì)行動(dòng)本身進(jìn)行建模”[24],不會(huì)預(yù)先指定旨在最大化的獎(jiǎng)勵(lì)函數(shù),而是專(zhuān)注于“從觀察到的最優(yōu)行為中提取獎(jiǎng)勵(lì)函數(shù)的問(wèn)題”[25]。與依賴(lài)固定獎(jiǎng)勵(lì)信號(hào)的傳統(tǒng)強(qiáng)化學(xué)習(xí)不同,來(lái)自人類(lèi)反饋的強(qiáng)化學(xué)習(xí)所收集到的反饋信號(hào)是動(dòng)態(tài)的,機(jī)器能夠辨別哪些行為更有可能滿(mǎn)足人類(lèi)的動(dòng)機(jī),并根據(jù)人類(lèi)反饋持續(xù)更新其行為策略,增強(qiáng)了機(jī)器理解行為動(dòng)機(jī)的能力,提升了機(jī)器的智能水平。從而在特定任務(wù)中的表現(xiàn)隨著時(shí)間的推移而不斷提升。人工智能系統(tǒng)在發(fā)展過(guò)程中不可避免地會(huì)形成自身的價(jià)值追求,即實(shí)現(xiàn)設(shè)計(jì)者意圖完成的有限的局部任務(wù),但設(shè)計(jì)者無(wú)法預(yù)先對(duì)人工智能實(shí)現(xiàn)這一結(jié)果的方式做出足夠充分的限定。對(duì)齊人類(lèi)動(dòng)機(jī)能夠?qū)θ斯ぶ悄軐?shí)現(xiàn)特定結(jié)果的方式構(gòu)成有效約束。
四、結(jié)語(yǔ)
在人工智能價(jià)值對(duì)齊研究領(lǐng)域,研究者嘗試依據(jù)“價(jià)值”來(lái)確定“正確”。這一立場(chǎng)在元倫理學(xué)層面的困難正是人工智能倫理設(shè)計(jì)中現(xiàn)實(shí)困境的來(lái)源。元倫理學(xué)中的對(duì)立立場(chǎng)認(rèn)為,“價(jià)值”是由“正確”所確定的,而“正確”可以由“理由”來(lái)確定。以“理由”解釋何為正確的行為,能夠有效平衡后果主義和義務(wù)論;并解釋道德原則如何應(yīng)用于具體情境中的個(gè)體行動(dòng)者,明確道德原則的使用方式和前提條件。
結(jié)合人工智能倫理設(shè)計(jì)領(lǐng)域的前沿方法,進(jìn)一步闡釋以“理由”解釋“正確”的理論方案,揭示了這類(lèi)理論的現(xiàn)實(shí)意義。理由的論辯和權(quán)衡涉及個(gè)體行動(dòng)者必須考慮的特殊規(guī)范性關(guān)系和和規(guī)范性事實(shí),將個(gè)體行動(dòng)者行使行動(dòng)性的具體境遇考慮在內(nèi),充分尊重了每個(gè)個(gè)體的內(nèi)在價(jià)值。“理由抉擇”也能夠揭示行為動(dòng)機(jī)具有的道德意義。相比于關(guān)注行為后果或行為本身,關(guān)注作為理由權(quán)衡結(jié)果的“行為動(dòng)機(jī)”進(jìn)一步保證了行為的合目的性,同時(shí)更具有實(shí)踐上的可操作性?!袄碛蓪?duì)齊”能夠?qū)Α皟r(jià)值對(duì)齊”面對(duì)的困難做出解釋?zhuān)⑻峁┙鉀Q的方案,促使人工智能系統(tǒng)在更大程度上做出“有價(jià)值的行動(dòng)”和“正確的行動(dòng)”。
【參考文獻(xiàn)】
[1]The General Conference of the United Nations Educational,Scientific and Cultural Organization.Recommendation on the ethics of artificial intelligence[EB/OL].(2023-11-23).https://unesdoc.unesco.org/ark:/48223/pf0000381137.
[2]MOORE G E.Ethics[M].Oxford:Oxford University Press,1912.
[3]MOORE G E.Principia ethica[M].Cambridge:Cambridge University Press,1903.
[4]RASHDALL H.The commensurability of all values[J].Mind,1902,XI(1):145-161.
[5]RUSSEL B.Russell on ethics:selections from the writings of Bertrand Russell[M].Oxon:Routledge,1999.
[6]D’ALESSANDRO W.Deontology and safe artificial intelligence[J].Philosophical Studies,2024(13):1-24.
[7]ORSI F.David Ross,ideal utilitarianism,and the intrinsic value of acts[J].Journal for the History of Analytical Philosophy,2012,1(2):1-21.
[8]ROSS W.D.The right and the good[M].Oxford:Oxford University Press,1930.
[9]RASHDALL H.Ethics[M].London:T.C.&E.C.Jack,1913.
[10]SCHWITZGEBEL E,CUSHMAN F.Expertise in moral reasoning?Order effects on moral judgment in professional philosophers and non-philosophers[J].Mind&Language,2012,27(2):135-153.
[11]HOOKER J N,KIM T W.Toward non-intuition-based machine and artificial intelligence ethics:a deontological approach based on modal logic[C]//AAAI&ACM Conference on Artifical Intelligence,Ethics,and Society.[S.l.]:AAAI,2018.
[12]GREGOR M,TIMMERMANN J.Groundwork of the metaphysics of morals[M].Cambridge:Cambridge University Press,2011.
[13]EWING A C.The definition of good[M].London:Macmillan,1947.
[14]PARFIT D.On what matters(volumes 1)[M].Oxford:Oxford University Press,2011.
[15]SCANLON T.Moral dimensions:permissibility,meaning,blame[M].Cambridge:Harvard University Press,2008.
[16]GABRIEL I.Artificial intelligence,values,and alignment[J].Minds and Machines,2020,30(3):411-437.
[17]SCANLON T.What we owe to each other[M].Harvard:Harvard University Press,1998.
[18]FORESTA D.Consequentialism&machine ethics:towards a foundational machine ethic to ensure the right action of artificial moral agents[EB/OL].(2020-03-17).https://philpapers.org/archive/DELCM-4.pdf.
[19]KIM T W,HOOKER J,DONALDSON T.Taking principles seriously:a hybrid approach to value alignment in artificial intelligence[J].Journal of Artificial Intelligence Research,2021(70):871-890.
[20]RASHDALL H.The theory of good and evil:a treatise on moral philosophy(vol 1)[M].Oxford:Oxford University Press,1907.
[21]RUSSEL S.Human compatible:AI and the problem of control[M].Bristol:Penguin UK,2019.
[22]HADFIELD M D,HADFIELD G K.Incomplete contracting and AI alignment[C]//Proceedings of the 2019AAAI/ACM Conference on AI,Ethics,and Society.[S.l.]:AAAI,2019.
[23]YI X,YAO J,WANG X,et al.Unpacking the ethical value alignment in big models[EB/OL].(2023-10-26).https://arxiv.org/abs/2310.17551.
[24]V A S QUEZ D,OKAL B,ARRAS K.Inverse reinforcement learning algorithms and features for robot navigation in crowds:an experimental comparison[EB/OL].(2014-11-06).https://doi.org/10.1109/IROS.2014.6942731.
[25]NG A.RUSSELL S.Algorithms for inverse reinforcement learning[J].International Conference on Machine Learning,2000,1(2):2
原載:《電子科技大學(xué)學(xué)報(bào)(社科版)》2025年第3期