最近給三歲的女兒買了壹本繪本,名字叫《我能再造壹個我嗎》,她愛不釋手。這本書的主角是壹個厭倦了常規生活的孩子。他希望訓練壹個機器人代替自己按時午睡、吃飯、上幼兒園,讓他自由玩耍。於是他買了最便宜的機器人帶回家訓練。在這個過程中,他遇到的第壹個問題是,壹個機器人怎樣才能變成他?於是,他試圖告訴機器人關於自己的各種信息,包括自己的名字、年齡、身高、體重、父母、兄弟和寵物,甚至“左撇子”、“易怒”、“襪子經常破洞”等信息
這本繪本的作者腦洞很大,他也在思考我們在想什麽。這個故事也告訴我們,讓機器人像人壹樣思考的第壹步是了解自己。因為通過這種方式,我們可以告訴機器人如何成為最像自己的人。我們從以下幾個方面討論這個問題:
1.人工智能和心理學
2.人格分類與推測
3.如何讓機器人像人壹樣思考?
長期以來,我們團隊壹直從事用戶畫像的研究。什麽是用戶畫像?簡單來說,就是通過用戶產生的大數據來猜測和了解壹個人的年齡、職業、愛好,也可以描述壹群人的生活規律和運動模式。這讓我們開始思考,能否通過這些數據更深入人心,了解他們的性格和情緒?不容易。但是,在研究的過程中,我們發現這些問題在心理學領域已經被考慮了幾千年。其實人工智能和心理學的領域其實已經交叉很久了。
兩年前,我們開始訪問著名的心理學家和教授,試圖開展跨學科的合作和交流。在這個過程中,我們首先要解決的問題是人格。能否從用戶產生的大數據推算出人的性格?
雖然人格壹詞在日常生活中很常見,但要給人格下壹個準確清晰的定義並不容易,甚至心理學家也很難對這個詞的定義達成共識。人格的最早定義可以追溯到2000多年前(公元前400年),古希臘醫生希波克拉底說,他認為人體由四種體液組成,包括血液、粘液、黃膽汁和黑膽汁,這四種體液的分布決定了人的性格:黑膽汁產生憂郁的性格,血液產生樂觀的性格,黃膽汁產生沖動易怒的性格,而粘液,雖然希波克拉底的體液學說已經被現代醫學所否定,但他對人格分類的論述是有啟發性的,以至於後來的心理學家壹直在討論這個問題。
當我們與心理學家交流時,發現壹個有趣的事實:在現代心理學中,人格的定義其實與語言的使用密切相關。其實在計算機科學領域,我們對語言也有很多研究,我們稱之為“自然語言理解”。在心理學中,有壹個概念叫做“詞匯假說”。什麽是詞匯假說?根據這壹假設,我們研究人格不需要觀察研究各種各樣的人,而可以簡單地直接觀察人類語言中的相關詞語。比如妳給我介紹壹個朋友,妳可能會用很長的壹段話來描述他:“他很喜歡說話,每次聽到他說話都是個話匣子”等等。其實這段話可以用壹個字來概括:健談。因此,心理學家決定整理這些描述性詞語。如果字數不多,可以作為建立分類體系的基礎。
基於這些觀察,人格理論的先驅奧爾波特和奧德伯特對1936中的英語詞匯進行了艱難而系統的調查。通過查閱字典,他們在個人特征、暫時情緒或行為、智力和天賦四個類別中找到了約18000個單詞,並進壹步整理出4000多個單詞來描述他們的性格。雖然四千看起來很少,但是對於整個用戶語言來說還是很復雜的。
想象壹下,在描述壹個人的性格時,要給這4000個描述性維度打分,要做多少工作。所以,他們想在此基礎上進壹步降低。在這個過程中,他們發現這些單詞之間存在壹些相關性。比如,壹個外向的人通常很健談,壹個冷靜的人通常很理性,但他也可能很內向。如果能定位這些相關性,就可以在此基礎上進壹步對4000多個詞進行分類。
近二十年來,人格研究者最關註和支持的人格定義是“大五人格理論”。包括五個高度概括的人格因素:外向性、盡責性、神經質、宜人性和開放性。每個人格因素下還有壹些細分特征(比如外向性包括是否經常參加活動,是否熱心等。).這樣以後妳介紹朋友的時候,就可以把他描述成“壹個比較外向,但是不隨和,可能比較感性的人。”方式簡單,但描述全面。
其實整理這些詞,生成性格分類系統,多是數據驅動,和計算機科學有很多密切聯系。那我們能不能自動計算出用戶的前五大性格?其實這也是可以的。
在傳統的人格測量中,心理學家往往采用訪談和問卷的方式,需要大量的人力、財力和時間。研究對象往往局限於幾十到幾百人,無法測量大規模用戶。但是心理學上還有壹種人格測量的方法,叫做行為測量,通過觀察個體的行為來評估。行為測量的理論基礎是人格理論中人類行為的壹致性。由於人格可以解釋人與人之間穩定的個體差異,而個體行為的差異又與個體人格密切相關,因此通過觀察個體行為來預測人格是可能的。只是在計算機技術被廣泛應用之前,心理學家很難收集到足夠豐富的用戶行為數據,所以數據的缺乏導致了行為測量在傳統心理學中的應用並不廣泛。
近年來,隨著互聯網、智能手機和各種傳感設備的普及,用戶的行為數據被廣泛收集,人工智能方法在用戶建模方面的推廣,使得通過行為數據測量性格的方法在計算機和心理學的交叉領域迅速發展。在此基礎上,我們的研究工作更進壹步,提出了壹個“人格推斷模型”,利用社交媒體上的異構數據(如頭像照片、發表的文字、表情符號用法和社交關系)來預測大五人格。比如對於圖片,我們可以計算出語義表示,然後把這些圖片歸入壹定的類別,比如漫畫、自拍、組照、動植物。使用基於行為數據的人工智能方法預測性格,需要先收集小部分用戶的問卷結果作為標註。通過標註用戶的行為特征和性格特征,將它們之間的映射和聯系輸入到模型中,訓練出壹個好的模型。
其實我們找了壹批誌願者,他們自己提供數據,完成問卷調查,這樣我們就有了兩方面的數據。對模型進行訓練後,新用戶不需要完成用戶調查,模型可以自動計算出他們的性格。聽起來很抽象,但也很具體。比如我們可以計算用戶發表的文字和性格的關系。大五人格有五個維度,我們可以計算出單詞和每個維度之間有特別正的相關或者特別負的相關。比如,壹個經常在朋友圈寫青春和自我的人,可能是外向的,而經常寫不出來、面對不了的用戶,外向度得分較低。還有壹些用戶可能會寫壹些聽起來很正面的詞,比如時代、社會、成功。我們發現這些人更有責任心。相反,有些人可能經常會隨便寫幾個字,萌萌,氣質,我們發現他們的認真度比較低。低盡責並不是貶義詞:在這個模型中,關心結果的人盡責程度較高,而關心過程的人盡責程度較低。兩個極端都有其優點,沒有好壞之分。
我們還通過計算大五人格的皮爾遜系數和用戶的頭像聚類(每個聚類選兩張圖)來顯示與大五人格有很強正相關或負相關的聚類。這個計算揭示了壹些有趣的現象:比如外向性得分高的用戶喜歡使用笑臉頭像,而得分低的用戶則經常在頭像中遮擋面部表情或者使用側臉;開放度分數高的用戶經常使用與朋友的照片作為頭像,而開放度分數低的用戶經常自拍。
我們的實驗結果表明,僅使用頭像照片,個人性格預測的準確率就可以達到0.6。我們不僅針對各維度的行為數據提出了有針對性的特征提取策略,還利用集成對不同維度的行為數據進行有效整合,提高大五人格預測的準確率,使個體大五人格預測的準確率達到0.75以上。
在理解了用戶之後,下壹步就是如何利用這些知識來幫助機器人像人壹樣思考。人類希望機器人能夠實現的壹個重要行為就是聊天。微軟也提出了“對話即平臺”的概念,認為未來所有人機界面都將轉變為對話界面。
兩年前看了壹部電視劇,至今記憶猶新。是英劇《黑鏡》第二季第壹集《馬上回來》。這部電視劇描述了壹家人工智能公司,可以通過壹個人的社交媒體和在線聊天數據合成壹個虛擬人,模仿原型的性格特征,與女友進行對話。這看似科幻,其實離我們並不遙遠。2016 6月的壹篇新聞報道也提到,來自俄羅斯的企業家Kuyda為了紀念死去的朋友Roman,用自己的8000條短信數據訓練了壹個聊天機器人,並於2016年5月正式發布。
雖然技術進步了壹大步,但即使是目前最好的聊天機器人,也不能讓人覺得他是壹個性格和情緒都很穩定的活生生的人。這就涉及到如何讓機器人的語言和行為更加個性化。
隨著社交網絡的普及,帶有用戶標簽的語言數據變得容易獲取。就像上面提到的新聞報道,如果我們有足夠多的關於某人的數據,就有可能訓練出壹個和他壹樣性格的聊天機器人。當然,我們也可以通過壹群人的數據來訓練具有人類特征的機器人,比如孩子、學生甚至詩人。比如我們能不能收集所有現代詩人的數據,用這些數據訓練壹個機器人輸出詩歌?現在可以做到,但隨著研究的深入,相信我們最終會遇到瓶頸,比如如何讓機器人擁有更真實的人類個性和情感,這仍然需要與心理學家的合作。
其實最早的聊天機器人伊萊紮就是心理咨詢師。大約50年前,麻省理工學院的研究員約瑟夫培育出了伊萊紮。在與用戶聊天時,伊萊紮介紹了心理學家羅傑斯提出的以人為中心的療法,更強調對話態度,比如尊重和共情。其實,伊萊紮並不主動說新內容,而是壹直在引導用戶盡量多說話。看似賞心悅目的Eliza項目取得了意想不到的成功,其效果震驚了當時的用戶。於是,壹個叫伊萊紮效應的詞應運而生,這是壹種高估機器人能力的心理感受。伊萊紮效應現在其實很普遍。比如打敗頂尖棋手的AlphaGo出現的時候,人們就覺得計算機有了下圍棋的靈感,人工智能很快就會超越人類。但其實AlphaGo背後的程序都是人寫的。所謂的靈感,所謂的智能,其實都是程序實現的。
受ELIZA項目的啟發,微軟亞洲研究院也推出了DiPsy項目。這個項目的目標是使機器人能夠與人聊天,並幫助他們克服心理問題。在這個項目中,我們借鑒了心理咨詢中常用的認知行為療法和正念療法。DiPsy的特點是以自然有效的方式引導對話,讓用戶暢所欲言。它還會研究用戶的心理過程,通過數據驅動,對用戶的心理特征和精神障礙做出診斷。我們采用認知行為療法(CBT)或早期幹預,在各種治療情境下改變用戶的思維和行為,幫助有風險的用戶緩解和管理他們的心理問題。
未來,我們期待這個項目能夠幫助解決實際的社會問題,比如對農村留守兒童的心理輔導。在不久前舉行的未來論壇上,微軟全球執行副總裁沈向洋表示,要解決與人類大腦密切相關的三種疾病:兒童自閉癥、中年抑郁癥和阿爾茨海默病。我希望我們的技術可以幫助他做到這壹點。當然,這些研究項目中有很多還處於起步階段,這需要與其他領域的學者進行大量的合作,包括心理學、社會學和認知科學。希望以後能和更多的學科交流,獲得更多的研究靈感和創新。
我們希望最終能讓機器像人壹樣思考,在人需要的時候不僅提供幫助,還能提供陪伴。孤獨的時候,至少有壹個AI陪著妳。
知識圖譜:
皮爾遜系數(Pearson coefficient):用來衡量兩個變量X和Y之間的相關性(線性相關),其值在-1和1之間。在自然科學領域,這個系數被廣泛用於衡量兩個變量之間的相關程度。
集成學習(Ensemble learning):壹種機器學習方法,利用壹系列學習者進行學習,利用壹些規則對學習結果進行集成,以獲得比單個學習者更好的學習結果。