《為什麼》3:到底有沒有因果關系
前兩講已經做了大量的鋪墊,今天我們終於可以回到這個問題了:科學的世界到底有沒有因果關系。
這是一個大反轉的故事。我們先從哲學開始說。
1. 哲學
不知道你注意過沒有,物理定律裡根本就不包括因果關系。比如你拿個氣壓計測量大氣壓,物理定律說你的氣壓計讀數 B 和大氣壓 P 之間有一個正比關系。
B = kP
但是這個定律裡根本沒說〝誰導致了誰〞。是氣壓導致了氣壓計的讀數嗎?可是上面的方程式完全可以改寫成 P = B / k ,只看方程,你完全可以說是氣壓計的讀數導致了大氣壓的大小。物理定律只是描述一個規律,並不在乎因果。
皮爾遜認為我們只是總結宇宙的規徑,然後按照規律,其實也就是總結出來的經驗去做事而已;至於說規律背後有沒有因果關系,到底是誰導致了誰,這個你永遠說不清,也沒意義。
自此之後,哲學家一直在研究,怎麼用統計規律定義因果關係。有人說,因為關係是不是就是相關性正好等於 100%。這正是皮爾遜當年的觀點。皮爾遜說因果就是 A 發生 B 一定發生,就是相關系統數於1。但這個定義肯定是錯的。
你想想,樹木是速生長的時候,小草也在快速生長,它們兩的相關性就是 1,那你能說草跟樹之間有因果關係嗎?其實是春天到了這個緣故導致了樹和草的生長。
後來又有哲學長想了辦法。說所謂〝X 導致 Y〞,這個因果關系可以用 P ( X | Y ) > P ( Y ) 來定義: X 的出現,增大了 Y 出現的可能性。這是一種概率化的因果,但是也不能排除單純的相關性。
珀爾倒是給了一個更好的定義: P ( Y | do(X) ) > P ( Y ) ,也就是說,如果你單方面對 X 做一個干預動作,導致 Y 的概率增加,那麼就是 X 導致了 Y。這個可能是目前為止最合理的定義。
可是不管怎麼定義,永遠說不清楚什麼叫〝 X 導致 Y〞。也許我們觀祭到的一切都是幻覺,別說因果關系,你連〝講理〞都不能講。但是我們仍然可以提一個反對意見。
這套邏輯沒用。
2. 皮爾遜的尷尬
皮爾遜了大的調查研究,發現了各種的相關性。他注意到,有些相關性很有意義,有些相關性就沒有什麼意義,他稱之為〝偽相關 ( spurious correlation )〞。
比如說,一個國家的人均巧克力消費,,和這個國家的諾貝爾獎得主人數,有一個非常強的正相關
皮爾遜說這就是一個沒什麼意義的偽相關。你總不可能說吃巧克力有利於得諾貝爾獎。讓我們解釋這個相關性的話,肯定是巧克力消費量高是因為這個國家的經濟比較發達,而經濟比較發達的國家容易出諾貝爾獎得主。
請注意!你只要這麼一解釋,就用到了因果關係!
這就很尷尬了。首先你皮爾遜說沒有因果只有相關。然後你又說有些相關性有意義有些相關性是偽相關。那你判斷有沒有意義的標準是什麼呢?難道不還是要藉助因果嗎?
無形之中,我們還是覺得有因果的相關性更有意義 ― 雖然我們無法用純粹理性定義因果。
我們如此地傾向於因果思維,從根本上來說是因為因果思維很有用。一個簡單的因果模型就能勝過無數經驗。
3. 因果模型
假設我們要研究一個死型,總共有 5 個變量。
-
法庭是否判決死型
-
隊長是否下令開槍
-
士兵 A 是否開槍
-
士兵 B 是否開槍
-
犯人是否死亡
這五個變量的值都是 1 或者是 0,1 表示肯定,0 表示否定。
讓一個記者去採訪各個法庭執行死型的情況,我們幾乎可以斷定,他每次遇到的這五個變量,要嘛全都是 1 ,要嘛全都是 0。這樣的數據再多,也回答不了有想像力的問題。
比如說,我想問一下,如果法庭判決了,但是隊長不下令,犯人會不會死?這種事情從來沒有發生過,所以你的大數據在這裡用不上。但是如果你承認這裡面有因果關係,我們就可以畫一張因果關係圖。
圖中的每一個箭頭代表一個因果關係,從緣故指向結果。從這張圖能夠回答我們第一講說的全部三類問題。
第一類問題是觀察。現在法庭已經判決,請問犯人會死嗎?我們一看圖,法庭判決開啟了因果反應鏈條,所以犯人必須死。一切數據經驗,這裡都能預測。
第二類問題是干預。士兵 A 想干預一下。他說我有自由意志,我不想聽隊長命令,我決定立即開槍。那犯人會死嗎?這種事情歷史上沒有發生過,但是我們看一看因果關係圖,只要開槍犯人一定會死,所以我們可以判斷犯人必死。
第三類問題是想像。現在犯人已經死了。犯人家屬找到士兵 A,說你當初要是不開槍,他就不會死!士兵 A 不需要考察什麼大數據,他馬上就可以拿出這張因果關係圖說你看,明令已經下達,就算我不開槍,士兵 B 也會開槍,犯人還是會死 。你想要讓犯人不死,你得說服法庭不判決,或是說服隊長不下令,或者同時說服 A 和 B 兩人都不開槍才行啊。
你看這是多麼清楚的分析。歷史大數據不能告訴你這些,但是因果關系可以告訴你。
可是這個因果關係圖是從哪來的呢?人死亡的原因可以有很多,也許犯人自己會病死,也許會被別的犯人打死,而且犯人還可能越獄……這些情況你為什麼不考慮呢,你這張簡單的因果關係圖,還是沒有徹底回答〝犯人為什麼死了〞這個問題。
好。邏輯上無法科學定義因果關係,實際操作上因果關係又這麼有用,那我們到底該拿因果關係怎麼辦呢?
所以有些事情看似簡單,但是細思極恐。而有些人的思想可以撥雲見日。
4. 撥雲見日
第一個使用因果模型搞研究的,豆國統計學家休厄爾.賴特 ( Sewall Wright )。 1920 年,賴特發表了第一篇有關天竺鼠的毛色遺傳的論文。他設設有三種因素可能影響毛色,分別是發展 ( d )、遺傳 ( h )、環境 ( e ),他把I水三種因素畫成了因果關系圖。
然後賴特根據自己的實驗結果,用解方程的方法算出了三種因素的相對大小。他把天竺鼠的毛色問題給解決了。
這絕對是開創性的工作。賴特不但第一次使用了因果模型而且還提出了一個洞見。
賴特說,我這個因果模型並不是客觀的。你不可能通過數據分析、用機械化的流程得到這張圖。因果圖之所以這麼畫圖中之所以考慮了這些關係而沒考慮別的關係,這是你自己主觀的選擇 ― 是你用自己的知識、閱歷和判斷畫出來的。
也就是說,因果關係其實是你的主觀假設。
數據是客觀的,而人的觀點是主觀的。
相關性是客觀的,而因果是主觀的。
有了這個洞見,我們解決問題的步驟就是下面這樣的―
第一步根據你自己的見識,畫一張主觀的因果模型圖。模型裡有些因果關係是概率性的 A 發生並不一定會讓 B 發生,只要 A 對 B 有影響就行。
第二步使用實驗和數據分析,確定圖中每個因果關係的強弱大小。這樣你就有了一個完整的因果模型。
第三步,使用因果模型,你就可以回筶〝觀察、干預、想像〞那三種問了。
如果 AI 擁有這類的模型,它就等於獲得了智能。珀爾稱之為〝小圖靈問題〞,相當於計算機通過了一個小的圖靈測試:他嘗握了因果思維。
你注意到沒有,我們自始至終沒有徹底回答〝到底什麼是因果關係〞,我們也沒有真正解決〝為什麼〞的問題!
在我看來,因果分析這個思想的最高妙之處就在於,你無須確定真正的因果關係,你無須回答〝為什麼〞。
真實世界裡任何事清都是錯綜複雜的,你根本就無法列舉影響一個結果的所有可能緣故。你必須做出各種取捨,你只能把你認為最重要的緣故畫在圖上。圖畫完了,你並沒有科學地、 徹底地、邏輯完備地回答〝為什麼〞你只是說根據你的猜測應該是因為這幾個緣故。
而事實上也不需要回答〝為什麼〞。我們在生活中的實際應用,對改變世界真正正有用的,其實就是回答〝觀察、干預、想像〞這三種問題。
所以因果分析的最終目的不是查明因果關係,而是回答三種問題。這三個問題比因果關係更基本 ― 因果關係只是我們回答問題的手段。
沒有這個手段,只靠數據分析你回答不了第二和第三種問題。當然有了這個手段如果你的因果模型不準確,你給的答案也會不準確 ― 你可能會漏掉一個特別重要的因果關係,你可能忽略了黑天鵝事件。但是這不要緊!預測未來的事兒本來就是誰也保證不了100%準確。
哲學家的世界觀誰也反駁不了,但我們這裡不解決世界觀問題,我們解決方法論問題就可以了。
最後,請注意雖然模型是主觀的,但是因果分析仍然具有客觀的性質。如果兩個人的假設相同,他們畫的因果關係圖就是一樣的,那麼因為接下來的數學方法是客觀的,這兩個人對未來的預測,必定是100%相同。
我建議你花點時間琢磨一下這個道理。這裡邊有哲學。主觀和客觀非常有意思。按理說這個世界應該是完全客觀的存在,科學家一直在試圖客觀地認識世界。可是我們不管是給東西分類也好,提出因果關係也好做預測也好 — 只要你心念一動,你就必然是主觀的。
來源:《萬維綱-到底有沒有因果關系》