前言
這本書談的是資訊、科技,以及科學的進步。這本書談的是競爭、自由市場,以及思想的演變。這本書談的,是讓我們比任何電腦都還要聰明的東西,也是本探討人為錯誤的書。這本書談的,是我們如何一步步學會掌握客觀世界的知識,而我們為何有時又會倒退。
這本書談的是預測(prediction),也就是上述這一切的交集。這本書研究的是為什麼有些預測可以成功,為什麼有些會失誤。我希望,對於如何規劃我們的未來,我們可以得到多一點的了解,比較不會去重蹈覆轍。
「巨量資料」的希望與困難
現在流行的詞是「巨量資料」(big data)。IBM估計,我們每天會生產兩百五十萬兆位元的資料,有超過之九十的資料是在過去兩年中製造出來的。
資訊指數性的增長,有時被視為萬靈丹,就如一九七〇年代的電腦一樣。《連線雜誌》(Wired magazine)的編輯克里斯‧安德森(Chris Anderson)在二〇〇八年寫道,光是資料的量就可以免去對理論的需求,甚至連科學方法都不必了。
這本書顯然是在擁護科學和科技,而我也認為這是本非常樂觀的書。但這本書的主張是:這些觀點錯得離譜。數字沒辦法為自己講話。是我們在為它們說話。我們賦予它們意義。就如凱撒一樣,我們可能會用對自己有利的方式來解釋資料,讓資料脫離客觀的現實。
以數據為導向的預測會成功——也會失誤。如果我們否定自己在這個過程中扮演的角色,失誤的機率就會提高。在我們對資料做更多的要求之前,我們必須先多要求自己。
如果你知道我的背景,我這樣的態度可能會讓人吃驚。我處理資料和統計數據,用這些來成功預測,因而博得名聲。二〇〇三年,我因為厭倦顧問的工作,所以設計了一個叫做PECOTA的系統,試圖預測大聯盟球員的統計數據。這個系統有一些創新之處——例如說,系統的預測是用概率的方法,為每位球員標出一個範圍內的可能結果——我們比較各家系統的結果,發現我們的系統比對手的系統表現更好。二〇〇八年,我成立了五三八網站(FiveThiryEight),試圖預測即將到來的大選。五十州之中,五三八網站正確預測了四十九州的總統大選獲勝者,以及全部三十五席美國參議院議員選舉的贏家。
大選後,有一些出版商跟我接觸,他們想找《魔球》(Moneyball)和《蘋果橘子經濟學》(Freakonocomics)這樣的書,從書的成功中獲利,這種書講的是書呆子征服世界的故事。他們認為這本書走的也是這樣的路線——研究以數據為導向的預測,領域從棒球到財經到國家安全。
但我為了從事我的研究,在四年內和十幾個領域、超過一百位的專家談過,閱讀數百篇期刊文章和書籍,到處旅行,從拉斯維加斯到哥本哈根,我逐漸明白,巨量資料時代的預測進展並不順遂。在幾個層次上,我一直很幸運:首先,雖然我犯了很多我後面要敘述的錯誤,但我還是獲得了成功;而其次,我選對了戰場。
例如說,棒球就是個特例。這種運動剛好是種豐富而有意義的例外,而本書就在探討為何會如此——為什麼在《魔球》出現十年後,統計怪才現在跟球探合作無間了。
本書提供了一些其他有希望的例子。氣象預報牽涉到人類判斷力與電腦能力的結合,也是其中之一。氣象學家名聲不好,但是他們已有顯著的進展,他們預測颶風登陸的位置比起四分之一個世紀之前準確三倍。同時,我也見了撲克玩家和運動賭徒,這些人真的能打敗拉斯維加斯。還有打造IBM深藍電腦(Deep Blue)的電腦程式設計師,這部電腦曾經打敗世界西洋棋冠軍。
但是這些預測有所進步的案例必須用一連串的失誤來權衡。
如果有什麼東西可以用來定義美國人——有什麼讓我們與眾不同,那就是我們相信卡修斯的想法,認為我們可以掌控我們自己的宿命。我們的國家是在工業革命之初由一群宗教的反抗者所建立,他們看出思想的自由流通不只有助於散播他們的宗教信念,也可以散播科學和商業的信念。我們這個國家大部分的優勢和劣勢——我們的智巧與勤勉,我們的傲慢與不耐——都來自於我們堅定不移的信念,相信我們可以選擇自己的走向。
但是這個全新的千禧年卻給了美國人一個可怕的開始。我們沒有預見到九一一攻擊的到來。問題不在於缺乏資訊。就像六十年前珍珠港攻擊的狀況一樣,所有的訊號都在。但是我們沒有把訊號整合起來。我們缺乏適當的理論來說明恐怖份子會怎麼行動,所以我們對資料無視,恐怖攻擊對我們就成了「未知而不自知」(unknown unknown)。
最近的全球金融危機也伴隨著普遍的預測失誤。我們輕易相信模型,沒有體認到我們所選擇的假設有多麼容易影響到這些模型,造成了損失慘重的結果。同時,就較為一般的基準來看,我發現我們沒辦法在幾個月之前就提前預測到經濟衰退,而且不是因為不夠努力。雖然在控制通貨膨脹方面已有相當的進展,但我們的經濟政策決策者卻是在盲目行事。
二〇〇〇年總統大選前政治學家所發表的預測模型預測高爾(Al Gore)會以十一個百分點壓倒性的勝利,結果是布希(George W. Bush)獲勝。這不是個異常的結果,像這樣的失誤在政治預測上相當普遍。賓夕法尼亞大學(University of Pennsylvania)的菲利普‧泰特洛克(Philip E. Tetlock)發現,政治學家宣稱某個政治結果絕對沒有機會發生的時候,卻還是有大約百分之十五的機會會發生。(不過這些政治學家大概還好過電視名嘴。)
最近就像一九七〇年代那樣,重新興起對預測地震的努力,大部分的預測都是使用高度數學化和以數據為導向的技巧。但是這些預測設想的地震都沒有發生,有發生的地震也沒有讓我們做好準備。福島核子反應爐設計來對抗強度八‧六級的地震,一部份是因為某些地震學家推斷更大的地震不可能發生。結果二〇一一年三月日本就出現了九‧一級的恐怖地震。
也有整個學科預測不斷失準,常常讓社會付出極大的大價。想想生物醫學研究之類的東西。二〇〇五年,一位在雅典長大、名叫約翰‧約安尼迪斯(John P. Ioannidis)的研究人員發表了一份備受爭議的論文,標題為〈為何已發表的研究結果大多是錯的〉(Why Most Published Research Findings Are False)。這篇論文研究的是在同儕審查的期刊上記錄的正面研究結果:描述他們成功預測到某些醫學假設在實驗室裡實現。論文的結論是,把這些研究發現應用到現實世界的時候,可能大多會失敗。拜爾實驗室(Bayer Laboratories)最近證實了約安尼迪斯的假設。他們試著自己去實驗醫學期刊中所宣稱的正面研究結果,結果約有三分之二的研究發現他們無法複製。
巨量資料一定會造成進步——最後還是會的。但速度有多快,以及我們會不會同時又退步,就要看我們了。
為何未來令我們震驚
生理上來說,我們跟我們的祖先沒有太大的不同。但是某些石器時代的優勢已經變成了資訊時代的劣勢。
人類擁有的自然防衛不多。我們速度沒有那麼快,也沒有那麼強壯。我們沒有爪子或尖牙或是身體的保護層。我們不會吐出毒液。我們沒辦法用偽裝遮掩自己。我們不會飛。但是,我們憑藉著我們的智能活了下來。我們的心智靈活。我們天生就會找出模式,不用太多遲疑就能對機會與威脅做出回應。
「這種找出模式的需求,人類比其他動物需求更高。」湯馬索‧波吉歐(Tomaso Poggio)這樣告訴我,他是麻省理工學院的神經科學家,研究我們的大腦如何處理資訊。「要在艱困的情境中辨認出物體,表示需要歸納。新生兒可以辨認出臉孔的基本形態。這是經由演化才學會的,不是靠個人。」
波吉歐說,問題是,這些演化的本能有時候會在其實沒有模式的時候影響左右我們,讓我們看見模式。「大家一直都會這樣,」波吉歐說,「在隨機的雜訊中找到模式。」
人類的大腦相當卓越;可以儲存大約三TB的資訊。然而據IBM所說,這只是現在全世界每天生產的資訊量的百萬分之一。所以對於我們要選擇記得的資訊,我們必須極為審慎。
艾爾文‧托夫勒(Alvin Toffler)一九七〇年在《未來的衝擊》(Future Shock)一書中寫過,對於他稱之為「資訊超載」(information overload)的結果做了一些預測。他認為,即使這個世界本身越來越多元、越來越複雜,但我們的防禦機制會把這個世界簡化,確認我們的偏見。
我們的生物本能在這個資訊豐富的現代世界不是都調適得很好。除非我們主動努力,去察覺我們引進的偏見,不然額外的資訊給我們的回報可能會很少——或是減少。
印刷術問世後的資訊超載造成了更嚴重的宗派主義。這些不同的宗教觀念現在可以用更多的資訊、更高的可信度、更多的「證據」來證明——對異議則包容更少。同樣的現象今日似乎也在發生。大概在托夫勒寫《未來的衝擊》的同時,政治的黨派偏見在美國開始非常快速的增加,而隨著網際網路的到來,速度還增加得更快。
更多的資訊可以引領我們更接近真理,但黨派偏見的信念可能會顛覆這樣的等式。最近,《自然》期刊上的一篇研究發現,有強烈黨派傾向的人如果對全球暖化了解得越多,彼此間的看法就越難一致。
同時,如果資訊量每天都增加兩百五十萬兆位元組,有用的資訊量卻幾乎沒有真的增加。大多數的資訊都只是雜訊,而雜訊增加得比訊號更快。有太多的假設要驗證,有太多的資料要挖掘——但客觀的事實卻只有相對固定的量。
印刷術改變了我們犯錯的方式。抄寫常見的錯誤變得比較少見。但只要有錯,就會被複製非常多次,就像《邪惡聖經》的狀況那樣。
像全球資訊網這樣的複雜系統就有這樣的性質。這些系統不會像比較簡單的系統一樣常出錯,可是一旦出錯就會錯得離譜。資本主義與網際網路在宣傳資訊方面都效率驚人,卻也都為壞思想創造出散播的機會,跟好思想一樣。壞思想可能會造成不成比例的效果。在金融危機之前這個系統就受到極大的影響,以致於信用評比機構的模型中一個不嚴謹的假設就發揮了極大的作用,拖垮了整個全球金融體系。
管制是解決這些問題的途徑之一。但我很懷疑,管制只會是種藉口,用來避免我們在自己身上找答案。我們必須要停下來承認:我們有預測上的問題。我們都愛預測東西——而我們都不是很擅長。
預測的解決之道
如果預測是這本書的中心問題,那麼這也就是解決之道。
預測對我們的生活而言不可或缺。每次我們選擇上班的路線、決定要不要去第二次約會、或是存錢未雨綢繆。我們都在預測未來會如何進行——還有我們的計畫會如何影響到我們喜歡的結果出現的可能性。
這些日常的問題不是全部都需要努力思考;我們可以安排給每個決定的時間只有這麼一點。然而,不管你有沒有發現,你每天都做了許多次的預測。
因為這個原因,所以本書將預測視為一種共同的事業,而不是某些特定的專家或從業者所從事的職責。專家預測失準的時候,取笑他們是件有趣的事。然而,我們應該要小心我們自己的幸災樂禍。說我們的預測不會比專家的預測差,其實只是對我們自己嚴重的明褒暗貶。
不過在科學中,預測確實扮演了特別重要的角色。有個前提我不斷在暗示,現在我要明講了,可能會讓你們之中的某些人不快:我們永遠都不可能做出完全客觀的預測。預測永遠都會受到我們主觀看法的影響。
但這本書顯然是在反對「沒有客觀的真理」這種虛無主義的觀點。更確切的說,本書是在主張:相信有客觀真理——以及致力追求客觀真理——是要做出更好的預測的首要條件。預測者下一個致力的目標,是要明白自己對客觀真理的認識並不完美。
預測之所以重要,是因為預測連結了主觀與客觀的現實。卡爾‧波普(Karl Popper)是位科學哲學家,就曾認同這個觀點。對波普來說,一個假設,除非可以被證明為偽,不然就是不科學的——也就是說,這個假設要能夠用預測的方法在現實世界裡接受測試。
會讓我們猶豫的是:我們測試過的一些想法表現並不好,而我們有很多想法不曾受到、或根本無法測試。在經濟學上,比起主張刺激消費的效果,對失業率的預測比較容易測試。在政治學上,我們用來預測選舉結果的模型可以測試,但是改變政治制度對政策結果會有何影響的理論,可能要花上數十年才能驗證。
我不會像波普那樣,主張這樣的理論就因此而不科學,或是一點價值都沒有。然而,少數我們可以測試的理論結果相當差勁,這種狀況就表示許多我們還沒有測試過的想法也一樣會大錯特錯。我們無疑是活在許多錯覺之中,卻不知不覺。
然而有一條路可以走下去。這不是倚靠著半生不熟的政治觀念所想出的解決之道——尤其因為我把我們的政治體系視為這個問題的很大的一個部分。應該是說,解決之道必須要有態度上的改變。
這樣的態度具體表現在一個叫做貝氏定理(Bayes’s theorem)的東西上,我會在第八章介紹。貝氏定理名義上是個數學公公式。但其實遠不止於此。這個定理意味著我們對我們的觀念——還有如何測試——必須有不一樣的想法。我們必須要更能接受或然率和不確定性。對於我們針對某個問題提出的假設和信念,我們必須更仔細考量。
這本書可以大略分成兩半。前面七章在判斷預測的問題,而後面六章在探討與運用貝氏定理的解決之道。
每一章都圍繞著一個特定的主題,就一定的深度來討論。不可否認的,這本書很詳細——一部份是因為魔鬼常常就在細節中,一部份則是因為我認為跟一份執行大綱相比,對某個主題一定程度的涉入可以提供的洞見更是多得不成比例。
我所選擇的主題通常是有一些公開共享資訊的主題。預測者用私人資訊做預測的例子比較少(例如說,公司如何使用客戶記錄來預測新產品的需求)。我偏好的主題是你可以自己查看結果的那些,不必聽信我的話。
本書的簡短路線圖
本書交織著各種實例,有自然科學、社會科學,還有運動和比賽的例子。本書從較為淺顯的案例出發,在其中預測的成敗比較容易界定,然後本書就進入需要較多策略的其他例子。
第一章到第三章探討的是圍繞著最近金融危機的預測失誤,還有棒球跟政治領域的成功預測——在其中,有些方法已經效果很好,有些則還沒有效。這些應該能讓你去思考預測的難題之下一些最基本的問題。我們如何才能把我們的判斷運用到資料上——又不至於屈服於我們的偏見?市場競爭什麼時候可以讓預測的表現更好——又如何讓預測變得更糟?我們需要用過去的經驗當指引,又明白未來可能有所不同,這兩者之間我們該如何調解?
第四章到第七章著重在動態的系統上:地球大氣的運作狀態,會造成天氣變化;地殼板塊的運動,會引發地震;複雜的人類互動,這是美國經濟運作的主因;還有傳染病的蔓延。這些系統已經由我們一些頂尖科學家在研究了。但是動態系統讓預測變得更困難,而這些領域的預測向來進行得不太好。
第八章到第十章則轉向解決之道——先為你介紹一位運動賭徒,他的貝氏定理運用得比許多經濟學家或科學家還要熟練,接著則探討另外兩種比賽:西洋棋和撲克。由於運動和比賽都遵循清晰的規則,所以可以當成很好的實驗室,來測試我的們預測技巧。這樣可以幫助我們更了解隨機和不確定性,提供一些洞見,讓我們明白該如何將資訊打造成知識。
然而貝氏定理也可以運用到與存在更相關的問題。第十一章到第十三章探討其中三個案例:全球暖化、恐怖主義,還有金融市場的泡沫。這些對預測者和對社會來說都是難題。但如果我們可以勝任這樣的挑戰,我們就可以讓我們的國家、我們的經濟,還有我們的星球更安全一點。
從印刷術的時代至今,世界已經走了很長一段路。資訊不再奇貨可居;我們擁有的資訊多到我們不知道該怎麼處理。但是較為少量的資訊是很有用的。我們選擇性、主觀的去理解,卻很少自我關注,發現這樣做所引起的扭曲。我們以為自己想要資訊,但我們真正想要的是知識。
訊號就是真理。雜訊會使我們分心,遠離真理。這本書談的就是訊號與雜訊。