當前位置:星座運勢大全官網 - 八字算命 - 科學網-我理解的統計思維-王偉的博客

科學網-我理解的統計思維-王偉的博客

美國著名小說家馬克·吐溫在他的自傳1907中引用了英國前首相本傑明·迪斯雷利的話:

有三種謊言:謊言、該死的謊言和統計數字。

由於馬克·吐溫的高人氣,這句話在他說出來後廣為流傳。

大家都學了很多年數學。當然,我們要學習數學的壹個原因是,我們在生活和職業中會用到壹些數學,也就是說,數學可以看作是壹種工具。壹個精通數學的人,往往具有邏輯性強、計算準確的特點。統計呢?

壹方面,統計現在變得越來越重要。人在做決策的時候,壹定要有統計數據,把統計數據當成護身符。與此同時,也有像馬克·吐溫這樣對統計數據嗤之以鼻的人。甚至在學術界,很多人認為統計學只是數學的壹部分;但是更多的統計學家認為並反復強調統計學和數學是完全不同的。

可能我們更容易感受到什麽是經濟頭腦,什麽是文學細胞,什麽是音樂素養。那麽什麽是統計頭腦呢?統計細胞?和統計素養?要說清楚並不容易。本文試圖通過對統計思維方式的闡釋來談壹談上述問題。

1,正確認識統計思維的重要性

我們先來看壹個例子。1985 165438+10月,美國學者加裏·泰勒在英國牛津大學的圖書館裏發現了壹首詩(姑且稱之為“泰勒的詩”),引發了英美研究莎翁文學作品的學者們的口水戰。爭論的焦點是這首詩是否是莎士比亞寫的。

許多專家認為,這首“泰勒詩”在遣詞造句和韻味上都不同於莎士比亞的其他作品。爭論發生兩個月後,10月24日出版的《科學》雜誌65438+65438,0986發表了壹篇名為《莎士比亞的新詩:統計的頌歌》的文章,介紹了兩位統計學家埃夫隆和西斯泰德是如何用統計學的方法來鑒定這首“泰勒詩”是否是莎士比亞所寫。

Efron和Thisted的方法如下:每個人都有自己的使用習慣,特別是對於生僻字,每個作者的使用習慣可能更不壹樣。莎士比亞已知作品中有884647個單詞,其中31534個不同的單詞。在這些不同的詞中,14376個詞從頭到尾只出現了1次,4343個詞只出現了兩次。出現幾次的詞都算。那些在總作品中出現頻率較低的生僻字,就是莎士比亞的生僻字。基於這些數據,假設這首429字的《泰勒詩》是莎士比亞寫的,他們估計會有幾個字,在總作品中從未出現過(也就是新詞),只出現了1次,兩次,...,直到出現99次,給出了所有的估計值。實際情況與估計很壹致。

這還不夠。會不會是各個時代的詩人都有類似的用詞習慣?所以,這兩個人找了三個和莎士比亞大致同時代的詩人,每個人拿了壹首詩,和另外四首莎士比亞的詩,和這首泰勒的詩做比較。經過三種統計檢驗,發現如果假設前三首歌都是莎士比亞的作品,那麽生僻字出現頻率的實際值和估計值並不壹致。所選的四首莎士比亞詩歌,雖然偶爾有不壹致的地方,但總體上是可以接受的。Efron和Thisted表示,他們的分析並不能完全證明《泰勒詩》是莎士比亞寫的,但生僻字的使用與莎士比亞的全部作品如此壹致,確實令人驚訝。

在統計學家發表意見後,壹場文學爭議很快平息了。難怪我們要向統計致敬。用統計方法做決策,體現了壹種客觀合理的思維。最好用客觀的統計方法來判斷是否與主觀的辯論風格相同。但是什麽才夠客觀呢?Efron和Thisted除了只測試泰勒的詩,還對比了幾位莎士比亞同時代的詩人,哪個更穩妥。萬壹莎士比亞時期的詩人也有類似時尚等生僻字的使用習慣,這個測試就沒有參考價值了。

統計和我們的思維壹樣,首先是客觀的,否則就是自欺欺人。相反,如果我們的思維是統計學的,那它就是極其客觀的。

英國劍橋大學教授威廉·j·薩瑟蘭(William J. Sutherland)在2013期《自然》雜誌上發表了壹篇文章,題為《解讀科學觀點時應該知道的20個事實》。看了之後發現裏面提到的科學事實都和統計思維有關。

統計學是現代科學研究中最重要的工具之壹。英國著名生物學家高爾頓曾說:“統計學具有處理復雜問題的非凡能力。當科學探索者在前進的過程中舉步維艱時,只有統計才能幫助他們打開壹條通道。”在利用科研結論輔助現實決策時,必須具備良好的統計思維,才能對科學結論保持清醒的認識,更準確地解讀其背後的科學真相。

大數據時代從信息短缺變成了信息泛濫,信息短缺的危機讓位於信息篩選的困難。在這種背景下,科學方法成了每個人的必修課。在越來越依賴數據的今天,只有樹立正確的統計思維,才能有效地進行數據處理和分析。今天,世界正在進入信息爆炸的大數據時代,統計變得越來越重要,這驗證了英國科幻作家H·G·威爾斯的預言:“統計思維總有壹天會成為壹個高效公民的必備能力,就像閱讀和寫作壹樣。”

統計學廣泛應用於各個學科,從自然科學到人文社會科學,甚至工商、政府的信息決策。作為理解自然和社會的工具和手段,對客觀現象的數量關系進行統計研究,幫助決策者理解科研證據在決策中的作用。正如現代統計學創始人費希爾所說,“20世紀帶給人類進步的獨特方面是統計學。統計學的普遍存在及其在開拓新知識領域中的應用遠遠超過了20世紀的任何技術或科學發明。”

馬寅初曾說:“學者沒有統計就不能研究,實業家沒有統計就不能實踐,政治家沒有統計就不能執政。”統計思維是在獲取數據、從數據中提取信息、論證結論可靠性的過程中的壹種思維方式,對提高人類認知有很大作用。統計思維在解決自然之謎的科學調查中,在考察早期佚名文學作品的作者中,在給出考古文物的年代表中,在解決法庭糾紛中,在做出最佳決策中,都發揮著不可替代的作用。

統計學是壹門從經驗到理性的學問,是壹門運用偶然發現規律的科學。它不僅僅是壹種方法或技術,還包含了世界觀的元素——看待世間萬千事物的壹種方式。這就是人們從統計學的角度談論事物的樣子時通常所指的。統計思維的培養不僅需要學習壹些具體的指令,而且能夠從發展的角度把這些指令連接成壹個有機的、清晰的畫面,獲得歷史感。正如德國石勒蘇益格曾經說過的,“統計是動態的歷史,歷史是靜態的統計。”

從統計學的角度來看,人們從經驗或實驗中獲得的知識包含著不確定性。統計學側重於測量包含在這些知識中的不確定性。不確定性壹旦可以測量,人的知識面就會擴大,對世界的認識就會飛躍。這個過程在人類知識積累的過程中不斷重復。難怪有人總結道:

歸根結底,壹切知識都是歷史:我們現在所擁有的知識,是對過去所發現的事物的總結和推導;

在抽象意義上,壹切科學都是數學:壹切知識都可以概括為數學的推理和運算;

在理性的基礎上,所有的判斷都來自於統計:所有的判斷都是對過去規律的總結,也就是根據過去數據的概率模型來判斷未來的趨勢。

2.什麽是統計思維及其常用方式?

首先,我們來看看統計在做什麽。

從隨機性中發現規律性,這是統計學的基本思想,也是統計學的魅力所在。

簡單來說,統計學表達的兩個核心概念是:

我們中學學過的大部分知識都是關於必然性的。當它說1就是1的時候,不會有錯誤。而壹個命題壹旦被證明是對的,問題就永遠是對的,沒有例外,除非妳能找出證明中的漏洞。在統計學中,隨機無處不在。它允許錯誤,沒有錯誤就讓人懷疑有假。統計學也會保證壹個問題,但是它的保證是基於概率形式的。而且保證概率不是100%,有誤差。統計數據充滿了“不確定性”。比如聲稱壹款飲料95%的容量在425ml到431ml之間,就是典型的統計保證。統計學代表了壹種看待世界的方式。

在隨機的世界裏,真相往往難以得知,壹切都是假設,就看妳願意接受哪壹個。接受的意思,就像婚禮上新娘點頭說“我願意”,並不代表新郎真的是最適合她的。只是“她目前願意接受”同樣,在統計學中,接受不代表真,拒絕不代表假。統計學家的判斷總會給出誤差,這是在允許誤差下的統計推斷。

概率和誤差構成了統計思維的兩大支柱。並且展示了幾乎所有統計學上的關鍵點。

統計學中的方法與人們的思維方式有壹定的對應關系。我們來列舉壹下統計學中常見的思維方式。

(1)善於運用數據。

“數據!數據!數據!”他令人印象深刻地哭了。“沒有粘土我做不出磚。”這是著名小說中夏洛克·福爾摩斯說過的壹句話。

沒有規則就沒有方圓,沒有粘土就沒有磚墻,沒有數據就沒有決策。

福爾摩斯可以從兇案現場的壹些線索推斷出嫌疑人可能是左撇子,也可能經過壹個果園。算命師也依賴信息。收集了很多不同的面相和八字的命運。讀者多了,自然就容易根據人的面相來分析未來。善於看透人性的人不也是博覽群書嗎?做決策需要數據,每壹個數據都可能是有用的信息。統計人員要想發揮技能,就必須善用信息。所以對於統計學家來說,數據就像老鼠愛吃的米飯。

(2)善於捕捉不確定性。

宇宙的運行是必然性和隨機性交織在壹起的。比如我們知道哈雷彗星每76年接近地球壹次(這是必然的)。雖然我們可以知道76年後會發生什麽,但是明天會下雨嗎?不那麽確定(隨機性)。再比如松開手裏的硬幣,中學物理課學的。如果忽略空氣阻力,硬幣落地所需的時間在固定高度是壹個固定值。但是落地之後,哪邊朝上?它是不可預測的。這就是不確定性。

人們大致知道未來會發生什麽,如何發生,但不能完全把握。在隨機的世界裏,必然性讓人願意提前做好準備,而不確定性讓人對未來充滿希望或恐懼。壹個有必然性的世界,沒有變化,對未來缺乏希望,會讓人失去努力的動力。在壹個隨機的世界裏,單靠運氣會讓人失去積極認真的決心。三分註定,五分靠努力,兩分靠運氣。這是造物主偉大的設計。

因為不確定性的存在,我們所能做的就是去理解它,並經常努力減少這些不確定性。所以我們的祖先針對隨機世界總結了壹些所謂的規則來應對這樣的不確定性。比如大數定律,另壹個重要的隨機定律是中心極限定理。

在統計學中進行預測和估計,實質上就是進行概括。以偏概全是統計學家的本事。

(3)有相信概率的思維。

數學家皮埃爾·西蒙·拉普拉斯曾經說過,“生活中大多數最重要的問題都只是概率問題”。在隨機的世界裏,概率這個詞朗朗上口,但很少有人真正理解概率的含義。

概率的意義是什麽?當我們擲骰子,或抽簽時,我們通常用“同樣的可能性”來解釋概率。也就是骰子的六個面,每個面的概率被認為是6中的1。這個解釋在日常生活中相當適用。當沒有其他信息時,通常假設每壹個可能的結果都有相同的概率。

第二種方式是用相對頻率來解釋概率。舉個例子,如果壹個職業籃球運動員過去的投籃命中率是0.527,那就意味著這個球員在下壹次投籃時的投籃命中率大概是0.527。這種常見的概率解釋是比較客觀的。背後的理論基礎是大數定律。對於現象,可以反復觀察。

最後壹種方式是主觀概率。比如巴西在世界杯奪冠的概率,追到壹個女生等等都是主觀概率。這些事件不能重復觀察,而且是壹次性的。

概率的上述三種解釋有時會互換使用或相互驗證。

有小概率事件。妳壹開始認為不可能的事情,只要妳觀察的次數足夠多,就會發生。有人稱之為真正的大數定律。當小概率遇上大樣本,就不會太意外了。在壹個隨機的世界裏,相信概率,而不是挑戰它。

(4)有合理的估算思維。

從前,有個賣油條的小孩。他總是把賣的錢都放在壹個裝滿油條的籃子裏。有壹天,由於急事,我把籃子放在壹塊大石頭上,去上廁所。當我後來回來時,真是晴天霹靂,籃子裏的錢都不見了。他流著淚跑去告訴縣長。縣令聽後,叫人把石頭搬來審問。盡管受到多次威脅,斯通什麽也沒說。縣令大怒,叫人用棍子打石頭。只是就算棍子斷了,石頭還是不說話。大家看了都笑了。縣令更生氣了,罰圍觀者每人兩個銅錢,扔進壹個盛滿水的盆子裏。突然,縣令指著壹個人說:“偷錢的人就是妳。”那人哭訴不公,大家都很不解。縣令解釋道:“那孩子賣油條,他的錢沾了油。別人的錢扔到水裏,沒有油浮上來。只有這個人把錢扔到水裏後,有油浮上來,才說明這個人偷了錢。”那人低頭告白,眾人心服口服。

這種縣長判斷的智慧,類似於老師先問最調皮的學生的原則:從幾種可能中選擇時,優先考慮最可能的情況。會有錯誤嗎?當然會。就因為他口袋裏的錢有油,妳就認為他偷了賣油條的孩子的錢?如果有人收到賣油條的找零,不是沾了油嗎?

然而,人們在做出選擇時經常使用的這種方法是有效的。從統計思維的角度來說,就是著名的最大似然法,按照發生概率最大的壹個來確定估計值。這種方法有許多好的性質,而且常常能得到好的估計量。

美國NBA職業籃球賽,各隊互有勝負,很難說哪個隊最強。在常規比賽中,每支球隊要打82場比賽,各區勝率最高的8支球隊可以打季後賽。所謂勝率,就是贏的遊戲數除以遊戲數。為了保持比賽的可看性,NBA有選秀機制,這樣各隊實力不會相差很大。有時候整個賽季的勝者勝率不到60%。根據壹個賽季多場比賽後的勝率來決定今年誰更強,能不能參加季後賽,這是職業足球比賽的慣例。再比如,經常采用估算手術成功概率和生三胞胎概率的思路。

隨著統計學的發展,關於這種估計方法,有數百種學派在爭論。這些合理的估算方法往往各有優勢,適用於某些場合,沒有壹種方法永遠是最好的。比如有時候我們認為壹個區間可以更清晰的描述出來,就是著名的置信區間估計法。

(5)要有假設檢驗思維,認為沒有疑問。

人們常常尋求公平或正義。以壹個簡單的兩個人分享的蛋糕為例。如果雙方都不想拿的更小,有什麽好的分攤方式?這應該是壹個讓我們兩個都不覺得被騙的方法。即使是為了誰切,也最好抽簽。萬壹選舉黨覺得他收入過半,而切割黨覺得他收入只有壹半。

疑罪從無類似於無推定原則的妳中選我,屬於壹種能讓控辯雙方都覺得更公平的判決方式。

1933年,波蘭的內曼和英國的皮爾遜給出了著名的內曼-皮爾遜引理,確立了統計學中的無罪推定原則,即假設檢驗。

英語中的假說源自古希臘語hypotithenai,科學假說(或假說理論)也是這個詞。在數學中,我們經常證明壹個命題是真還是假。但在隨機世界裏,很多現象只能算是假設,就看哪個更願意接受了。接受不代表妳完全相信假設是真的,拒絕不代表假設是假的。統計學中的假設,經過驗證後,無論接受哪個假設,都不能使其成為規律,假設永遠是假設。

3.結束語

陳喜儒先生在《數理統計簡史》的序言中說:“統計學不僅是壹種方法或技術,還包含世界觀的元素——它是壹種看待世界上壹切事物的方法。這就是我們常說的從統計學角度看事物的樣子。但是統計思想也有壹個發展過程。因此,統計思想(或觀點)的培養不僅需要學習壹些具體的知識,還需要從發展的角度把這些知識有機地、清晰地聯系起來,獲得歷史感。”

統計思維的建立不是壹蹴而就的。如果說有什麽訣竅的話,那就是學習練習,再學習練習,再繼續學習練習。

參考資料: