最近,壹個關於上帝預測美國和歐洲疫情數據的每日博客在網上走紅。
有多神奇?舉兩三個例子如下:
-從3月27日開始的10天,博客對美國感染人數的預測準確率在90%以上,4月4日準確率接近100%。
-3月31日,博客預測美國疫情在檢出人數超過200萬的情況下,將在8-10天內斷崖式下跌;7天後的4月6日,美國的疫情數據出現了斷崖式的下跌,漲幅從12.43%下降到8.13%。此文引起巨大反響,閱讀量超過1.34萬。
-自3月27日以來,歐洲感染人數日均預測準確率達到97%,4月前5天,預測準確率接近100%。
李誌斌對美國感染人數的預測準確率高達90%
對此,有網友評論:大神,病毒聽妳的,絕對。
要知道,新冠肺炎疫情的爆發是壹次全球性的重大公共事件,涉及政治、經濟、地理等諸多復雜因素。預測具體人數聽起來像天方夜譚,準確性是玄學。所以,這個博客背後的博主,堪稱當代神算子。
那麽,這個神算子是怎麽煉成的呢?
清華大學畢業生+8年市場預測經驗。
這個博客背後的博主,神算子本人,名叫李誌斌。
李誌斌,1980-1985在清華大學計算機系學習,1985-1994在中國科學院學習工作。30歲做副研究員,產品部主任,主任助理。1994移居新西蘭,後定居香港。目前,香港智佳物流軟件有限公司。
李誌斌博客截圖
李誌斌所在的兩家公司中,前者的主營業務是物流系統開發;後者有香港中文大學背景,主營業務是市場需求預測,即向企業提供特定區域未來三到六個月的產品需求和價格波動的數據分析和預測。
李誌斌說他是從2012進入數據分析和預測領域的。由於在怡景公司的香港中文大學背景,李誌斌也從教授那裏學到了很多東西。
此外,從技術角度來看,李誌斌在清華大學計算機系的學習經歷也使他在軟件建模和大數據分析方面形成了完整的知識體系;同時,清華大學的學風和理工科背景也讓他更註重數據、證據和實例,而不是結論。
所有這些加起來使李誌斌對數據非常敏感。
去年年底和今年年初,武漢開始出現病例報告,香港也出現疑似新冠肺炎患者,這讓久居香港的李誌斌頗為警惕;2020年6月7日,新冠肺炎被香港特別行政區政府宣布為法定傳染病,疫情數據開始對外公布。於是,李誌斌開始追蹤新冠肺炎的相關數據。
從那以後,李誌斌每天早上起來收集集中的數據。壹開始只是武漢、湖北、香港的數據,後來是大陸其他地方的數據。到6月底5438+10月,開始收集海外數據,整理成Excel表格。同時開始利用自己的專業知識對數據進行建模,並結合新聞中的數據對官方通報的數據進行分析判斷。
起初,李誌斌只在清華的同學中分享數據和觀點,後來每天花30分鐘寫博客並發布在新浪博客上。如今,這已經成為壹種日常習慣。
當然,對於李誌斌來說,除了收集、整理、分析常規數據之外,他也在不斷結合自己的專業知識構建數據模型,不斷補充、驗證這個模型的參數,以達到預期的效果。
3月27日,基於穩定數據模型,李誌斌首次給出了美國感染情況的預測數據。3月28日,他給出了歐洲感染的預測數據。
李誌斌對歐洲感染人數的預測平均準確率高達97%
在他的預測中,不僅是感染病例數,還有感染增長率、高峰時間、感染總人數、死亡總人數、死亡率等數據。當然,感染人數是他用來衡量預測準確性的最重要指標。
就連李誌斌自己也沒有料到他的預測數據會如此準確。
但李誌斌強調,沒有人能用1,000%準確預測未來,預測必須是滾動的。
他說:預測是壹個動態的過程,因為許多意想不到的因素如即時措施和事件是不可預測的。這時候就需要把這些突發事件和決策轉化為參數的調整,並反饋到預測模型中,使其運行更加準確。我的預測模型和預測參數也在不斷完善的過程中。
再好的軟件也無法做到100%的準確預測。
李誌斌的預測離不開兩個核心要素:數據和預測模型。
首先是數據的可靠性。在采訪中,李誌斌說她從6月5438+10月開始每天收集數據。壹開始只有武漢和香港有數據,到現在她每天收集上百個國家和地區的數據。
李誌斌強調,在數據收集和分析過程中,需要識別數據沖突的出現;特別是在官方通報的數據量很大的情況下,會使用包括新聞數據在內的很多方法來檢查不同地區的數據之間可能存在的數據沖突。數據沖突越多,數據可信度越低。
同時,在判斷數據真實性的過程中,要看數據發布的速度;數據發布頻率越高,可信度越高,而南亞和東南亞發布的數據越少、越慢,可信度就會打折扣。
疫情來自美國CDC官網。
此外,在判斷數據可信度時,還可以借用新聞數據進行對比。李誌斌告訴雷鋒。com認為,比如醫生和患者的比例是相對穩定的,所以可以從新聞報道的醫務人員數量來推斷患者數量。
他說,其實所有的數據都可能存在壹些人為誤差或統計誤差,沒有壹個地區的可信度是100%;但相對而言,美國的數據沖突較少,歐洲的數據可靠性低於美國。因為西歐東歐不平衡,所以會取平均值。而印度、東南亞、日本的數據似乎存在壹些問題,比如數據發布慢,數據沖突多,影響了數據可信度的設置。
到2月底,在之前基於國內數據建模驗證的基礎上,李誌斌開始對美國和歐洲的疫情數據進行預測。因此,在這些數據的基礎上,李誌斌創建了壹個預測模型。其實這個模型極其復雜,加起來有上百個參數,包括二三十個重要參數,分為以下三類:
第壹類是不同流行參數的確診病例數、人口數、每日新增確診病例數、疑似病例數、每日檢出病例數、死亡病例數、治愈病例數、住院病例數、住院病例數。
第二類參數與地區/城市/國家的特征有關,如城市類型、人口密度、氣溫、天氣、城市60歲以上老年人比例、城市平均年齡、城市建設等。
第三類參數是關於資源和治理能力、醫療資源、醫院床位數、社會組織能力、信息透明度、管理方式等等。
李誌斌說,在實際操作過程中,壹般是先用Excel采集數據,然後導入後臺數據庫,再用自己開發的軟件模型得出三個結論。最後他會人為判斷結果。他強調,有很多參數是無法量化的,比如社會情緒;所以人們需要參與。
他還說:再好的軟件也不能100%準確預測。
當大船和小船同時遇到冰山時
畢業於清華大學的李誌斌擁有超越數據分析的洞察力和思維。
例如,在建模過程中,李誌斌從國內數據入手,這不僅對李誌斌的建模過程產生了重要影響,也使他做出了壹些觀察。於是,在封城的前壹天,他和清華80的同學分享了兩個想法:
第壹,武漢應該馬上關閉,因為數據上漲太嚇人了;
二是在湖北特別是武漢迅速建立了二三十個網格野戰醫院,作為隔離治療中心,所謂的野戰醫院,也就是後來的方艙醫院。由於疫情發展過於激烈,隔離病人是比治療更關鍵的防控措施。
這些想法在同學中引起了很多討論,當然也有質疑和反對的聲音,但更多的是同學們的積極參與,提出了很多更好的想法和建議,受益匪淺。後來證明這些想法是中肯的,也得到了官方後續措施的印證。其中,關於野戰醫院的設想提前了兩周。
除了以上建議,李誌斌在數據分析和模型構建過程中還發現,成為爆發點的城市往往有幾個特點:
老城區;
氣候潮濕;
氣溫5-15度;
汙水系統老化;
老年人比例高。
值得壹提的是,不同國家的疫情城市,比如中國的武漢、韓國的大邱、意大利的米蘭、伊朗的德黑蘭、美國的紐約等等,壹般都符合這些特征。
至於這些特征的歸因,李誌斌強調其中摻雜了個人主觀合理的猜測,但也是經過壹系列結果的驗證,才最終體現在預測結果中的。
他還表示,其實在參數中,也涉及到社會組織模式、管理模式、社會信息透明度等問題,所以他也會在預測中把結果設定為悲觀或樂觀。
根據李誌斌4月4日給出的悲觀預測結果,他對美國感染人數的總體預測準確率高達96%。
李誌斌對美國感染人數的預測準確率高達96%
然而,在壹次獨家采訪中,李誌斌強調了數據在決策中的絕對地位,盡管有人類的參與。他說,即使不考慮疫情,在壹個日常決策過程中,數據的重要性可以說是100%;這些數據不僅要真實,還要全面透明。即使有人參與後續過程,也是基於這些數據的數據,是決策的基礎。
那麽,基於數據的決策的覆蓋範圍是什麽呢?
李誌斌認為,即使是相當偶然的、包含政治、經濟和其他復雜社會因素的新冠肺炎疫情,也是可以預測的。
他說,類似於傳染病的情況,其發展有特定的模式。偶爾有規律,我們可能無法把握100%的準確規律,但在壹定比例的規律下,我們還是可以做出壹些判斷和決定的。當然,前提是海量的有效數據。
由此,李誌斌還談到了壹個有趣的比喻:
壹艘大船和壹艘小船,突然遇到冰山,必然會轉彎;但相對來說,大船的結局顯然更可預測。小船壹下子就換了,但是大船太大,有慣性,更容易撞到冰山。這個慣性就是定律,船的體積本身就是數據量。
數據量越大,數據越準確,相關信息越透明,就越容易預測,預測這類群體性事件的發生就越準確,李誌斌最後說。
要知道,準確率曾經是100%!更多“清華校友神預測美國疫情”信息,請持續關註深空科技資訊欄目,深空邊肖將持續為您更新更多科技新聞。
本文來源:深空遊戲編輯:匿名王者之心2點擊試玩