今天,我們處在壹個大數據的時代,有時候數據給了我們有力的證明。以下是看了大數據後的2000字。歡迎閱讀!
看了《大數據》2000字1這兩年,大數據和雲計算的思想像小蘋果的音樂壹樣,到處傳播。每個公司,不管是互聯網公司還是傳統企業,都標榜自己的大數據。
1,實體物聯網和虛擬物聯網
曾幾何時,物聯網的概念開始流行。龐大的物聯網可以讓世界上大量的物體被探測到並聯網,包括人、車、房子等可以聯網的物體。這些物體可以以壹種方式被感知,它們的信息可以被記錄下來以供使用。在幾年前,這是壹件看似遙不可及的事情,給每個物體都貼上所謂的RFID標簽也是不現實的。如今,隨著手機的廣泛使用,人類自身也加入了物聯網。為什麽是物聯網?這是為了什麽?要知道物聯網收獲了什麽,只需要看看壹個物體在沒有加入物聯網和加入物聯網之後,我們收獲了什麽。那麽,很明顯,我們需要通過某種方式獲取對象的信息。這些存儲的信息被稱為數據。
物聯網產生的數據是物理對象之間的信息,而現在在互聯網上,數據量最大的是虛擬對象,或者說網絡虛擬對象。由於網絡對象直接寄生在網絡上,具有方便接入網絡的特點,在獲取實體對象的信息仍然困難的情況下,具有很大的優勢。但是,在未來,物理物聯網產生的數據量肯定會增加,也許會超過網絡上與物相連的數據量。
網絡的廣泛使用使得信息的產生和傳播變得容易。每個接入網絡的人都是以某種角色存在的,是網絡上信息的創造者。對於產生的信息,每個接入網絡的人都有多重角色,對於網絡服務提供者來說,他就是網絡使用者的角色;對於門戶來說,他就是用戶;對於社交網站來說,我們扮演的是虛擬或真實的網絡角色;對於壹個瀏覽器來說,他是壹系列的角色,瀏覽網頁,列出鼠標動作……不同的角色取決於對方需要從我們的動作中得到什麽信息。如果把網絡上的各種角色都看成是虛擬物體,那麽由這種虛擬物體組成的虛擬物聯網就會產生海量的數據。我經歷過總是缺乏獲取信息渠道的日子。現在,既然信息獲取變得如此容易,那麽必然會迎來壹個信息爆炸的時代——大數據時代。
2、思維的轉變
隨著技術的改變,我們的思維方式也會改變。在過去的小數據時代,獲取信息、存儲信息、整理信息既費時又費力,所以我們不得不小心翼翼,琢磨如何用最少的成本、最快的方式收集盡可能準確的信息。之所以有抽樣統計的方式,是因為受到技術的限制,不可能獲得所有的樣本,或者即使獲得,也無法在合理的時間內處理。因為獲取信息的成本很高,所以我們必須把壹切都想清楚,才能開始處理。這就好比在計算機早期,用紙袋編碼,壹個錯誤的成本太高,人們要無數次驗證代碼才能輸入。現代計算機大大提高了編碼的效率,這使得人們能夠創建更強大的軟件。人在開始編碼之前不需要對代碼想太多,因為機器會幫妳解決壹些問題。所以,那些擔心人會因為獲取數據太方便,數據處理和分析成本太低而變得懶惰或欠考慮的人,真的是杞人憂天。從歷史上看,技術進步提高了人類的生產力,但並沒有使人變得懶惰,因為與此同時,欲望也增加了。人類只會變得更偉大。
所以在大數據時代,當數據更加全面的時候,我們可以涉足壹些以前因為數據不足而無法覆蓋的領域,比如預測。這是壹個激動人心的領域,但其實這個領域已經出現了,每個人都是受益者。我們平時使用的輸入法中的智能聯想功能,可以根據我們之前輸入的單詞,預測我們接下來可能輸入的單詞,從而節省我們的輸入時間。在這個算法中,沒有人工智能,只有對人的輸入習慣的大量統計。它是通過大量數據的統計來進行預測的統計方式,而不是加入獨特的規則或邏輯。這就引出了大數據時代信息處理的壹種重要方式。基於統計學,我們可以得到不同個體的相關性,但不需要了解它們的因果關系,我們從相關性中獲益。這種方式,看似投機取巧,卻能在關鍵時刻給我們帶來優勢。我們習慣於先知道壹件事情的因果邏輯,然後再推斷出相應的結果。但是,總會有壹些無法用合理邏輯解釋的現象。如果能跳過邏輯階段,直接通過大數據分析享受壹些結果(沃爾瑪的啤酒和紙尿褲的案例),豈不是很好玩?當然,嚴謹的邏輯總是值得尊重的。
3.互聯網的粘性
在廣度上通過新花樣吸引用戶的時代,由於技術的提升,壹個創業者在壹個新的領域開拓出來的東西很容易被別人復制。這個時候,深度就很重要了。尤其是購物網站、微利網站、門戶網站等信息量大的網站,對壹個用戶了解的越多,優勢就越大。所以,在技術不再是最重要因素的時代,如何增加用戶的粘性和忠誠度才是第壹要務。通過用戶之前的信息,我們可以推斷出用戶的喜好,並向用戶推薦相應的信息或物品。當妳比較了解壹個用戶,而別人不了解,這個用戶就會離不開妳。有他的智能排序功能,有新聞門戶的“今日頭條”應用,有他在各種購物網站的推薦算法(但這純粹是為了增加消費而不是增加用戶粘性),可以根據用戶之前的瀏覽和喜好給出相應的推薦。這些的基礎是要有用戶的行為記錄,否則無從談起。
各行各業都在瘋狂地抓住機會獲取數據,擁有足夠的數據,那麽壹切都變得可能。
2000字讀完《大數據》2過去的壹切都是前奏,這是大數據行業最喜歡引用的壹句話。大數據是當前的趨勢,大數據時代被認為是理解大數據的初級讀物。最近連續看了兩遍,第二遍是寫這篇評論。總的來說,值得壹讀,但細節需要討論。
維基百科對大數據的解釋:大數據,或稱巨量數據、海量數據、大數據,是指涉及的數據量巨大,無法在合理的時間內被截取、管理、處理、整理成人類可以解讀的信息。
有人說,現在是讀圖時代。除了小說和心靈雞湯,現在大部分暢銷書都有圖片。這本書是個特例。
首先試著分析壹下作者的三個觀點,是大數據行業喜歡引用的三句話:
1不是隨機樣本,而是全部數據。
我想每個人都可以意識到,對所有數據的分析要比隨機樣本的分析更好,但現實中我們往往無法得到所有的數據:首先,數據收集方法,每種方法都有其適用範圍,不可能面面俱到;第二,從數據分析來看,戰鬥機只能數返航飛機上的彈孔,墜毀的不能。沃德通過分析飛行中的戰鬥機,得出最有可能導致墜機的薄弱點。第三,處理能力跟不上,就像之前的天氣預報因為來不及計算那些數據,所以太離譜了。“抽樣分析是信息匱乏時代的產物,是信息流通受限的模擬數據時代的產物”,作者顯然只關註了壹部分原因。
從語言理解的角度來看,所有的數據是什麽,無論是“我們需要的所有數據”還是“我們能收集的所有數據”,在書中的很多商業案例中,我們只處理“我們能收集的所有數據”或者“我們認為的所有數據”。人對自然的認識總是有限的,存在主義認為世界沒有終極目標。比如“Farecast用各航空公司壹整年的價格數據做了壹個預測”,“壹整年”就是壹個樣本,或者“我們需要的所有數據”。
從歷史的角度來看,托勒密在國外修建亞歷山大圖書館的唯壹目的就是“集天下之書”,實現“集天下之知識”的夢想。在中國,乾隆編纂了四部藏書,每部藏書過程都有主觀因素。當時,他們都認為他們可以收集所有的書籍。最終,我們沒有得到那個夢裏所有的書。
不是準確,而是雜糅。
由於我們過去壹直在抽樣,所以它處於壹個置信水平,有壹個明確的公差或偏差。人類將永遠知道我們是在精確度有限的情況下工作的。同時,作者本人也承認“錯誤並不是大數據的固有特征,而是壹個需要我們迫切處理的現實問題,而且可能會長期存在”。大數據的特征是精確的還是混合的?
這就引出壹個問題,如何控制大數據的質量:第壹,不要求準確,但不準確到什麽程度,需要定義,否則就是壹塌糊塗。換個角度,如果定義了容差,滿足條件的都是精確的(還是我還停留在小數據時代?這裏的邏輯我還沒理順。就像質量管理大師克羅斯比提出零缺陷理論,我壹直認為是個偽命題,缺陷肯定存在,就看怎麽定義;第二,大量非結構化數據的處理,比如新聞的量化、情感分析,在非SQL的應用上還有巨大的提升空間。
“出問題不會是瞬間的,而是慢慢出問題的”。我們可以通過找到壹個關聯並監控它來預測未來。當然,我同意這種說法,但這並不意味著我們可以放棄準確性,只是我們需要重新定義準確性。對於項目管理行業來說,如果壹個項目出現了嚴重的問題,我們相信壹定是很多因素和流程環節出現了問題,我們已經失去了很多挽回的機會。而如果壹味的容忍雜合,結果顯然是不可接受的。
3不是因果關系,而是相關性。
這是本書對大數據理論最大的貢獻,也是最有爭議的地方。連翻譯都看不下去了。
我對這種關系太熟悉了。小學的算命是典型的“不是因果關系,而是相關性”。算命其實就是趨勢的總結。在給定的條件下,它會告訴妳需要遠離什麽,需要靠近什麽,但不會告訴妳為什麽要這麽做。
我們經常談論科學,然而,什麽是科學,沒有人能說清楚。我對科學的理解是:第壹,有明確的範圍;第二,在這個範圍內建立壹個強制的、正確的公理;第三,有明確的推演流程;四個可以復制。科學的霸權體現在把壹切不符合這四個條件的都斥為偽科學和封建迷信,用不符合前兩個條件的來排斥自己的壹切錯誤。從這個定義來看,大數據不符合科學。
混沌理論中的蝴蝶效應主要集中在關聯上。它指的是對初始條件敏感性的依賴。輸入端的微小差異會迅速放大到輸出端,但誰也不知道能輸出什麽。
人類壹旦放棄了對因果關系的追求,也就放棄了自己最優秀的品質:意誌力。很多人不願意相信算命是擔心壹旦知道自己的命運就無法再抗爭了。即使我相信算命,我也在探究相關關系中的因果因素。我放棄第壹份工作的原因之壹,就是厭倦了這樣壹個確定的明天:壹個任務發出去,我大概就能預測到哪個環節會出問題。只要我不跟,這些環節十有八九會出問題。
分析完這三個觀點,下面是對大數據理論的幾點質疑。大數據是當前流行的回饋經濟的重要組成部分,在金融和互聯網行業應用廣泛,都被認為是高薪領域。很多時候我都在想,所謂的看不見的手產生的趨勢是不是看不見的。比如幾家公司推壹個概念,說是趨勢,很快就真的成了趨勢。身邊活生生的例子就是天貓的雙十壹和京東。COM的618。壹個巨頭開路,無數人跟風,自然造就了壹個購物節。至於是否合理,追究起來意義不大,因為很多東西是不可比的。這和沒有強制控制中心的蜂群思維不同。
看完這本書,我總覺得作者說的太絕對,也許是我的理解太膚淺,所以在誘惑下我最後總結道:
情不可竭,竭則禍不單行。
福報不能窮盡,窮盡了就孤獨了。
不能什麽都說,但是什麽都說很容易。
規則不可行,做了事情會很復雜。
;