《大數(shù)據(jù)時(shí)代》是英國(guó)維克托·邁爾-舍恩伯格教授的著作,被公認(rèn)為是國(guó)內(nèi)外大數(shù)據(jù)研究的先河之作。作者通過(guò)枚舉了上百個(gè)例子,對(duì)大數(shù)據(jù)的方方面面進(jìn)行了系統(tǒng)、詳細(xì)解說(shuō),讓每一名讀者,即使是外行也能很容易理解,直觀感受到大數(shù)據(jù)給社會(huì)和生活帶來(lái)的改變。
在本書(shū)中,對(duì)于大數(shù)據(jù)時(shí)代,作者主要提出了三個(gè)核心觀點(diǎn): 1、要全體不要抽樣。分析與某事物相關(guān)的所有數(shù)據(jù),而不是依靠分析少量的數(shù)據(jù)樣本。2、要效率不要絕對(duì)精確。我們樂(lè)于接受數(shù)據(jù)的紛繁復(fù)雜,而不再追求精確性。3、要相關(guān)不要因果。我們不再探求難以捉摸的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。
這三個(gè)觀點(diǎn)在某種程度上顛覆了我們的傳統(tǒng)思想。
要全體不要抽樣:
傳統(tǒng)的統(tǒng)計(jì)學(xué)方法是解決如何通過(guò)選取少量樣本,通過(guò)對(duì)樣本的分析,然后推斷整體的趨勢(shì)和規(guī)律。而大數(shù)據(jù)時(shí)代告訴我們“樣本=全體”,在很多時(shí)候,我們不再需要費(fèi)心去考慮樣本抽樣、數(shù)據(jù)過(guò)濾等問(wèn)題。我們利用大量數(shù)據(jù),甚至是所有數(shù)據(jù),然后用算法去計(jì)算分析,從而更精準(zhǔn)的找到各個(gè)因素之間的相關(guān)關(guān)系(不是因果關(guān)系),以發(fā)現(xiàn)數(shù)據(jù)之間的規(guī)律。
要效率不要絕對(duì)精確:
在傳統(tǒng)的統(tǒng)計(jì)學(xué)中,由于抽樣的限制,研究往往會(huì)對(duì)精確度做很?chē)?yán)格的要求,譬如置信區(qū)間的概念。而大數(shù)據(jù)時(shí)代會(huì)把這些條件放的更寬松。我們要學(xué)會(huì)在精度和效率之前做取舍,要能夠容忍錯(cuò)誤,學(xué)會(huì)在瞬息萬(wàn)變的信息中掌握趨勢(shì),為下一刻的決策提供依據(jù),這就夠了。正如作者所說(shuō):“接受數(shù)據(jù)的不精確和不完美,我們反而能夠更好地進(jìn)行預(yù)測(cè),也能夠更好地理解這個(gè)世界!
要相關(guān)不要因果:
這個(gè)觀點(diǎn)也區(qū)別于我們傳統(tǒng)的教育理念。我們習(xí)慣于“打破砂鍋問(wèn)到底”、“舉一反三”式的教育方式。當(dāng)我們找到了自以為是的答案時(shí),其實(shí)可能只是冰山一角,探索事物背后本質(zhì)的動(dòng)機(jī)不能停止。但大數(shù)據(jù)時(shí)代告訴我們要放棄對(duì)因果關(guān)系的渴求,取而代之關(guān)注相關(guān)關(guān)系。也就是說(shuō)只要知道“是什么”,而不需要知道“為什么”。
上述作者提出的三個(gè)觀點(diǎn)對(duì)于大數(shù)據(jù)的發(fā)展具有深遠(yuǎn)的指導(dǎo)意義。我也深信這三個(gè)觀點(diǎn)在未來(lái)也將長(zhǎng)久地改變著我們的社會(huì)和生活。對(duì)于大數(shù)據(jù),接下來(lái)我也想談一談個(gè)人的理解和認(rèn)識(shí)。
大數(shù)據(jù)時(shí)代,統(tǒng)計(jì)學(xué)依然是數(shù)據(jù)分析的靈魂。大數(shù)據(jù)時(shí)代提出的觀點(diǎn)是“樣本=全體”,因此,有一部分人甚至拋出了大數(shù)據(jù)時(shí)代統(tǒng)計(jì)無(wú)用的觀點(diǎn)。他們認(rèn)為數(shù)據(jù)中包含了所有的意義,只要計(jì)算能力足夠強(qiáng)大,就不需要什么理論。但是他們似乎忘了,數(shù)據(jù)≠信息。一方面,大數(shù)據(jù)采集的數(shù)據(jù)是原油而非汽油,不能夠直接拿來(lái)使用,另一方面,大數(shù)據(jù)中“全”的概念本身就難以界定!叭痹谀撤N意義上也是一種邊界。但如何確定這種邊界進(jìn)而進(jìn)行數(shù)據(jù)的全面收集,本身就是一件困難的事情。因此,在大數(shù)據(jù)時(shí)代,數(shù)據(jù)分析的很多根本性問(wèn)題和小數(shù)據(jù)時(shí)代并沒(méi)有本質(zhì)區(qū)別。它在某種程度上是樣本的無(wú)限放大。
大數(shù)據(jù)的根基是“數(shù)據(jù)”。數(shù)據(jù)是大數(shù)據(jù)發(fā)展的前提。如果沒(méi)有有效的數(shù)據(jù),大數(shù)據(jù)技術(shù)也只是空中樓閣。因此,一方面,如何積累豐富的數(shù)據(jù)資源,是我們急需解決的問(wèn)題,另一方面,對(duì)于已有的數(shù)據(jù)資源,如何有效地利用,提高數(shù)據(jù)標(biāo)準(zhǔn)化、準(zhǔn)確性、完整性水平,也需要我們思考。就目前來(lái)看,大數(shù)據(jù)的未來(lái)更加關(guān)注的是“社會(huì)化大數(shù)據(jù)”,即人和人的關(guān)系、人和數(shù)據(jù)之間的關(guān)系。通過(guò)對(duì)社會(huì)化數(shù)據(jù)分析,使得我們能夠?qū)θ恕⑸鐣?huì)和商業(yè)有更加深入的理解。這也解釋了為什么在美國(guó),很多人認(rèn)為Facebook的價(jià)值在某種程度上要大于谷歌。因此,企業(yè)在日常運(yùn)行中,要注重積累這方面的數(shù)據(jù)資源,同時(shí)要配套相應(yīng)的數(shù)據(jù)采集標(biāo)準(zhǔn)和方法,最大程度提高數(shù)據(jù)利用價(jià)值。
大數(shù)據(jù)的關(guān)鍵是處理。大數(shù)據(jù)的核心價(jià)值是預(yù)測(cè)。但大數(shù)據(jù)的特點(diǎn)對(duì)數(shù)據(jù)分析的確提出了全新挑戰(zhàn)。面對(duì)海量的數(shù)據(jù),如何尋找快速有效的方法進(jìn)行分析挖掘,為我們的決策提供依據(jù)也是擺在我們面前的一個(gè)難題。對(duì)此問(wèn)題,一方面我們可以結(jié)合傳統(tǒng)統(tǒng)計(jì)方法,對(duì)結(jié)構(gòu)復(fù)雜、來(lái)源多樣的數(shù)據(jù)建立有效統(tǒng)計(jì)模型,先行對(duì)數(shù)據(jù)進(jìn)行加工處理。另一方面,需要開(kāi)發(fā)先進(jìn)的軟件平臺(tái)和算法,例如目前已有的Hadoop、MapReduce等,盡可能用低成本和擴(kuò)拓展的方式處理大數(shù)據(jù)。
總而言之,大數(shù)據(jù)很精彩。對(duì)于企業(yè)來(lái)講,一方面需要挖掘更多創(chuàng)造數(shù)據(jù)的渠道,另一方面要提升數(shù)據(jù)處理挖掘的能力,最為關(guān)鍵的是找到數(shù)據(jù)和應(yīng)用的結(jié)合點(diǎn),這樣才能乘著大數(shù)據(jù)東風(fēng),讓企業(yè)發(fā)展更上一個(gè)臺(tái)階。
來(lái)源:網(wǎng)絡(luò)整理 免責(zé)聲明:本文僅限學(xué)習(xí)分享,如產(chǎn)生版權(quán)問(wèn)題,請(qǐng)聯(lián)系我們及時(shí)刪除。