各類科學(xué),包括化學(xué)乃至數(shù)學(xué)都憑借著一種特定語言的出現(xiàn)而獲得巨大的推動作用。很明顯,我們必須在大數(shù)據(jù)找到同樣值得依賴的特定語言,從而像使用代數(shù)符號以及合適的編程語言那樣更好地對其加以分析。以下是小編為你整理的大數(shù)據(jù)高級學(xué)習(xí)教程
?
隨著可用數(shù)據(jù)量的不斷增長,我們必須有效區(qū)分大數(shù)據(jù)的信號以及有價值信息。遺憾的是,截至目前仍有很多企業(yè)難以找到最理想的數(shù)據(jù)以及具體使用方式。這區(qū)分無效數(shù)據(jù)與保障數(shù)據(jù)質(zhì)量已經(jīng)成為一大關(guān)鍵性難題。 ?
數(shù)據(jù)訪問與連接性同樣是一大障礙。麥肯錫公司調(diào)查顯示,目前仍有大量數(shù)據(jù)點(diǎn)未能接入網(wǎng)絡(luò),因此企業(yè)往往還不具備管理整體業(yè)務(wù)所必需的數(shù)據(jù)平臺。
?
如果說大數(shù)據(jù)的起步階段是在同“簡單”數(shù)據(jù)作斗爭(例如數(shù)字表以及圖形等),那么如今需要處理的數(shù)據(jù)正變得愈發(fā)復(fù)雜:圖片、視頻以及對物理乃至生活環(huán)境的描述等等。因此,我們有必要重新審視并構(gòu)建大數(shù)據(jù)工具及架構(gòu),用以捕捉、存儲并分析多樣性數(shù)據(jù)。 ?
時間維度亦是大數(shù)據(jù)發(fā)展中的一大重要挑戰(zhàn),即如何分析長期因果關(guān)系,而不僅僅是處理實(shí)時數(shù)據(jù)流。*,這一問題亦會給存儲領(lǐng)域帶來挑戰(zhàn)。我們需要認(rèn)真選擇以切實(shí)承載如此龐大的數(shù)據(jù)存儲量 ?
數(shù)據(jù)世界的技術(shù)環(huán)境正在快速發(fā)展,因此能夠有價值數(shù)據(jù)的前提在于同擁有強(qiáng)大創(chuàng)新能力的技術(shù)伙伴開展合作,從而建立正確的IT架構(gòu)以高效適應(yīng)各類變化因素。 ?
怎樣才算是大數(shù)據(jù) ?
大數(shù)據(jù)(bigdata,megadata)或稱巨量資料,指的是需要新處理模式才能具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數(shù)據(jù)時代》中大數(shù)據(jù)指不用隨機(jī)分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理。大數(shù)據(jù)的5V特點(diǎn):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值密度)、Veracity(真實(shí)性)。 ?
大數(shù)據(jù)的4個“V”,或者說特點(diǎn)有四層面:*,數(shù)據(jù)體量巨大,從TB級別,躍升到PB級別。第二,數(shù)據(jù)類型繁多,前文提到的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。 ?
第三,價值密度低,以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。
?
第四,處理速度快,1秒定律。*這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。業(yè)界將其歸納為4個“V”——Volume,Variety,Value,Velocity。 ?
大數(shù)據(jù)的價值體現(xiàn)在以下幾個方面:1、對大量消費(fèi)者提供產(chǎn)品或服務(wù)的企業(yè)可以利用大數(shù)據(jù)進(jìn)行精準(zhǔn)營銷。2、做小而美模式的中長尾企業(yè)可以利用大數(shù)據(jù)做服務(wù)轉(zhuǎn)型。3、面臨互聯(lián)網(wǎng)壓力之下必須轉(zhuǎn)型的傳統(tǒng)企業(yè)需要與時俱進(jìn)充分利用大數(shù)據(jù)的價值。 ?
物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。在一些觀察者眼中,大數(shù)據(jù)已成為勞動力和資本之外的第三生產(chǎn)力。而懷疑者稱,大數(shù)據(jù)會威脅到知識產(chǎn)權(quán),威脅到隱私保護(hù),無法形成氣候。 ?
通過以上描述,大家也了解到大數(shù)據(jù)是什么意思。對于*而言,海量的互聯(lián)網(wǎng)用戶為大家提供大規(guī)模的數(shù)據(jù)量,目前各大企業(yè)的競爭優(yōu)勢都體現(xiàn)在信息的占有和處理方面。這種趨勢在世界范圍內(nèi)不可避免,在市場競爭中,只有從大數(shù)據(jù)中獲取最有價值信息的企業(yè)才能獲勝。 ?
實(shí)時數(shù)據(jù)流處理和批量數(shù)據(jù)處理 ?
●在細(xì)節(jié)評估和數(shù)據(jù)格式和模型后選擇適當(dāng)?shù)臄?shù)據(jù)處理框架。 ?
●其中一些框架適用于批量數(shù)據(jù)處理,而另外一些適用于實(shí)時數(shù)據(jù)處理。 ?
●同樣一些框架使用內(nèi)存模式,另外一些是基于磁盤io處理模式。 ?
●有些框架擅長高度并行計算,這樣能夠大大提高數(shù)據(jù)效率。 ?
●基于內(nèi)存的框架性能明顯優(yōu)于基于磁盤io的框架,但是同時成本也可想而知。 ?
●概括地說,當(dāng)務(wù)之急是選擇一個能夠滿足需求的框架。否則就有可能既無法滿足功能需求也無法滿足非功能需求,當(dāng)然也包括性能需求。 ?
●一些這些框架將數(shù)據(jù)劃分成較小的塊。這些小數(shù)據(jù)塊由各個作業(yè)獨(dú)立處理。協(xié)調(diào)器管理所有這些獨(dú)立的子作業(yè) ?
●在數(shù)據(jù)分塊是需要當(dāng)心。 ?
●該數(shù)據(jù)快越小,就會產(chǎn)生越多的作業(yè),這樣就會增加系統(tǒng)初始化作業(yè)和清理作業(yè)的負(fù)擔(dān)。 ?
●如果數(shù)據(jù)快太大,數(shù)據(jù)傳輸可能需要很長時間才能完成。這也可能導(dǎo)致資源利用不均衡,長時間在一臺服務(wù)器上運(yùn)行一個大作業(yè),而其他服務(wù)器就會等待。 ?
●不要忘了查看一個任務(wù)的作業(yè)總數(shù)。在必要時調(diào)整這個參數(shù)。 ?
●*實(shí)時監(jiān)控數(shù)據(jù)塊的傳輸。在本機(jī)機(jī)型io的效率會更高,這么做也會帶來一個副作用就是需要將數(shù)據(jù)塊的冗余參數(shù)提高(一般hadoop默認(rèn)是3份)這樣又會反作用使得系統(tǒng)性能下降。 ?
●此外,實(shí)時數(shù)據(jù)流需要與批量數(shù)據(jù)處理的結(jié)果進(jìn)行合并。設(shè)計系統(tǒng)時盡量減少對其他作業(yè)的影響。 ?
●大多數(shù)情況下同一數(shù)據(jù)集需要經(jīng)過多次計算。這種情況可能是由于數(shù)據(jù)抓取等初始步驟就有報錯,或者某些業(yè)務(wù)流程發(fā)生變化,值得一提的是舊數(shù)據(jù)也是如此。設(shè)計系統(tǒng)時需要注意這個地方的容錯。 ?
●這意味著你可能需要存儲原始數(shù)據(jù)的時間較長,因此需要更多的存儲。 ?
●數(shù)據(jù)結(jié)果輸出后應(yīng)該保存成用戶期望看到的格式。例如,如果最終的結(jié)果是用戶要求按照每周的時間序列匯總輸出,那么你就要將結(jié)果以周為單位進(jìn)行匯總保存。 ?
●為了達(dá)到這個目標(biāo),大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)庫建模就要在滿足用例的前提下進(jìn)行。例如,大數(shù)據(jù)系統(tǒng)經(jīng)常會輸出一些結(jié)構(gòu)化的數(shù)據(jù)表,這樣在展示輸出上就有很大的優(yōu)勢。 ?
●更常見的是,這可能會這將會讓用戶感覺到性能問題。例如用戶只需要上周的數(shù)據(jù)匯總結(jié)果,如果在數(shù)據(jù)規(guī)模較大的時候按照每周來匯總數(shù)據(jù),這樣就會大大降低數(shù)據(jù)處理能力。 ?
●一些框架提供了大數(shù)據(jù)查詢懶評價功能。在數(shù)據(jù)沒有在其他地方被使用時效果不錯。 ?
●實(shí)時監(jiān)控系統(tǒng)的性能,這樣能夠幫助你預(yù)估作業(yè)的完成時間。 ?