隨著互聯(lián)網(wǎng)的發(fā)展,大數(shù)據(jù)、云計算等名詞也進入我們的生活的方方面面,那么什么是大數(shù)據(jù)?什么又是云計算?下面給大家講解大數(shù)據(jù)是什么。以下是小編為你整理的怎樣學習大數(shù)據(jù) ?
大數(shù)據(jù)是什么? ?
就字面意思理解就是大量的數(shù)據(jù)的意思;深入理解大數(shù)據(jù)是對信息資源和數(shù)據(jù)的集合,利用這些數(shù)據(jù)和信息資源分析出有用的資源,這就是大數(shù)據(jù)。 ?
容量 ?
大數(shù)據(jù)作為信息的集合,它包含了很多潛在的信息,以及各個不同行業(yè)的信息,這些信息就是大數(shù)據(jù)的容量和價值。
?
種類 ?
大數(shù)據(jù)的種類有很多,因為它是一個信息的合集,因此它包含多種類別的分析。 ?
可變性 ?
大數(shù)據(jù)不是一成不變的,隨著時間和空間的變化,大數(shù)據(jù)也會跟著變化。 ?
復(fù)雜性 ?
由于大數(shù)數(shù)量巨大,來源的渠道有很多,因此它表現(xiàn)出很強的復(fù)雜性。 ?
價值 ?
利用大數(shù)據(jù)可以分析和反映一個行業(yè)或者一個市場的一些規(guī)律,抓住這些規(guī)律,就可以產(chǎn)生價值。 ?
? ?
大數(shù)據(jù)的用途 ?
大數(shù)據(jù)可分成大數(shù)據(jù)技術(shù)、大數(shù)據(jù)工程、大數(shù)據(jù)科學和大數(shù)據(jù)應(yīng)用等領(lǐng)域。目前人們談?wù)撟疃嗟氖谴髷?shù)據(jù)技術(shù)和大數(shù)據(jù)應(yīng)用。工程和科學問題尚未被重視。大數(shù)據(jù)工程指大數(shù)據(jù)的規(guī)劃建設(shè)運營管理的系統(tǒng)工程;大數(shù)據(jù)科學關(guān)注大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展和運營過程中發(fā)現(xiàn)和驗證大數(shù)據(jù)的規(guī)律及其與自然和社會活動之間的關(guān)系。 ?
物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。 ?
有些例子包括網(wǎng)絡(luò)日志,RFID,傳感器網(wǎng)絡(luò),社會網(wǎng)絡(luò),社會數(shù)據(jù)(由于數(shù)據(jù)革命的社會),互聯(lián)網(wǎng)文本和文件;互聯(lián)網(wǎng)搜索索引;呼叫詳細記錄,天文學,大氣科學,基因組學,生物地球化學,生物,和其他復(fù)雜和/或跨*的科研,軍事偵察,醫(yī)療記錄;攝影檔案館視頻檔案;和大規(guī)模的電子商務(wù) 。 ?
? ?
Hadoop ?
這是現(xiàn)在流行的大數(shù)據(jù)處理平臺幾乎已經(jīng)成為大數(shù)據(jù)的代名詞,所以這個是必學的。Hadoop里面包括幾個組件HDFS、MapReduce和YARN,HDFS是存儲數(shù)據(jù)的地方就像我們電腦的硬盤一樣文件都存儲在這個上面,MapReduce是對數(shù)據(jù)進行處理計算的,它有個特點就是不管多大的數(shù)據(jù)只要給它時間它就能把數(shù)據(jù)跑完,但是時間可能不是很快所以它叫數(shù)據(jù)的批處理。
?
YARN是體現(xiàn)Hadoop平臺概念的重要組件有了它大數(shù)據(jù)生態(tài)體系的其它軟件就能在hadoop上運行了,這樣就能更好的利用HDFS大存儲的優(yōu)勢和節(jié)省更多的資源比如我們就不用再單獨建一個spark的集群了,讓它直接跑在現(xiàn)有的hadoop yarn上面就可以了。其實把Hadoop的這些組件學明白你就能做大數(shù)據(jù)的處理了,只不過你現(xiàn)在還可能對"大數(shù)據(jù)"到底有多大還沒有個太清楚的概念,聽我的別糾結(jié)這個。 ?
等以后你工作了就會有很多場景遇到幾十T/幾百T大規(guī)模的數(shù)據(jù),到時候你就不會覺得數(shù)據(jù)大真好,越大越有你頭疼的。當然別怕處理這么大規(guī)模的數(shù)據(jù),因為這是你的價值所在,讓那些個搞Javaee的php的html5的和DBA的羨慕去吧。 ?
? ?
學了大數(shù)據(jù)能做啥 ?
故障率分析 ?
服務(wù)器故障分析對服務(wù)器的各個部件的故障率都做了分析和監(jiān)控,包括 ?
生成月度故障率報表; ?
故障率異常的實時監(jiān)控和自動告警; ?
分析外部條件與故障率的關(guān)系; ?
與OS的軟件告警信息聯(lián)動起來,及時發(fā)現(xiàn)服務(wù)器的亞健康狀態(tài)。 ?
服務(wù)器硬件最近幾周的故障率統(tǒng)計信息。按部件給出各個機型的故障率情況,及時發(fā)現(xiàn)批次性故障并給出告警 ?
環(huán)境監(jiān)控 ?
如果能把機房環(huán)境溫度有效的監(jiān)控起來,我們就能在發(fā)現(xiàn)異常時發(fā)出高溫告警,提前采取措施。對服務(wù)器入風口溫度進行采集和監(jiān)控是一個較為有效的方案。 ?
下圖顯示服務(wù)器入風口溫度變化的異常情況,經(jīng)過數(shù)據(jù)的規(guī)整和誤差修正,產(chǎn)生了高溫告警。通過自動化流程,及時知會到機房現(xiàn)場負責人。 ?