相信大家經(jīng)常聽(tīng)到“大數(shù)據(jù)”這個(gè)詞,仿佛帶了一個(gè)“大”字我們就難以理解其中的含義。都說(shuō)當(dāng)今世界是大數(shù)據(jù)的時(shí)代,只有掌控大數(shù)據(jù)才能贏得這場(chǎng)各行各業(yè)之間的戰(zhàn)爭(zhēng)。其實(shí)簡(jiǎn)單而言,我們現(xiàn)在所知的電商,諸如淘寶、京東等無(wú)不靠著大數(shù)據(jù)支撐,具體而言,大數(shù)據(jù)是什么意思?以下是小編為你整理的現(xiàn)在學(xué)習(xí)大數(shù)據(jù)怎么樣學(xué) ?
大數(shù)據(jù)(bigdata,megadata)或稱巨量資料,指的是需要新處理模式才能具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。在維克托·邁爾-舍恩伯格及肯尼斯·庫(kù)克耶編寫(xiě)的《大數(shù)據(jù)時(shí)代》中大數(shù)據(jù)指不用隨機(jī)分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理。大數(shù)據(jù)的5V特點(diǎn):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值密度)、Veracity(真實(shí)性)。 ?
大數(shù)據(jù)的4個(gè)“V”,或者說(shuō)特點(diǎn)有四層面:*,數(shù)據(jù)體量巨大,從TB級(jí)別,躍升到PB級(jí)別。第二,數(shù)據(jù)類型繁多,前文提到的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。 ?
第三,價(jià)值密度低,以視頻為例,連續(xù)不間斷監(jiān)控過(guò)程中,可能有用的數(shù)據(jù)僅僅有一兩秒。
?
第四,處理速度快,1秒定律。*這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。業(yè)界將其歸納為4個(gè)“V”——Volume,Variety,Value,Velocity。 ?
大數(shù)據(jù)的價(jià)值體現(xiàn)在以下幾個(gè)方面:1、對(duì)大量消費(fèi)者提供產(chǎn)品或服務(wù)的企業(yè)可以利用大數(shù)據(jù)進(jìn)行精準(zhǔn)營(yíng)銷(xiāo)。2、做小而美模式的中長(zhǎng)尾企業(yè)可以利用大數(shù)據(jù)做服務(wù)轉(zhuǎn)型。3、面臨互聯(lián)網(wǎng)壓力之下必須轉(zhuǎn)型的傳統(tǒng)企業(yè)需要與時(shí)俱進(jìn)充分利用大數(shù)據(jù)的價(jià)值。 ?
大數(shù)據(jù)的學(xué)習(xí)階段 ?
*階段:大數(shù)據(jù)前沿知識(shí)及hadoop入門(mén),大數(shù)據(jù)前言知識(shí)的介紹,課程的介紹,Linux和unbuntu系統(tǒng)基礎(chǔ),hadoop的單機(jī)和偽分布模式的安裝配置。 ?
第二階段:hadoop部署進(jìn)階。Hadoop集群模式搭建,hadoop分布式文件系統(tǒng)HDFS深入剖析。使用HDFS提供的api進(jìn)行HDFS文件操作。Mapreduce概念及思想。 ?
第三階段:大數(shù)據(jù)導(dǎo)入與存儲(chǔ)。mysql數(shù)據(jù)庫(kù)基礎(chǔ)知識(shí),hive的基本語(yǔ)法。hive的架構(gòu)及設(shè)計(jì)原理。hive部署安裝與案例。sqoop安裝及使用。sqoop組件導(dǎo)入到hive。
?
第四階段:Hbase理論與實(shí)戰(zhàn)。Hbase簡(jiǎn)介。安裝與配置。hbase的數(shù)據(jù)存儲(chǔ)。項(xiàng)目實(shí)戰(zhàn)。 ?
第五階段:Spaer配置及使用場(chǎng)景。scala基本語(yǔ)法。spark介紹及發(fā)展歷史,spark stant a lone模式部署。sparkRDD詳解。 ?
第六階段:spark大數(shù)據(jù)分析原理。spark內(nèi)核,基本定義,spark任務(wù)調(diào)度。sparkstreaming實(shí)時(shí)流計(jì)算。sparkmllib機(jī)器學(xué)習(xí)。sparksql查詢。 ?
Spark(內(nèi)存DAG計(jì)算模型) ?
Spark是一個(gè)Apache項(xiàng)目,它被標(biāo)榜為“快如閃電的集群計(jì)算”。它擁有一個(gè)繁榮的開(kāi)源社區(qū),并且是目前最活躍的Apache項(xiàng)目。 ?
最早Spark是UC Berkeley AMP lab所開(kāi)源的類Hadoop MapReduce的通用的并行計(jì)算框架。 ?
Spark提供了一個(gè)更快、更通用的數(shù)據(jù)處理平臺(tái)。和Hadoop相比,Spark可以讓你的程序在內(nèi)存中運(yùn)行時(shí)速度提升100倍,或者在磁盤(pán)上運(yùn)行時(shí)速度提升10倍 ?
Giraph(圖計(jì)算模型) ?
Apache Giraph是一個(gè)可伸縮的分布式迭代圖處理系統(tǒng), 基于Hadoop平臺(tái),靈感來(lái)自 BSP (bulk synchronous parallel) 和 Google 的 Pregel。 ?
最早出自雅虎。雅虎在開(kāi)發(fā)Giraph時(shí)采用了Google工程師2010年發(fā)表的論文《Pregel:大規(guī)模圖表處理系統(tǒng)》中的原理。后來(lái),雅虎將Giraph捐贈(zèng)給Apache軟件基金會(huì)。 ?
目前所有人都可以下載Giraph,它已經(jīng)成為Apache軟件基金會(huì)的開(kāi)源項(xiàng)目,并得到Facebook的支持,獲得多方面的改進(jìn)。 ?
GraphX(圖計(jì)算模型) ?
Spark GraphX*是伯克利AMPLAB的一個(gè)分布式圖計(jì)算框架項(xiàng)目,目前整合在spark運(yùn)行框架中,為其提供BSP大規(guī)模并行圖計(jì)算能力。 ?
MLib(機(jī)器學(xué)習(xí)庫(kù)) ?
Spark MLlib是一個(gè)機(jī)器學(xué)習(xí)庫(kù),它提供了各種各樣的算法,這些算法用來(lái)在集群上針對(duì)分類、回歸、聚類、協(xié)同過(guò)濾等。 ?