從數(shù)據(jù)的收集開始,到整理歸類發(fā)現(xiàn)其隱藏的信息,再到做出分析報告,都沒有概念,我們面對日益發(fā)展的環(huán)境,又該如何進行數(shù)據(jù)分析呢?以下是小編為你整理的大數(shù)據(jù)都學(xué)什么 ?
首先,先從采購角度入手,為采購提供數(shù)據(jù)支持,分析市場行情判斷采購節(jié)點,想任何工作盡可能更加專業(yè)化發(fā)展,不再依靠經(jīng)驗而是靠數(shù)據(jù)說話; ?
其次,要掌握專業(yè)的數(shù)據(jù)分析和挖掘技能,乃至于成為數(shù)據(jù)科學(xué)家,是非常非常艱難的,從零基礎(chǔ)、在短時間內(nèi)提升數(shù)據(jù)獲取、數(shù)據(jù)分析、數(shù)據(jù)可視化的水平,是完全可能的; ?
接著,數(shù)據(jù)分析都無疑是一項重中之重的技能,不僅是技術(shù)層面,更包括思維層面;
?
然后,從零學(xué)會大數(shù)據(jù)核心,數(shù)據(jù)分析系列課程,Udacity-Data Analyst相關(guān)課程,Excel知識,統(tǒng)計學(xué)知識; ?
再次,入門一個新領(lǐng)域時,有一個前輩幫你及時糾正錯誤方向,還有一群互相鼓勵的小伙伴們是很有必要的; ?
*,每月月會寫一份當月學(xué)習總結(jié),囊括對知識的掌握和時間安排方面的感悟,并及時對計劃做出適當?shù)恼{(diào)整,詳細規(guī)劃下個月學(xué)習任務(wù)的時間安排; ?
云端的大數(shù)據(jù) ?
“云”其實指的是多臺虛擬服務(wù)器的組合,云為不同的使用者提供一個計算的平臺。這就是IaaS(基礎(chǔ)設(shè)置即服務(wù)),亞馬遜的Amazon EC2和Amazon S3就是這樣一個服務(wù)。 ?
IaaS帶給你的是大數(shù)據(jù)計算的資源,而PaaS將為您提供更為高級的大數(shù)據(jù)服務(wù)。所謂平臺即服務(wù)(PaaS)指的是提供各種開發(fā)解決方案和系統(tǒng)環(huán)境。按需使用的PaaS又稱為中間件,極大的節(jié)省了部署環(huán)境的時間和成本。 ?
目前主要的大數(shù)據(jù)服務(wù)提供商是Amazon/Microsoft/Google,這些大型的服務(wù)商提供IaaS和PaaS的混合服務(wù),以滿足不同業(yè)務(wù)要求。其中Google專注于大數(shù)據(jù)應(yīng)用的研究上,Amazon發(fā)力提供更多規(guī)模的大數(shù)據(jù)服務(wù)平臺。 ?
Sqoop ?
Sqoop(發(fā)音:skup)是一款開源的工具,主要用于在Hadoop(Hive)與傳統(tǒng)的數(shù)據(jù)庫(mysql、postgresql...)間進行數(shù)據(jù)的傳遞,可以將一個關(guān)系型數(shù)據(jù)庫(例如 : MySQL ,Oracle ,Postgres等)中的數(shù)據(jù)導(dǎo)進到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)進到關(guān)系型數(shù)據(jù)庫中。 ?
1、配置Sqoop 2、使用Sqoop把數(shù)據(jù)從MySQL導(dǎo)入到HDFS中 3、使用Sqoop把數(shù)據(jù)從HDFS導(dǎo)出到MySQL中
?
Storm為分布式實時計算提供了一組通用原語,可被用于“流處理”之中,實時處理消息并更新數(shù)據(jù)庫。這是管理隊列及工作者集群的另一種方式。 Storm也可被用于“連續(xù)計算”(continuous computation),對數(shù)據(jù)流做連續(xù)查詢,在計算時就將結(jié)果以流的形式輸出給用戶。它還可被用于“分布式RPC”,以并行的方式運行昂貴的運算。 ?
1、Storm基礎(chǔ)知識:包括Storm的基本概念和Storm應(yīng)用場景,體系結(jié)構(gòu)與基本原理,Storm和Hadoop的對比 2、Storm集群搭建:詳細講述Storm集群的安裝和安裝時常見問題 3、Storm組件介紹: spout、bolt、stream groupings等 4、Storm消息可靠性:消息失敗的重發(fā) 5、Hadoop 2.0和Storm的整合:Storm on YARN 6、Storm編程實戰(zhàn) ?
Hadoop是什么 ?
Hadoop是一個大家族,是一個開源的生態(tài)系統(tǒng),是一個分布式運行系統(tǒng),是基于Java編程語言的架構(gòu)。不過它*明的技術(shù)還是HDFS和MapReduce,使得它可以分布式處理海量數(shù)據(jù)。 ?
HDFS(分布式文件系統(tǒng)): ?
它與現(xiàn)存的文件系統(tǒng)不同的特性有很多,比如高度容錯(即使中途出錯,也能繼續(xù)運行),支持多媒體數(shù)據(jù)和流媒體數(shù)據(jù)訪問,高效率訪問大型數(shù)據(jù)集合,數(shù)據(jù)保持嚴謹一致,部署成本降低,部署效率提交等,如圖是HDFS的基礎(chǔ)架構(gòu) ?
MapReduce(并行計算架構(gòu)): ?
它可以將計算任務(wù)拆分成大量可以獨立運行的子任務(wù),接著并行運算,另外會有一個系統(tǒng)調(diào)度的架構(gòu)負責收集和匯總每個子任務(wù)的分析結(jié)果。其中 包含映射算法與規(guī)約算法。如圖是MapReduce的內(nèi)部計算步驟 ?
Pig/Hive(Hadoop編程): ?
Pig是一種高級編程語言,在處理半結(jié)構(gòu)化數(shù)據(jù)上擁有非常高的性能,可以幫助我們縮短開發(fā)周期。 ?
Hive是數(shù)據(jù)分析查詢工具,尤其在使用類SQL查詢分析時顯示是極高的性能。可以在分分鐘完成ETL要一晚上才能完成的事情,這就是優(yōu)勢,占了先機! ?