據(jù)已經(jīng)成為現(xiàn)代化企業(yè)中重要的寶貴資源。一切決策、策略或者方法都需要依托于對數(shù)據(jù)的分析方可實(shí)現(xiàn)。隨著“大數(shù)據(jù)分析”逐步替代其上代版本,即“商務(wù)智能”,企業(yè)正面臨著一個更加復(fù)雜、且商業(yè)情報規(guī)模更為龐大的新時代。以下是小編為你整理的大數(shù)據(jù)分析要學(xué)哪些 ?
OpenRefine ?
這是一款高人氣數(shù)據(jù)分析工具,適用于各類與分析相關(guān)的任務(wù)。這意味著即使大家擁有多川不同數(shù)據(jù)類型及名稱,這款工具亦能夠利用其強(qiáng)大的聚類算法完成條目分組。在聚類完成后,分析即可開始。 ?
2Hadoop ?
大數(shù)據(jù)與Hadoop可謂密不可分。這套軟件庫兼框架能夠利用簡單的編程模型將大規(guī)模數(shù)據(jù)集分發(fā)于計(jì)算機(jī)集群當(dāng)中。其尤為擅長處理大規(guī)模數(shù)據(jù)并使其可用于本地設(shè)備當(dāng)中。作為Hadoop的開發(fā)方,Apache亦在不斷強(qiáng)化這款工具以提升其實(shí)際效果。部分知識來自《Linux就該這么學(xué)》感興趣的可以去看下
?
Storm ?
同樣來自Apache的Storm是另一款偉大的實(shí)時計(jì)算系統(tǒng),能夠極大強(qiáng)化無限數(shù)據(jù)流的處理效果。其亦可用于執(zhí)行多種其它與大數(shù)據(jù)相關(guān)的任務(wù),具體包括分布式RPC、持續(xù)處理、在線機(jī)器學(xué)習(xí)以及實(shí)時分析等等。使用Storm的另一大優(yōu)勢在于,其整合了大量其它技術(shù),從而進(jìn)一步降低大數(shù)據(jù)處理的復(fù)雜性。 ?
提高醫(yī)療和研發(fā) ?
大數(shù)據(jù)剖析應(yīng)用的計(jì)算能力可以讓我們能夠在幾分鐘內(nèi)就可以解碼整個DNA。而且讓我們可以制訂出*的治療方案。同時可以更好的去理解和預(yù)測疾病。就好像人們戴上智能手表等可以形成的數(shù)據(jù)一樣,大數(shù)據(jù)同樣可以幫助病人對于病情進(jìn)行更好的治療。大數(shù)據(jù)技術(shù)現(xiàn)在已經(jīng)在醫(yī)院應(yīng)用監(jiān)視早產(chǎn)嬰兒和患病嬰兒的情況,通過記錄和剖析嬰兒的心跳,醫(yī)生針對嬰兒的身體可能會出現(xiàn)不適癥狀做出預(yù)測。這樣可以幫助醫(yī)生更好的救助嬰兒。 ?
大數(shù)據(jù)可分成大數(shù)據(jù)技術(shù)、大數(shù)據(jù)工程、大數(shù)據(jù)科學(xué)和大數(shù)據(jù)應(yīng)用等領(lǐng)域。目前人們談?wù)撟疃嗟氖谴髷?shù)據(jù)技術(shù)和大數(shù)據(jù)應(yīng)用。工程和科學(xué)問題尚未被重視。大數(shù)據(jù)工程指大數(shù)據(jù)的規(guī)劃建設(shè)運(yùn)營管理的系統(tǒng)工程;大數(shù)據(jù)科學(xué)關(guān)注大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展和運(yùn)營過程中發(fā)現(xiàn)和驗(yàn)證大數(shù)據(jù)的規(guī)律及其與自然和社會活動之間的關(guān)系。 ?
物聯(lián)網(wǎng)、云計(jì)算、移動互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。 ?
有些例子包括網(wǎng)絡(luò)日志,RFID,傳感器網(wǎng)絡(luò),社會網(wǎng)絡(luò),社會數(shù)據(jù)(由于數(shù)據(jù)革命的社會),互聯(lián)網(wǎng)文本和文件;互聯(lián)網(wǎng)搜索索引;呼叫詳細(xì)記錄,天文學(xué),大氣科學(xué),基因組學(xué),生物地球化學(xué),生物,和其他復(fù)雜和/或跨*的科研,軍事偵察,醫(yī)療記錄;攝影檔案館視頻檔案;和大規(guī)模的電子商務(wù) 。 ?
大數(shù)據(jù)的一些弊端 ?
雖然大數(shù)據(jù)的擁護(hù)者看到了使用大數(shù)據(jù)的巨大潛力,但也有隱私倡導(dǎo)者擔(dān)心,因?yàn)樵絹碓蕉嗟娜碎_始收集相關(guān)數(shù)據(jù),無論是他們是否會故意透露這些數(shù)據(jù)或通過社交媒體張貼,甚至他們在不知不覺中通過分享自己的生活而公布了一些具體的數(shù)字細(xì)節(jié)。 ?
分析這些巨大的數(shù)據(jù)集會使我們的預(yù)測能力產(chǎn)生虛假的信息,將導(dǎo)致作出許多重大和有害的錯誤決定。此外,數(shù)據(jù)被強(qiáng)大的人或機(jī)構(gòu)濫用,自私的操縱議程達(dá)到他們想要的結(jié)果。 ?
各行業(yè)數(shù)據(jù)源 ?
財經(jīng)數(shù)據(jù) ?
1.經(jīng)濟(jì)數(shù)據(jù)庫:CEIC、國泰安、銳思、資訊行 ?
2.監(jiān)管*:證監(jiān)會、上交所、深交所(巨潮)、股轉(zhuǎn)系統(tǒng)、大商所、鄭商所網(wǎng)站 ?
3.金融市場網(wǎng)站:*貨幣網(wǎng)、*債券信息網(wǎng)、上海期貨/黃金交易所 ?
4.財經(jīng)終端:不少免費(fèi)版的財經(jīng)/股票終端都可以導(dǎo)出數(shù)據(jù),屬優(yōu)質(zhì)數(shù)據(jù)源 ?
5.門戶網(wǎng)站:如新浪財經(jīng)可以下載大量的證券數(shù)據(jù)
?
6.通聯(lián):類似quandl提供不少財經(jīng)api接口 ?
7.量化交易平臺:近幾年新興的技術(shù)產(chǎn)品,可以在這類平臺上獲取大量歷史數(shù)據(jù) ?
8.投融資:IT桔子、清科數(shù)據(jù)庫 ?
9.國外資源:WITS,WORLD BANK,IMF,YAHOO,Quandl(大量財經(jīng)api接口,可導(dǎo)出各種格式)等 ?
貿(mào)易數(shù)據(jù) ?
1.海關(guān)總署、海關(guān)統(tǒng)計(jì)資訊網(wǎng)、海關(guān)信息網(wǎng)有不少數(shù)據(jù),部分免費(fèi) ?
(商務(wù)部網(wǎng)站中有大量數(shù)據(jù),但目前不能下載或調(diào)用) ?
2.綜合性網(wǎng)站:慧聰、卓創(chuàng)資訊,但可惜大部分?jǐn)?shù)據(jù)只能瀏覽 ?
3.數(shù)據(jù)商:可以在百度和上面提到的數(shù)據(jù)平臺上找到不少這類的數(shù)據(jù)撮合商(一般高質(zhì)量的數(shù)據(jù)需要付費(fèi)獲取) ?
4.國外數(shù)據(jù):WTO,UN COMTRADE有大量高質(zhì)量的數(shù)據(jù) ?
*第二產(chǎn)業(yè) ?
1.農(nóng)業(yè)數(shù)據(jù):目前以統(tǒng)計(jì)數(shù)據(jù)為主,行業(yè)門戶網(wǎng)站和細(xì)分領(lǐng)域網(wǎng)站(如*糧網(wǎng))的數(shù)據(jù)通常無法直接調(diào)用,只能在線瀏覽,但不妨保持對這些網(wǎng)站的關(guān)注 ?
2.農(nóng)業(yè)數(shù)據(jù)提供商:如艾格農(nóng)業(yè)、布瑞克,但目前數(shù)據(jù)的總體質(zhì)量達(dá)不到預(yù)期 ?
3.工業(yè)數(shù)據(jù):和農(nóng)業(yè)數(shù)據(jù)的情況類似,也只有少數(shù)數(shù)據(jù)商,如鋼聯(lián)、煤炭資源網(wǎng)等 ?
(傳統(tǒng)領(lǐng)域的數(shù)據(jù),隨著物聯(lián)網(wǎng)技術(shù)的發(fā)展,獲取難度會降低、應(yīng)用價值將提高,預(yù)計(jì)在未來會有不錯的上升空間) ?
大數(shù)據(jù)的學(xué)習(xí)階段
*階段:大數(shù)據(jù)前沿知識及hadoop入門,大數(shù)據(jù)前言知識的介紹,課程的介紹,Linux和unbuntu系統(tǒng)基礎(chǔ),hadoop的單機(jī)和偽分布模式的安裝配置。 ?
第二階段:hadoop部署進(jìn)階。Hadoop集群模式搭建,hadoop分布式文件系統(tǒng)HDFS深入剖析。使用HDFS提供的api進(jìn)行HDFS文件操作。Mapreduce概念及思想。 ?
第三階段:大數(shù)據(jù)導(dǎo)入與存儲。mysql數(shù)據(jù)庫基礎(chǔ)知識,hive的基本語法。hive的架構(gòu)及設(shè)計(jì)原理。hive部署安裝與案例。sqoop安裝及使用。sqoop組件導(dǎo)入到hive。 ?
第四階段:Hbase理論與實(shí)戰(zhàn)。Hbase簡介。安裝與配置。hbase的數(shù)據(jù)存儲。項(xiàng)目實(shí)戰(zhàn)。 ?
第五階段:Spaer配置及使用場景。scala基本語法。spark介紹及發(fā)展歷史,spark stant a lone模式部署。sparkRDD詳解。 ?
第六階段:spark大數(shù)據(jù)分析原理。spark內(nèi)核,基本定義,spark任務(wù)調(diào)度。sparkstreaming實(shí)時流計(jì)算。sparkmllib機(jī)器學(xué)習(xí)。sparksql查詢。