據已經成為現代化企業(yè)中重要的寶貴資源。一切決策、策略或者方法都需要依托于對數據的分析方可實現。隨著“大數據分析”逐步替代其上代版本,即“商務智能”,企業(yè)正面臨著一個更加復雜、且商業(yè)情報規(guī)模更為龐大的新時代。以下是小編為你整理的大數據分析要學哪些 ?
OpenRefine ?
這是一款高人氣數據分析工具,適用于各類與分析相關的任務。這意味著即使大家擁有多川不同數據類型及名稱,這款工具亦能夠利用其強大的聚類算法完成條目分組。在聚類完成后,分析即可開始。 ?
2Hadoop ?
大數據與Hadoop可謂密不可分。這套軟件庫兼框架能夠利用簡單的編程模型將大規(guī)模數據集分發(fā)于計算機集群當中。其尤為擅長處理大規(guī)模數據并使其可用于本地設備當中。作為Hadoop的開發(fā)方,Apache亦在不斷強化這款工具以提升其實際效果。部分知識來自《Linux就該這么學》感興趣的可以去看下
Storm ?
同樣來自Apache的Storm是另一款偉大的實時計算系統(tǒng),能夠極大強化無限數據流的處理效果。其亦可用于執(zhí)行多種其它與大數據相關的任務,具體包括分布式RPC、持續(xù)處理、在線機器學習以及實時分析等等。使用Storm的另一大優(yōu)勢在于,其整合了大量其它技術,從而進一步降低大數據處理的復雜性。 ?
提高醫(yī)療和研發(fā) ?
大數據剖析應用的計算能力可以讓我們能夠在幾分鐘內就可以解碼整個DNA。而且讓我們可以制訂出*的治療方案。同時可以更好的去理解和預測疾病。就好像人們戴上智能手表等可以形成的數據一樣,大數據同樣可以幫助病人對于病情進行更好的治療。大數據技術現在已經在醫(yī)院應用監(jiān)視早產嬰兒和患病嬰兒的情況,通過記錄和剖析嬰兒的心跳,醫(yī)生針對嬰兒的身體可能會出現不適癥狀做出預測。這樣可以幫助醫(yī)生更好的救助嬰兒。 ?
大數據可分成大數據技術、大數據工程、大數據科學和大數據應用等領域。目前人們談論最多的是大數據技術和大數據應用。工程和科學問題尚未被重視。大數據工程指大數據的規(guī)劃建設運營管理的系統(tǒng)工程;大數據科學關注大數據網絡發(fā)展和運營過程中發(fā)現和驗證大數據的規(guī)律及其與自然和社會活動之間的關系。 ?
物聯(lián)網、云計算、移動互聯(lián)網、車聯(lián)網、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數據來源或者承載的方式。 ?
有些例子包括網絡日志,RFID,傳感器網絡,社會網絡,社會數據(由于數據革命的社會),互聯(lián)網文本和文件;互聯(lián)網搜索索引;呼叫詳細記錄,天文學,大氣科學,基因組學,生物地球化學,生物,和其他復雜和/或跨*的科研,軍事偵察,醫(yī)療記錄;攝影檔案館視頻檔案;和大規(guī)模的電子商務 。 ?
大數據的一些弊端 ?
雖然大數據的擁護者看到了使用大數據的巨大潛力,但也有隱私倡導者擔心,因為越來越多的人開始收集相關數據,無論是他們是否會故意透露這些數據或通過社交媒體張貼,甚至他們在不知不覺中通過分享自己的生活而公布了一些具體的數字細節(jié)。 ?
分析這些巨大的數據集會使我們的預測能力產生虛假的信息,將導致作出許多重大和有害的錯誤決定。此外,數據被強大的人或機構濫用,自私的操縱議程達到他們想要的結果。 ?
各行業(yè)數據源 ?
財經數據 ?
1.經濟數據庫:CEIC、國泰安、銳思、資訊行 ?
2.監(jiān)管*:證監(jiān)會、上交所、深交所(巨潮)、股轉系統(tǒng)、大商所、鄭商所網站 ?
3.金融市場網站:*貨幣網、*債券信息網、上海期貨/黃金交易所 ?
4.財經終端:不少免費版的財經/股票終端都可以導出數據,屬優(yōu)質數據源 ?
5.門戶網站:如新浪財經可以下載大量的證券數據
?
6.通聯(lián):類似quandl提供不少財經api接口 ?
7.量化交易平臺:近幾年新興的技術產品,可以在這類平臺上獲取大量歷史數據 ?
8.投融資:IT桔子、清科數據庫 ?
9.國外資源:WITS,WORLD BANK,IMF,YAHOO,Quandl(大量財經api接口,可導出各種格式)等 ?
貿易數據 ?
1.海關總署、海關統(tǒng)計資訊網、海關信息網有不少數據,部分免費 ?
(商務部網站中有大量數據,但目前不能下載或調用) ?
2.綜合性網站:慧聰、卓創(chuàng)資訊,但可惜大部分數據只能瀏覽 ?
3.數據商:可以在百度和上面提到的數據平臺上找到不少這類的數據撮合商(一般高質量的數據需要付費獲取) ?
4.國外數據:WTO,UN COMTRADE有大量高質量的數據 ?
*第二產業(yè) ?
1.農業(yè)數據:目前以統(tǒng)計數據為主,行業(yè)門戶網站和細分領域網站(如*糧網)的數據通常無法直接調用,只能在線瀏覽,但不妨保持對這些網站的關注 ?
2.農業(yè)數據提供商:如艾格農業(yè)、布瑞克,但目前數據的總體質量達不到預期 ?
3.工業(yè)數據:和農業(yè)數據的情況類似,也只有少數數據商,如鋼聯(lián)、煤炭資源網等 ?
(傳統(tǒng)領域的數據,隨著物聯(lián)網技術的發(fā)展,獲取難度會降低、應用價值將提高,預計在未來會有不錯的上升空間) ?
大數據的學習階段
*階段:大數據前沿知識及hadoop入門,大數據前言知識的介紹,課程的介紹,Linux和unbuntu系統(tǒng)基礎,hadoop的單機和偽分布模式的安裝配置。 ?
第二階段:hadoop部署進階。Hadoop集群模式搭建,hadoop分布式文件系統(tǒng)HDFS深入剖析。使用HDFS提供的api進行HDFS文件操作。Mapreduce概念及思想。 ?
第三階段:大數據導入與存儲。mysql數據庫基礎知識,hive的基本語法。hive的架構及設計原理。hive部署安裝與案例。sqoop安裝及使用。sqoop組件導入到hive。 ?
第四階段:Hbase理論與實戰(zhàn)。Hbase簡介。安裝與配置。hbase的數據存儲。項目實戰(zhàn)。 ?
第五階段:Spaer配置及使用場景。scala基本語法。spark介紹及發(fā)展歷史,spark stant a lone模式部署。sparkRDD詳解。 ?
第六階段:spark大數據分析原理。spark內核,基本定義,spark任務調度。sparkstreaming實時流計算。sparkmllib機器學習。sparksql查詢。