隨著互聯(lián)網時代的到來,也誕生出了很多領域,現(xiàn)在大家最關心的是大數據領域,那到底什么是大數據,大數據可以應用在哪些領域和行業(yè)呢?大數據的應用有沒有什么弊端呢?以下是小編為你整理的怎么快速學習大數據 ?
大數據(big data,mega data),或稱巨量資料,指的是需要新處理模式才能具有更強的決策力、洞察力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產。 ?
1.理解客戶、滿足客戶服務需求 ?
大數據的應用現(xiàn)在在這領域是最廣為人知的。重點是怎樣應用大數據更好的了解客戶以及他們的喜好和行為。企業(yè)極度喜歡搜集社交方面的數據、瀏覽器的日志、剖析出文本和傳感器的數據,為了更加全面的了解客戶。在通常情況下,創(chuàng)建出數據模型進行預測。好比美國的著名零售商Target就是通過大數據的剖析,獲得有價值的信息,精準得預測到客戶在什么時間想要小孩。另外,通過大數據的應用,電信公司可以更好預測出流失的客戶,沃爾瑪則更加精準的預測哪個產品會大賣,汽車保險行業(yè)會了解客戶的需求和駕駛水平,*也能了解到選民的偏好。
2.業(yè)務流程優(yōu)化 ?
大數據也更多的幫助業(yè)務流程的優(yōu)化??梢酝ㄟ^利用社交媒體數據、網絡搜索以及天氣預告挖掘出有價值的數據,其中大數據的應用最廣泛的就是供應鏈以及配送路線的優(yōu)化。在這2個方面,地理定位和無線電頻率的識別追蹤貨物和送貨車,利用實時交通路線數據制訂更加優(yōu)化的路線。人力資源業(yè)務也通過大數據的剖析來進行改良,這其中就包括了人才招聘的優(yōu)化。 ?
3.大數據正在改善我們的生活 ?
大數據不但單只是應用于企業(yè)和*,同樣也適用我們生活當中的每個人。我們可以利用穿著的裝備(如智能手表或者智能手環(huán))生成*的數據,這讓我們可以憑據我們熱量的消耗以及睡眠模式來進行追蹤。而且還利用利用大數據剖析來尋找屬于我們的愛情,大多數時間交友網站就是大數據應用工具來幫助需要的人匹配合適的對象。 ?
商業(yè)性應用 ?
數據再利用:數據完成*次使命后,再次用作它用。如:用戶搜索關鍵詞后,除了顯示內容外,網站會將搜索內容收集并記錄下來,用來揭示用戶喜好,預測今年什么樣的商品將成為流行。 ?
數據重組:兩個或多個數據源,以一種新穎的方式結合起來的混搭式應用。 ?
可擴展數據:在收集數據時,就設計好可擴展性。在一開始就考慮到各種潛在的二次或多次用途。如:谷歌的街景車不僅拍攝了房屋和街道的圖片,還同時采集GPS數據,GPS數據不僅優(yōu)化了谷歌的地圖服務,而且對谷歌自動駕駛汽車的運作功不可沒。 ?
數據折舊:在某些領域,為追求全部數據而使用舊數據,不僅不能增加價值,還會破壞新數據的價值。 ?
數據廢氣:即在線交互的副產品,包括瀏覽了哪些頁面,停留了多久,輸入了什么信息等。 ?
開放數據:事實上,*才是大規(guī)模數據的原始采集者,但他們在數據的使用上往往效率很低。近年來,“開放*數據”的倡議響徹全球,在美國、英國、澳大利亞等*也基于了肯定的答復,出臺并實施了開放數據策略。 ?
數據交易平臺 ?
*牽頭 ?
1.地區(qū)性數據交易平臺:貴州、上海、北京、江蘇、武漢、哈爾濱、海南等 ?
2.模式:部分采用會員制,提供交易的場所以及必要的技術支持,收取交易費;部分僅提供在線交易平臺 ?
3.特點:享有龐大的*數據資源,并且聯(lián)合各行業(yè)的龍頭企業(yè) ?
(此處參考“北京秋”的文章“走馬觀花:國內各路大數據交易平臺現(xiàn)狀”) ?
API平臺 ?
1.列表:apistore、京東萬象、聚合、阿凡達、showapi、haoservice、極速數據、apix、通聯(lián)數據商城 ?
2.模式:按調用量收費 ?
3.特點:即時性很好,質量相對有保障,并且可以更大程度保護數據所有者的權益 ?
淘寶模式 ?
1.列表:數糧、數據寶(、淘寶) ?
2.模式:數據商入駐,創(chuàng)造良好的交易環(huán)境、鼓勵交易 ?
3.特點:數據范圍較廣、態(tài)度開放,比起到處搜羅數據方便很多,有潛力進一步發(fā)展
?
數據包定制/下載 ?
1.列表:數多多、大海洋、發(fā)源地 ?
2.模式:以數據下載和定制為主 ?
3.特點:有一定的固定用戶不斷提供新鮮數據,可以定制采集 ?
其他 ?
1.列表:數據堂、優(yōu)易數據、數據淘 ?
2.特點:目前的數據平臺(包括未列舉的和不斷出現(xiàn)的新興平臺)都比較有自己的特點,希望這些平臺能夠共同推動數據市場的成熟 ?
Sqoop ?
Sqoop(發(fā)音:skup)是一款開源的工具,主要用于在Hadoop(Hive)與傳統(tǒng)的數據庫(mysql、postgresql...)間進行數據的傳遞,可以將一個關系型數據庫(例如 : MySQL ,Oracle ,Postgres等)中的數據導進到Hadoop的HDFS中,也可以將HDFS的數據導進到關系型數據庫中。 ?
1、配置Sqoop 2、使用Sqoop把數據從MySQL導入到HDFS中 3、使用Sqoop把數據從HDFS導出到MySQL中 ?
Storm為分布式實時計算提供了一組通用原語,可被用于“流處理”之中,實時處理消息并更新數據庫。這是管理隊列及工作者集群的另一種方式。 Storm也可被用于“連續(xù)計算”(continuous computation),對數據流做連續(xù)查詢,在計算時就將結果以流的形式輸出給用戶。它還可被用于“分布式RPC”,以并行的方式運行昂貴的運算。 ?
1、Storm基礎知識:包括Storm的基本概念和Storm應用場景,體系結構與基本原理,Storm和Hadoop的對比 2、Storm集群搭建:詳細講述Storm集群的安裝和安裝時常見問題 3、Storm組件介紹: spout、bolt、stream groupings等 4、Storm消息可靠性:消息失敗的重發(fā) 5、Hadoop 2.0和Storm的整合:Storm on YARN 6、Storm編程實戰(zhàn) ?