哪些項目是可以在真正的產(chǎn)品階段使用的作為可靠的候選?哪些應該受到特別關注呢?我們做了詳細的研究和測試,讓我們一起看下5種新的撼動大數(shù)據(jù)的技術。這些是整理的幾組新的工具,讓我們一起來看看吧。以下是小編為你整理的大數(shù)據(jù)應該怎樣學習 ?
Storm 和 Kafka 是未來數(shù)據(jù)流處理的主要方式,它們已經(jīng)在一些大公司中使用率餓,包括 Groupon,阿里巴巴和The Weather Channel等。Storm,誕生于Twitter,是一個分布式實時計算系統(tǒng)。Storm 設計用于處理實時計算,hadoop主要用于處理批處理運算。
?
kafka是由LinkedIn研發(fā)的一款消息系統(tǒng)作為一個數(shù)據(jù)處理的管道基礎部分存在于系統(tǒng)中。當你一起使用它們,你就能實時地和線性遞增的獲取數(shù)據(jù)。 ?
你為什么需要關心? ?
使用Storm和Kafka,使得數(shù)據(jù)流處理線性的,確保每條消息獲取都是實時的,可靠的。前后布置的Storm和Kafka能每秒流暢的處理10000條數(shù)據(jù)。 ?
像Storm和Kafka這樣的數(shù)據(jù)流處理方案使得很多企業(yè)引起關注并想達到優(yōu)秀的ETL(抽取轉(zhuǎn)換裝載)的數(shù)據(jù)集成方案。Storm 和 Kafka 也很擅長內(nèi)存分析和實時決策支持。企業(yè)使用批量處理的Hadoop方案無法也難怪對實時的業(yè)務需求。在企業(yè)的大數(shù)據(jù)解決方案中實時數(shù)據(jù)流處理是一個必要的模塊,因為它很優(yōu)美的處理了“3v”–volume,velocity 和 variety (容量,速率和多樣性)。Storm和Kafka這2種技術是我們(infochimps)最推薦的技術,它們也將作為一個正式組成部分存在于我們的平臺中。Drill和Dremel 實現(xiàn)了快速低負載的大規(guī)模,即席查詢數(shù)據(jù)搜索。它們提供了秒級搜索P級別數(shù)據(jù)的可能,來應對即席查詢和預測,及提供強大的虛擬化支持。 ?
Drill和Dremel提供強大的業(yè)務處理能力,不僅僅只是為數(shù)據(jù)工程師提供。業(yè)務端的大家都將喜歡Drill和Dremel.Drill 是Google的Dremel的開源版本。Dremel是Google提供的支持大數(shù)據(jù)查詢的技術。公司將用它來開發(fā)自己的工具,這些是導致大家都密切的關注Drill的原因。雖然這些不是起步,但是開源社區(qū)強烈的興趣使得它變得更成熟。 ?
先進的報表創(chuàng)建工具 ?
報表創(chuàng)建工具能從用戶的數(shù)據(jù)源轉(zhuǎn)換數(shù)據(jù)成一個精美、雅致的報表。使用其交互式設計界面和高效的工作流程,可在幾分鐘內(nèi)創(chuàng)建專業(yè)和高質(zhì)量的報表。 豐富的圖表和可視化的選項能提高用戶的報表水準。一套全面的報表組件,如區(qū)域、子報表和交叉制表,讓用戶有個快速的開端來創(chuàng)建報表。 ?
智能模型設計 ?
運用我們精密的數(shù)據(jù)庫設計和模型工具,你可以用圖形表達你的數(shù)據(jù)庫。使用實體關系圖表來顯現(xiàn)數(shù)據(jù)庫結(jié)構(gòu)及關系,這樣你就可以更容易塑造,建立和理解復雜的數(shù)據(jù)庫。 ?
強大的用戶管理 ?
用戶管理功能提升和管理每個用戶的管理權限,不需輸入任何命令,在數(shù)分鐘內(nèi)就能創(chuàng)建和編輯用戶角色,借助這個精確控制的層面,可以在不影響數(shù)據(jù)庫的安全性下,創(chuàng)建規(guī)則并讓用戶訪問數(shù)據(jù)庫。 ?
確保數(shù)據(jù)安全 ?
Navicat提供本機備份解決方案,當發(fā)生災難時確保復原數(shù)據(jù)庫,使用Navicat計劃功能自動運行備份,并保存到本機硬盤或網(wǎng)絡硬盤。 ?
隨時隨地運行 ?
Navicat創(chuàng)建一個批處理作業(yè)來運行幾個任務。例如:打印報表、備份數(shù)據(jù)庫、傳輸數(shù)據(jù)。用戶可以設置電子郵件通知,安排在一個特定的時間,或在每天某些時間執(zhí)行該批處理作業(yè),并確保任務成功完成。無論身在何處,總能完成工作。 ?
如何選擇框架 ?
Bokeh ?
這套可視化框架的主要目標在于提供精致且簡潔的圖形處理結(jié)果,用以強化大規(guī)模數(shù)據(jù)流的交互能力。其專門供Python語言使用。 ?
?
Wolfram Alpha ?
這是一套搜索引擎,旨在幫助用戶搜索其需要的計算素材或者其它內(nèi)容。舉例來說,如果大家輸入“Facebook”,即可獲得與Facebook相關的HTML元素結(jié)構(gòu)、輸入解釋、Web托管信息、網(wǎng)絡統(tǒng)計、子域、Alexa預估以及網(wǎng)頁信息等大量內(nèi)容。 ?
Neo4j ?
其官方網(wǎng)站將這款工具稱為圖形數(shù)據(jù)庫技術的下一場革命。這種說法在一定程度上并不夸張,因為此套數(shù)據(jù)庫使用數(shù)據(jù)間的關系以操作并強化性能表現(xiàn)。Neo4j目前已經(jīng)由眾多企業(yè)用于利用數(shù)據(jù)關系實現(xiàn)智能應用,從而幫助自身保持市場競爭優(yōu)勢。 ?
云端的大數(shù)據(jù)
“云”其實指的是多臺虛擬服務器的組合,云為不同的使用者提供一個計算的平臺。這就是IaaS(基礎設置即服務),亞馬遜的Amazon EC2和Amazon S3就是這樣一個服務。 ?
IaaS帶給你的是大數(shù)據(jù)計算的資源,而PaaS將為您提供更為高級的大數(shù)據(jù)服務。所謂平臺即服務(PaaS)指的是提供各種開發(fā)解決方案和系統(tǒng)環(huán)境。按需使用的PaaS又稱為中間件,極大的節(jié)省了部署環(huán)境的時間和成本。 ?
目前主要的大數(shù)據(jù)服務提供商是Amazon/Microsoft/Google,這些大型的服務商提供IaaS和PaaS的混合服務,以滿足不同業(yè)務要求。其中Google專注于大數(shù)據(jù)應用的研究上,Amazon發(fā)力提供更多規(guī)模的大數(shù)據(jù)服務平臺。