數(shù)據(jù)被譽(yù)為新時(shí)代的石油,隨著大數(shù)據(jù)市場(chǎng)的發(fā)展,數(shù)據(jù)開始流通,越來越多人也開始挖掘數(shù)據(jù)的價(jià)值。本文盡可能全面地介紹國(guó)內(nèi)的數(shù)據(jù)源、搜索數(shù)據(jù)的方法以及數(shù)據(jù)交易的平臺(tái),幫助數(shù)據(jù)工作者們快速全面地找數(shù)據(jù)。文中涉及的數(shù)據(jù)交易方式包括API數(shù)據(jù)接口、數(shù)據(jù)包下載、數(shù)據(jù)定制等,涵蓋免費(fèi)的公開源數(shù)據(jù)以及付費(fèi)數(shù)據(jù)。以下是小編為你整理的大數(shù)據(jù)學(xué)習(xí)步驟 ?
統(tǒng)計(jì)數(shù)據(jù) ?
*統(tǒng)計(jì)局/*數(shù)據(jù) ?
最正統(tǒng)、最官方的數(shù)據(jù),數(shù)據(jù)范圍涵蓋各行各業(yè),時(shí)間跨度也較大,可下載為各種常見格式 ?
*網(wǎng)站通常有統(tǒng)計(jì)數(shù)據(jù),但不同*數(shù)據(jù)量有多有少,目前為止數(shù)據(jù)并不算深入,但隨著數(shù)據(jù)開放政策的深入,相信*網(wǎng)站會(huì)成為很好的數(shù)據(jù)源 ?
*列表可以在**網(wǎng)找,下文中的各行業(yè)數(shù)據(jù)都可以在相關(guān)的*網(wǎng)站找到數(shù)據(jù),就不一一列舉了
?
數(shù)據(jù)需要申請(qǐng)或購(gòu)買,公開的并不多,但不失為一個(gè)選擇 ?
咨詢、金融、市場(chǎng)調(diào)研公司,尤其是業(yè)內(nèi)頂尖的,通常有自己的數(shù)據(jù),但同樣并不免費(fèi)公開,部分?jǐn)?shù)據(jù)可購(gòu)買 ?
大部分主要行業(yè)都有自己的年鑒,數(shù)據(jù)比較寶貴,只是給機(jī)器用之前還需要處理;價(jià)值高的年鑒通常需要付費(fèi)獲取;這里推薦一下人大經(jīng)濟(jì)論壇,氛圍較好 ?
如何統(tǒng)計(jì)數(shù)據(jù) ?
公開信息及整理比如統(tǒng)計(jì)局的數(shù)據(jù)、公司自己發(fā)布的年報(bào)、其他市場(chǎng)機(jī)構(gòu)的研究報(bào)告、或者根據(jù)公開的零散信息整理; ?
購(gòu)買的數(shù)據(jù)庫(kù)市場(chǎng)上有很多產(chǎn)品化的數(shù)據(jù)庫(kù),比如Bloomberg、OneSource、Wind等等,這個(gè)一般是以公司的名義買入口,不光咨詢公司還有很多高等院校及研究機(jī)構(gòu)也買了; ?
自己的數(shù)據(jù)庫(kù)自己維護(hù)的數(shù)據(jù)庫(kù)有,但是比較少,一是專業(yè)的數(shù)據(jù)公司差不多能想到的都做了,二是自己做數(shù)據(jù)庫(kù)其實(shí)是一件很麻煩的事情。在有些數(shù)據(jù)是外界無法得到的情況下有可能自己維護(hù)一個(gè)小型的數(shù)據(jù)庫(kù); ?
咨詢行業(yè)專家當(dāng)然是有償?shù)?,這個(gè)在項(xiàng)目中應(yīng)該蠻常見的。有些行業(yè)專家會(huì)專門收集和銷售數(shù)據(jù),想要的基本能買到。 ?
發(fā)問卷有時(shí)候?yàn)榱藛为?dú)的項(xiàng)目也會(huì)收集很特別的數(shù)據(jù),如果外界實(shí)在沒有但是項(xiàng)目上沒有不行就只有自己做了,比如自己發(fā)發(fā)問卷之類的,但是這類數(shù)據(jù)需求要控制工作量,因?yàn)槌菙?shù)據(jù)本身是交付內(nèi)容之一,要不然不能為了個(gè)中間件花費(fèi)太多時(shí)間和精力; ?
客戶有些數(shù)據(jù)就是來源于客戶,甚至是咨詢公司的產(chǎn)品。舉個(gè)例子,比如HR咨詢公司的行業(yè)工資數(shù)據(jù)、四大的一些數(shù)據(jù)庫(kù)等等,這些數(shù)據(jù)的采集需要比較強(qiáng)的專業(yè)性或者時(shí)間積累,很大一部分是通過調(diào)查客戶的HR收集來的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)的。 ?
HBase集群及其管理 ?
1、集群的搭建過程 2、集群的監(jiān)控 3、集群的管理 ?
Pig基礎(chǔ)知識(shí) ?
Pig是進(jìn)行Hadoop計(jì)算的另一種框架,是一個(gè)高級(jí)過程語言,適合于使用 Hadoop 和 MapReduce 平臺(tái)來查詢大型半結(jié)構(gòu)化數(shù)據(jù)集。通過允許對(duì)分布式數(shù)據(jù)集進(jìn)行類似 SQL 的查詢,Pig 可以簡(jiǎn)化 Hadoop 的使用。 ?
1、Pig概述 2、安裝Pig 3、使用Pig完成手機(jī)流量統(tǒng)計(jì)業(yè)務(wù)
?
Hive ?
hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表,并提供簡(jiǎn)單的sql查詢功能,可以將sql語句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行。 其優(yōu)點(diǎn)是學(xué)習(xí)成本低,可以通過類SQL語句快速實(shí)現(xiàn)簡(jiǎn)單的MapReduce統(tǒng)計(jì),不必開發(fā)專門的MapReduce應(yīng)用。 ?
1、數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)知識(shí) 2、Hive定義 3、Hive體系結(jié)構(gòu)簡(jiǎn)介 4、Hive集群 5、客戶端簡(jiǎn)介 6、HiveQL定義 7、HiveQL與SQL的比較 8、數(shù)據(jù)類型 9、表與表分區(qū)概念 10、表的操作與CLI客戶端 11、數(shù)據(jù)導(dǎo)入與CLI客戶端 12、查詢數(shù)據(jù)與CLI客戶端 13、數(shù)據(jù)的連接與CLI客戶端 14、用戶自定義函數(shù)(UDF) ?
Scala ?
Scala是另一種基于Java的語言,并且和Java相同的是,它正日益成為大規(guī)模機(jī)器學(xué)習(xí),或構(gòu)建高層次算法的工具。它富有表現(xiàn)力,并且還能夠構(gòu)建健壯的系統(tǒng)。 ?
“Java就像是建造時(shí)的鋼鐵,而Scala則像黏土,因?yàn)槟阒罂梢詫⒅湃敫G內(nèi)轉(zhuǎn)變成鋼鐵,”Driscoll說。 ?
數(shù)據(jù)結(jié)構(gòu)化對(duì)企業(yè)的增益
將對(duì)非結(jié)構(gòu)化的內(nèi)容的管理納入到您企業(yè)的數(shù)據(jù)管理能力。非結(jié)構(gòu)化數(shù)據(jù)一直是企業(yè)業(yè)務(wù)運(yùn)營(yíng)的一部分,但既然現(xiàn)在我們已經(jīng)有了更好的技術(shù)來探索,分析和這些非結(jié)構(gòu)化的內(nèi)容,進(jìn)而幫助改善業(yè)務(wù)流程和工業(yè)務(wù)洞察,所以我們最終將其正式納入我們的數(shù)據(jù)管理是非常重要的。大多數(shù)企業(yè)目前都被困在了這一步驟。數(shù)據(jù)庫(kù)中基本的、非結(jié)構(gòu)化的數(shù)據(jù)是以評(píng)論的形式或者自由的形式存在的,其至少是數(shù)據(jù)庫(kù)的一部分,應(yīng)該被納入到數(shù)據(jù)管理。但挖掘這些數(shù)據(jù)信息則是非常難的。 ?
數(shù)字?jǐn)?shù)據(jù)存儲(chǔ)在傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)庫(kù)和業(yè)務(wù)流程外,很少有許多的治理范圍分組和數(shù)據(jù)管理的實(shí)現(xiàn),除了當(dāng)其被看作是一個(gè)技術(shù)問題時(shí)。一般來說,除了嚴(yán)格遵守相關(guān)的安全政策,今天的企業(yè)尚未對(duì)其進(jìn)行真正有效的管理。當(dāng)您的企業(yè)開始大跨步實(shí)現(xiàn)了大數(shù)據(jù)項(xiàng)目之后,您會(huì)發(fā)現(xiàn)這一類型的數(shù)據(jù)信息迅速進(jìn)入了您需要管理的范疇,其輸出會(huì)影響您企業(yè)的商業(yè)智能解決方案或者甚至是您企業(yè)的業(yè)務(wù)活動(dòng)。積極的考慮將這些數(shù)據(jù)納入到您企業(yè)的數(shù)據(jù)管理功能的范圍,并明確企業(yè)的所有權(quán),并記錄好這些數(shù)據(jù)信息的諸如如何使用、信息來源等等資料。不要采取“容易的輕松路線”,單純依靠大數(shù)據(jù)技術(shù)是您企業(yè)*正式的非結(jié)構(gòu)化數(shù)據(jù)管理的過程。 ?
隨著時(shí)間的推移,企業(yè)將收集越來越多的非結(jié)構(gòu)化數(shù)據(jù),請(qǐng)務(wù)必搞清楚哪些數(shù)據(jù)是好的,哪些是壞的,他們分別來自何處,以及其使用是否一致,將變得越來越重要,甚至在其生命周期使用這個(gè)數(shù)據(jù)都是至關(guān)重要的。要保持這種清晰,您可以使用大數(shù)據(jù)和其他工具,以了解您企業(yè)所收集的數(shù)據(jù)信息,確定其有怎樣的價(jià)值,需要怎樣的管理,這是至關(guān)重要的。 ?
大多數(shù)進(jìn)入您企業(yè)的大數(shù)據(jù)系統(tǒng)的非結(jié)構(gòu)化數(shù)據(jù)都已經(jīng)經(jīng)過一些監(jiān)控了,但通常是作為一個(gè)BLOB(binarylargeobject)二進(jìn)制大對(duì)象和非結(jié)構(gòu)化的形式進(jìn)行的。隨著您的企業(yè)不斷的在您的業(yè)務(wù)流程中“發(fā)掘”出這一類型的數(shù)據(jù),其變得更加精確和有價(jià)值。其可能還具有額外的特點(diǎn),符合安全,隱私或法律和法規(guī)的元素要求。最終,這些數(shù)據(jù)塊可以成為新的數(shù)據(jù)元素或添加到現(xiàn)有的數(shù)據(jù),但您必須有元數(shù)據(jù)對(duì)其進(jìn)行描述和管理,以便盡可能最有效地利用這些數(shù)據(jù)。 ?
正式在生產(chǎn)環(huán)境運(yùn)行之前進(jìn)行測(cè)試。如果您的企業(yè)做的是一次性的分析或完整的一次性的試點(diǎn),這可能并不適用于您的企業(yè),但對(duì)大多數(shù)企業(yè)來說,他們最初的大數(shù)據(jù)工作將迅速發(fā)展,他們找到一個(gè)可持續(xù)利用他們已經(jīng)挖掘出的極具價(jià)值的信息的需求。這意味著需要在您的沙箱環(huán)境中進(jìn)行測(cè)試,然后才正式的在您的生產(chǎn)環(huán)境運(yùn)行。