一.大數(shù)據(jù)采集 即對(duì)于結(jié)構(gòu)化和非結(jié)構(gòu)化海量的各種來(lái)源的數(shù)據(jù),所進(jìn)行的收集活動(dòng)。 1. 數(shù)據(jù)庫(kù)獲取:目前比較流行的是Sqoop和ETL,很多企業(yè)仍然使用MySQL、Oracle等傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)存儲(chǔ)。當(dāng)然,對(duì)于開(kāi)源Kettle和Talend本身,也集成了大數(shù)據(jù)集成內(nèi)容,可以實(shí)現(xiàn)HDFS、hbase和主流Nosq數(shù)據(jù)庫(kù)之間的數(shù)據(jù)同步和集成。 2. 網(wǎng)絡(luò)數(shù)據(jù)收集:通過(guò)web爬蟲(chóng)或網(wǎng)站公共API從網(wǎng)頁(yè)中獲取非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),并將其結(jié)構(gòu)統(tǒng)一為本地?cái)?shù)據(jù)的數(shù)據(jù)收集方法。 3.文件采集:包括實(shí)時(shí)文件采集與處理技術(shù)flume、基于ELK的日志采集、增量采集等。 二.大數(shù)據(jù)預(yù)處理 大數(shù)據(jù)預(yù)處理,指的是在數(shù)據(jù)分析之前,對(duì)*個(gè)收集的原始數(shù)據(jù)進(jìn)行如"沖洗、灌裝、光滑、合并、標(biāo)準(zhǔn)化和一致性檢查"等一系列的行動(dòng),旨在提高數(shù)據(jù)的質(zhì)量和為以后的分析打好基礎(chǔ)。 三. 大數(shù)據(jù)存儲(chǔ) 大數(shù)據(jù)存儲(chǔ)是指存儲(chǔ)器以數(shù)據(jù)庫(kù)的形式存儲(chǔ)采集到的數(shù)據(jù)的過(guò)程。 四. 大數(shù)據(jù)分析與挖掘 大數(shù)據(jù)分析與挖掘是從可視化分析、數(shù)據(jù)挖掘算法、預(yù)測(cè)分析、語(yǔ)義引擎和數(shù)據(jù)質(zhì)量管理等方面對(duì)無(wú)序數(shù)據(jù)進(jìn)行提取、提煉和分析的過(guò)程。