一、為什么要進(jìn)行大數(shù)據(jù)開(kāi)發(fā)與管理
在通信技術(shù)的大力發(fā)展下,互聯(lián)網(wǎng)、終端數(shù)字設(shè)備與傳感器不斷普及,進(jìn)而呈現(xiàn)用戶(hù)數(shù)量穩(wěn)步增長(zhǎng),數(shù)據(jù)量井噴型增長(zhǎng)。2021年*互聯(lián)網(wǎng)統(tǒng)計(jì)發(fā)展報(bào)告顯示*網(wǎng)民規(guī)模達(dá)10.11億,數(shù)字化應(yīng)用日漸豐富,涉及生活服務(wù)、文娛內(nèi)容、醫(yī)療教育等領(lǐng)域,預(yù)計(jì)2025年全球每天產(chǎn)生的數(shù)據(jù)量將達(dá)到491EB。
在此背景下,通過(guò)管理大數(shù)據(jù),挖掘其中的價(jià)值為用戶(hù)提供更好的體驗(yàn)與服務(wù)成為了當(dāng)下的熱門(mén)研究點(diǎn)之一。
用戶(hù)通過(guò)線上/線下行為產(chǎn)生的數(shù)據(jù)推動(dòng)功能服務(wù)優(yōu)化,更好的服務(wù)又反饋服務(wù)于用戶(hù),例如:
- 通過(guò)采集用戶(hù)消費(fèi)記錄提取特征,計(jì)算與用戶(hù)偏好匹配度更高的商品進(jìn)行推薦;
- 通過(guò)分析用戶(hù)群體行為特征進(jìn)行未來(lái)行為發(fā)展預(yù)測(cè)等。
這樣的形式讓"數(shù)據(jù)"與"服務(wù)"相輔相成形成良性循環(huán),但這兩者是無(wú)法直接連通的,中間存在各種問(wèn)題,例如:
- 數(shù)據(jù)來(lái)源不同、數(shù)據(jù)類(lèi)型眾多
- 數(shù)據(jù)質(zhì)量參差不齊
- 數(shù)據(jù)可能重復(fù)或缺失
- 不同的服務(wù)需要的數(shù)據(jù)不同,如何提供數(shù)據(jù)支撐使成本*低
- 海量數(shù)據(jù)耗費(fèi)存儲(chǔ)資源
為了解決這類(lèi)問(wèn)題,需要構(gòu)建"中間服務(wù)"——大數(shù)據(jù)開(kāi)發(fā)及管理,通過(guò)提供統(tǒng)一的數(shù)據(jù)采集、處理與管理服務(wù)使數(shù)據(jù)達(dá)到"高質(zhì)量""高效率""輕體量"的狀態(tài)。
二、大數(shù)據(jù)開(kāi)發(fā)與管理分幾步
大數(shù)據(jù)開(kāi)發(fā)與管理平臺(tái)可分為模塊:數(shù)據(jù)采集、整合計(jì)算、數(shù)據(jù)管理、數(shù)據(jù)安全與數(shù)據(jù)應(yīng)用。
1. 數(shù)據(jù)采集
目的:將多源異構(gòu)數(shù)據(jù)匯聚至數(shù)據(jù)湖中,等待下一步處理。
要做什么:
- 日志數(shù)據(jù):對(duì)于日志數(shù)據(jù)可根據(jù)未來(lái)的分析需求與留痕需求進(jìn)行埋點(diǎn)采集,通過(guò)使用User Track、Aplus.JS或一些自動(dòng)化埋點(diǎn)工具結(jié)合相應(yīng)規(guī)范進(jìn)行采集。
- 其他數(shù)據(jù)庫(kù):對(duì)于其他數(shù)據(jù)庫(kù)來(lái)源的數(shù)據(jù)需要根據(jù)對(duì)方數(shù)據(jù)庫(kù)的參數(shù)進(jìn)行配置建立采集任務(wù),同時(shí)需要配置存儲(chǔ)庫(kù)表參數(shù)。
- 意外處理:對(duì)于以上兩類(lèi)數(shù)據(jù),在采集過(guò)程中可能存在一些意外情況需要處理,例如:一些短時(shí)間內(nèi)來(lái)自同一IP的高頻訪問(wèn)可能是網(wǎng)絡(luò)攻擊,不能視為正常操作采集日志;在零點(diǎn)左右采集日志時(shí)可能發(fā)生數(shù)據(jù)漂移的情況;數(shù)據(jù)為null(無(wú)效值)需要剔除等。在圖中列舉了一些意外處理情況。
2. 整合計(jì)算
目的:對(duì)采集來(lái)的數(shù)據(jù)進(jìn)行清洗、質(zhì)檢等操作。
要做什么:
- 模型設(shè)計(jì):根據(jù)上層應(yīng)用/分析需求進(jìn)行數(shù)據(jù)模型設(shè)計(jì),這里涉及三個(gè)維度的模型:維表(針對(duì)某一事物的描述,例如:會(huì)員數(shù)據(jù)、商品數(shù)據(jù)、店鋪數(shù)據(jù))、事實(shí)表(某一業(yè)務(wù)過(guò)程的描述,例如:商品收藏?cái)?shù)據(jù)、下單數(shù)據(jù))、指標(biāo)數(shù)據(jù)(基于維表或事實(shí)表中的原子指標(biāo)產(chǎn)生的派生指標(biāo),結(jié)合了時(shí)間周期、限定詞等描述信息)。模型設(shè)計(jì)不僅要定義每個(gè)表中的字段還需要定義字段規(guī)則、更新時(shí)間等參數(shù)。
- 數(shù)據(jù)清洗/質(zhì)量檢測(cè):根據(jù)字段映射關(guān)系與模型設(shè)計(jì)中的字段規(guī)則對(duì)數(shù)據(jù)進(jìn)行清洗,根據(jù)清洗情況出具相應(yīng)的質(zhì)量檢測(cè)報(bào)告。
- 任務(wù)調(diào)度:根據(jù)計(jì)算資源、實(shí)時(shí)性等因素對(duì)計(jì)算任務(wù)進(jìn)行合理調(diào)度分配。
3. 數(shù)據(jù)管理
目的:對(duì)原始數(shù)據(jù)、經(jīng)過(guò)處理的數(shù)據(jù)等資源進(jìn)行分層管理,合理配置存儲(chǔ)資源。
要做什么:
- 分層管理:對(duì)于不同階段產(chǎn)生的數(shù)據(jù)需要分別進(jìn)行管理,以便每一步處理留痕方便后續(xù)歷史追溯。主要分為5部分:ODS(Operation Data Store 數(shù)據(jù)源頭層)、DWD(Data Warehouse Details 數(shù)據(jù)細(xì)節(jié)層)、DWS(Data Warehouse Service 數(shù)據(jù)服務(wù)層)、ADS(ApplicationData Service 應(yīng)用數(shù)據(jù)服務(wù))、DIM(Dimension 維表層)。
- 存儲(chǔ)成本管理:由于數(shù)據(jù)產(chǎn)生量巨大,同時(shí)還伴隨需保留中間處理結(jié)果,所以存儲(chǔ)成本需要進(jìn)行相應(yīng)控制,控制方式有4種:數(shù)據(jù)治理、數(shù)據(jù)壓縮、數(shù)據(jù)生命周期管理、模型優(yōu)化。
4. 數(shù)據(jù)應(yīng)用
目的:將處理好的數(shù)據(jù)對(duì)外提供展開(kāi)應(yīng)用。
要做什么:
- 應(yīng)用支撐:對(duì)于需要數(shù)據(jù)支撐的系統(tǒng)與模塊提供服務(wù)。首先,需要對(duì)各維度進(jìn)行模型構(gòu)建,例如:商品、用戶(hù)、會(huì)員等。建立描述完整的寬表;其次,需要梳理數(shù)據(jù)域、業(yè)務(wù)流程、各項(xiàng)原子指標(biāo)與派生指標(biāo),定義各項(xiàng)指標(biāo)口徑,選擇合適的模型構(gòu)建方法(例如:雪花模型、星型模型)進(jìn)行關(guān)聯(lián)構(gòu)建,構(gòu)建好的專(zhuān)題庫(kù)(也可稱(chēng)之為業(yè)務(wù)塊)向上提供服務(wù)。
- 開(kāi)放接口:組織數(shù)據(jù)資產(chǎn)中的部分字段為接口,定義請(qǐng)求與相應(yīng)參數(shù)并將其開(kāi)放至數(shù)據(jù)市場(chǎng)中,用戶(hù)可根據(jù)需求進(jìn)行訂閱申請(qǐng)。
5. 數(shù)據(jù)安全
目的:保證數(shù)據(jù)安全可追溯。
要做什么:
- 日志審計(jì):對(duì)關(guān)鍵操作進(jìn)行數(shù)據(jù)埋點(diǎn),采集日志數(shù)據(jù)進(jìn)行審計(jì)。
- 安全預(yù)警:構(gòu)建預(yù)警模型,配置關(guān)鍵性指標(biāo)報(bào)警等級(jí)與閾值,預(yù)警后相關(guān)人員會(huì)通過(guò)各類(lèi)渠道收到通知。
- 數(shù)據(jù)脫敏: 在涉及安全數(shù)據(jù)或者一些商業(yè)性敏感數(shù)據(jù)的情況下,需要對(duì)某些敏感信息通過(guò)脫敏規(guī)則進(jìn)行數(shù)據(jù)的變形實(shí)現(xiàn)隱私保護(hù)。
- 簽章水印:對(duì)圖片、視頻等文件進(jìn)行可見(jiàn)/不可見(jiàn)水印加密并根據(jù)業(yè)務(wù)需求進(jìn)行簽章明確權(quán)責(zé)。