數(shù)據(jù)是大數(shù)據(jù)風(fēng)控的核心,大數(shù)據(jù)要求的不但是數(shù)據(jù)多,更要求維度豐富;而風(fēng)控則是對(duì)市場(chǎng)、信用以及操作層面的風(fēng)險(xiǎn)控制。以下是小編為你整理的大數(shù)據(jù)處理學(xué)習(xí) ?
在大數(shù)據(jù)風(fēng)控這個(gè)行業(yè)里混,需要了解用戶,了解場(chǎng)景,而這些往往都可以通過(guò)數(shù)據(jù)間接反映出來(lái)。 ?
比如,用戶在某一時(shí)期內(nèi)在多家機(jī)構(gòu)申請(qǐng)過(guò)貸款,那說(shuō)明該用戶目前借錢意愿強(qiáng)烈,即使歷史征信良好,也要用策略攔住他的申請(qǐng),因?yàn)樗芸赡艹霈F(xiàn)拆東墻補(bǔ)西墻的可能。
?
因此,用數(shù)據(jù)說(shuō)話是一種方法論。不同數(shù)據(jù)對(duì)于風(fēng)險(xiǎn)的作用不同,獲取難度也不同,這就決定了并非對(duì)每個(gè)用戶都能獲取到其各個(gè)維度的信息。 ?
同時(shí),有很多特征只有很少的用戶才會(huì)有,也因此造就了數(shù)據(jù)的稀疏性。 ?
如何將稀疏數(shù)據(jù)用在各種機(jī)器學(xué)習(xí)模型中,則正是要考察模型人員對(duì)于風(fēng)險(xiǎn)及產(chǎn)品理解的時(shí)候了。 ?
要做好大數(shù)據(jù)風(fēng)控,除了數(shù)據(jù),模型就是最重要的了。模型有很多,如一般的線性回歸,Logistic回歸以及深度學(xué)習(xí)等,在實(shí)際的業(yè)務(wù)場(chǎng)景中,有的可能單一模型就能達(dá)到很好的效果,有的則需要幾個(gè)模型的結(jié)合,而具體使用哪個(gè)模型用哪些特征,則是要考察模型人員對(duì)業(yè)務(wù)和算法的理解了。 ?
再說(shuō)一下大數(shù)據(jù)風(fēng)控的直觀感受。傳統(tǒng)風(fēng)控更像是冷兵器時(shí)代的戰(zhàn)爭(zhēng),雖有協(xié)作但更多的是各作戰(zhàn)單位憑借個(gè)人能力的大混戰(zhàn);而大數(shù)據(jù)風(fēng)控則像是現(xiàn)代戰(zhàn)爭(zhēng)中的立體作戰(zhàn),各個(gè)作戰(zhàn)單位(數(shù)據(jù))在統(tǒng)一的指揮中樞(算法)里高度協(xié)同作戰(zhàn)。大數(shù)據(jù)風(fēng)控能將相似的人更精準(zhǔn)的分群,會(huì)讓你看到形形色色更加的人,會(huì)讓你從紛繁的單一的數(shù)據(jù)中看到其背后的萬(wàn)千世界。 ?
總之,做數(shù)據(jù)做模型前一定要理解人,做完數(shù)據(jù)模型后還要能夠解釋人。 ?
初識(shí)數(shù)據(jù)分析 ?
這個(gè)階段是你學(xué)習(xí)數(shù)據(jù)分析的*個(gè)月。核心的三本書就是:統(tǒng)計(jì)學(xué)、R IN ACTION、深入淺出數(shù)據(jù)分析。*星期:好好的閱讀一下統(tǒng)計(jì)學(xué)這本教材。按照每天3個(gè)小時(shí)的時(shí)間,一個(gè)星期你至少能看完8章。踏踏實(shí)實(shí)的看完,課后習(xí)題不需要做,重點(diǎn)放在理解公式推導(dǎo)以及專業(yè)名字定義的理解上。第二星期:有了統(tǒng)計(jì)學(xué)基礎(chǔ),R語(yǔ)言學(xué)習(xí)起來(lái)就不會(huì)太費(fèi)勁。《R in action》 是公認(rèn)的R語(yǔ)言經(jīng)典教材。 ?
跟著書上的代碼仔細(xì)的敲一筆遍,你不需要全部看完這本書,只需要學(xué)會(huì)前8章左右就差不多了。 學(xué)完后你會(huì)對(duì)統(tǒng)計(jì)學(xué)有一個(gè)更深的認(rèn)識(shí)~第三個(gè)星期:《深入淺出數(shù)據(jù)分析》這本書很大頭,不是因?yàn)樗鼉?nèi)容多,而是因?yàn)樗鼜U話和插圖多。 ?
很有意思的一本入門級(jí)別的教材,花一個(gè)星期好好的讀一下,能學(xué)多少是多少。第四個(gè)星期:查漏補(bǔ)缺。經(jīng)過(guò)前三個(gè)星期的學(xué)習(xí),你一定有不少的疑惑或者遺忘了某些知識(shí)。不要著急,這個(gè)星期就是用來(lái)好好回顧一下你本月所學(xué)的東西,不懂的定義再看看,不會(huì)的代碼再敲敲,不懂的知識(shí)再google一下~ ?
大數(shù)據(jù)的經(jīng)典案例 ?
梅西百貨的實(shí)時(shí)定價(jià)機(jī)制。根據(jù)需求和庫(kù)存的情況,該公司基于SAS的系統(tǒng)對(duì)多達(dá)7300萬(wàn)種貨品進(jìn)行實(shí)時(shí)調(diào)價(jià)。 ?
Tipp24 AG針對(duì)歐洲博彩業(yè)構(gòu)建的下注和預(yù)測(cè)平臺(tái)。該公司用KXEN軟件來(lái)分析數(shù)十億計(jì)的交易以及客戶的特性,然后通過(guò)預(yù)測(cè)模型對(duì)特定用戶進(jìn)行動(dòng)態(tài)的營(yíng)銷活動(dòng)。這項(xiàng)舉措減少了90%的預(yù)測(cè)模型構(gòu)建時(shí)間。SAP公司正在試圖收購(gòu)KXEN?!癝AP想通過(guò)這次收購(gòu)來(lái)扭轉(zhuǎn)其長(zhǎng)久以來(lái)在預(yù)測(cè)分析方面的劣勢(shì)?!盠aney分析到。
?
沃爾瑪?shù)乃阉?。這家零售業(yè)寡頭為其網(wǎng)站W(wǎng)almart.com自行設(shè)計(jì)了*的搜索引擎Polaris,利用語(yǔ)義數(shù)據(jù)進(jìn)行文本分析、機(jī)器學(xué)習(xí)和同義詞挖掘等。根據(jù)沃爾瑪?shù)恼f(shuō)法,語(yǔ)義搜索技術(shù)的運(yùn)用使得在線購(gòu)物的完成率提升了10%到15%?!皩?duì)沃爾瑪來(lái)說(shuō),這就意味著數(shù)十億美元的金額?!盠aney說(shuō)。 ?
快餐業(yè)的視頻分析(Laney沒(méi)有說(shuō)出這家公司的名字)。該公司通過(guò)視頻分析等候隊(duì)列的長(zhǎng)度,然后自動(dòng)變化電子菜單顯示的內(nèi)容。如果隊(duì)列較長(zhǎng),則顯示可以快速供給的食物;如果隊(duì)列較短,則顯示那些利潤(rùn)較高但準(zhǔn)備時(shí)間相對(duì)長(zhǎng)的食品。 ?
ranger(安全管理工具) ?
Apache ranger是一個(gè)hadoop集群權(quán)限框架,提供操作、監(jiān)控、管理復(fù)雜的數(shù)據(jù)權(quán)限,它提供一個(gè)集中的管理機(jī)制,管理基于yarn的hadoop生態(tài)圈的所有數(shù)據(jù)權(quán)限。 ?
knox(hadoop安全網(wǎng)關(guān)) ?
Apache knox是一個(gè)訪問(wèn)hadoop集群的restapi網(wǎng)關(guān),它為所有rest訪問(wèn)提供了一個(gè)簡(jiǎn)單的訪問(wèn)接口點(diǎn),能完成3A認(rèn)證(Authentication,Authorization,Auditing)和SSO(單點(diǎn)登錄)等 ?
falcon(數(shù)據(jù)生命周期管理工具) ?
Apache Falcon 是一個(gè)面向Hadoop的、新的數(shù)據(jù)處理和管理平臺(tái),設(shè)計(jì)用于數(shù)據(jù)移動(dòng)、數(shù)據(jù)管道協(xié)調(diào)、生命周期管理和數(shù)據(jù)發(fā)現(xiàn)。它使終端用戶可以快速地將他們的數(shù)據(jù)及其相關(guān)的處理和管理任務(wù)“上載(onboard)”到Hadoop集群。 ?
Ambari(安裝部署配置管理工具) ?
Apache Ambari 的作用來(lái)說(shuō),就是創(chuàng)建、管理、監(jiān)視 Hadoop 的集群,是為了讓 Hadoop 以及相關(guān)的大數(shù)據(jù)軟件更容易使用的一個(gè)web工具。 ?