大數(shù)據(jù)能夠進(jìn)行數(shù)據(jù)變現(xiàn)的商業(yè)模式目前就是兩個(gè),一個(gè)是精準(zhǔn)營(yíng)銷,典型的場(chǎng)景是商品推薦和精準(zhǔn)廣告投放,另外一個(gè)是大數(shù)據(jù)風(fēng)控,典型的場(chǎng)景是互聯(lián)網(wǎng)金融的大數(shù)據(jù)風(fēng)控。以下是小編為你整理的學(xué)大數(shù)據(jù)如何學(xué) ?
金融的本質(zhì)是風(fēng)險(xiǎn)管理,風(fēng)控是所有金融業(yè)務(wù)的核心。典型的金融借貸業(yè)務(wù)例如抵押貸款、消費(fèi)貸款、P2P、供應(yīng)鏈金融、以及票據(jù)融資都需要數(shù)據(jù)風(fēng)控識(shí)別欺詐用戶及評(píng)估用戶信用等級(jí)。
?
傳統(tǒng)金融的風(fēng)控主要利用了信用屬性強(qiáng)大的金融數(shù)據(jù),一般采用20個(gè)緯度左右的數(shù)據(jù),利用評(píng)分來(lái)識(shí)別客戶的還款能力和還款意愿。信用相關(guān)程度強(qiáng)的數(shù)據(jù) 緯度為十個(gè)左右,包含年齡、職業(yè)、收入、學(xué)歷、工作單位、借貸情況、房產(chǎn),汽車、單位、還貸記錄等,金融企業(yè)參考用戶提交的數(shù)據(jù)進(jìn)行打分,*得到申請(qǐng)人 的信用評(píng)分,依據(jù)評(píng)分來(lái)決定是否貸款以及貸款額度。其他同信用相關(guān)的數(shù)據(jù)還有區(qū)域、產(chǎn)品、理財(cái)方式、行業(yè)、繳款方式、繳款記錄、金額、時(shí)間、頻率等。普惠在線 ?
互聯(lián)網(wǎng)金融的大數(shù)據(jù)風(fēng)控并不是完全改變傳統(tǒng)風(fēng)控,實(shí)際是豐富傳統(tǒng)風(fēng)控的數(shù)據(jù)緯度?;ヂ?lián)網(wǎng)風(fēng)控中,首先還是利用信用屬性強(qiáng)的金融數(shù)據(jù),判斷借款人的還 款能力和還款意愿,然后在利用信用屬性較弱的行為數(shù)據(jù)進(jìn)行補(bǔ)充,一般是利用數(shù)據(jù)的關(guān)聯(lián)分析來(lái)判斷借款人的信用情況,借助數(shù)據(jù)模型來(lái)揭示某些行為特征和信用 風(fēng)險(xiǎn)之間的關(guān)系。 ?
互聯(lián)網(wǎng)金融公司利用大數(shù)據(jù)進(jìn)行風(fēng)控時(shí),都是利用多維度數(shù)據(jù)來(lái)識(shí)別借款人風(fēng)險(xiǎn)。同信用相關(guān)的數(shù)據(jù)越多地被用于借款人風(fēng)險(xiǎn)評(píng)估,借款人的信用風(fēng)險(xiǎn)就被揭示的更充分,信用評(píng)分就會(huì)更加客觀,接近借款人實(shí)際風(fēng)險(xiǎn)。 ?
大數(shù)據(jù)的門檻是怎樣的 ?
數(shù)據(jù)科學(xué)家:數(shù)據(jù)科學(xué)家傾向于用搜索數(shù)據(jù)的方式來(lái)看待周圍的世界,把大量散亂的數(shù)據(jù)變成結(jié)構(gòu)化的可供分析的數(shù)據(jù),還要找出豐富的數(shù)據(jù)源,整合其他可能不完整的數(shù)據(jù)源,并清理成結(jié)果數(shù)據(jù)集,新的競(jìng)爭(zhēng)環(huán)境中,挑戰(zhàn)不斷的變化,新數(shù)據(jù)不斷的流入,數(shù)據(jù)科學(xué)家需要幫助決策者穿梭于各種分析,從臨時(shí)數(shù)據(jù)分析到持續(xù)數(shù)據(jù)交互分析。當(dāng)他們有所發(fā)現(xiàn),建議新的業(yè)務(wù)方向。他們很有創(chuàng)造力的展示視覺化的信息,從而影響產(chǎn)品,流程和決策。 ?
大數(shù)據(jù)工程師:分析歷史,預(yù)測(cè)未來(lái),優(yōu)化選擇,這是大數(shù)據(jù)工程師在玩數(shù)據(jù)時(shí)最重要的三大任務(wù)。通過這三個(gè)工作方向,幫助企業(yè)做出更好的商業(yè)決策。大數(shù)據(jù)工程師是一個(gè)很重要的工作,就是通過分析數(shù)據(jù)找出過去事件的特征。通過引入關(guān)鍵因素,大數(shù)據(jù)工程師可以預(yù)測(cè)未來(lái)的消費(fèi)趨勢(shì)。 ?
數(shù)據(jù)分析師:與傳統(tǒng)的數(shù)據(jù)分析師相比,互聯(lián)網(wǎng)時(shí)代的數(shù)據(jù)分析師面臨的不是數(shù)據(jù)匱乏,而是數(shù)據(jù)過剩,因此,互聯(lián)網(wǎng)時(shí)代的數(shù)據(jù)分析師必須學(xué)會(huì)借助技術(shù)手段進(jìn)行高效的數(shù)據(jù)清理。更為重要的是,互聯(lián)網(wǎng)時(shí)代的數(shù)據(jù)分析師不斷在數(shù)據(jù)研究的方法論方面進(jìn)行創(chuàng)新和突破。 ?
分情況來(lái)說:就行業(yè)來(lái)說,數(shù)據(jù)分析師的機(jī)制類似,無(wú)論在任何時(shí)代,媒體運(yùn)營(yíng)者能否準(zhǔn)確詳細(xì)和及時(shí)地了解受眾情況和變化趨勢(shì)。都是成敗的關(guān)鍵。 ?
針對(duì)大數(shù)據(jù)的開源包 ?
Precog:Precog提供了一項(xiàng)服務(wù)Labcoat,它是一個(gè)交互式的開發(fā)環(huán)境,可以用來(lái)編寫基于開源的Quirrel(由Precog實(shí)現(xiàn)的統(tǒng)計(jì)查詢語(yǔ)言,Quirrel很多方面都與R編程語(yǔ)言比較相似)查詢語(yǔ)言的分析工作,該集成開發(fā)環(huán)境包含了一個(gè)語(yǔ)言學(xué)習(xí)教程以及一些復(fù)雜的函數(shù)。Precog的COO告訴Derrick,即使沒有任何編程經(jīng)驗(yàn)的人也能在幾個(gè)小時(shí)內(nèi)學(xué)會(huì)操作。
?
Precog可http://m.fulinmenst.com/m/contact.aspx?FId=n7:7:7以從各種數(shù)據(jù)源抓取輸入數(shù)據(jù),其中包括SQL數(shù)據(jù)庫(kù)、Amazon S3、Hadoop、MongoDB、客戶端Web應(yīng)用和后端服務(wù)器等。RESTful API支持開發(fā)者從外部源(如Twitter或Facebook)、CSV文件或移動(dòng)設(shè)備抓取數(shù)據(jù)。抓取的數(shù)據(jù)保存到一個(gè)叫做PrecogDB的定制數(shù)據(jù)庫(kù)中,而且還可以使用人群統(tǒng)計(jì)、態(tài)度、位置和其他信息,使數(shù)據(jù)更為豐富。在一次采訪中,Precog的CEO和創(chuàng)始人John A.De Goes解釋到:“系統(tǒng)的架構(gòu)與數(shù)據(jù)庫(kù)分析有些相似,比如都包括面向列的存儲(chǔ)。但是其區(qū)別在于:前者支持完全異構(gòu)的、非規(guī)范化的數(shù)據(jù),通過對(duì)Quirrel的支持,相對(duì)于使用RDBMS進(jìn)行分析,使用這種類似于“面向大數(shù)據(jù)的R”的語(yǔ)言,能夠很方便地執(zhí)行很多更為高級(jí)的計(jì)算?!? ?
ez(DAG計(jì)算模型) ?
Tez是Apache*開源的支持DAG作業(yè)的計(jì)算框架,它直接源于MapReduce框架,核心思想是將Map和Reduce兩個(gè)操作進(jìn)一步拆分, ?
即Map被拆分成Input、Processor、Sort、Merge和Output, Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等, ?
這樣,這些分解后的元操作可以任意靈活組合,產(chǎn)生新的操作,這些操作經(jīng)過一些控制程序組裝后,可形成一個(gè)大的DAG作業(yè)。 ?
目前hive支持mr、tez計(jì)算模型,tez能完美二進(jìn)制mr程序,提升運(yùn)算性能。 ?
Spark(內(nèi)存DAG計(jì)算模型) ?
Spark是一個(gè)Apache項(xiàng)目,它被標(biāo)榜為“快如閃電的集群計(jì)算”。它擁有一個(gè)繁榮的開源社區(qū),并且是目前最活躍的Apache項(xiàng)目。 ?
最早Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用的并行計(jì)算框架。 ?
Spark提供了一個(gè)更快、更通用的數(shù)據(jù)處理平臺(tái)。和Hadoop相比,Spark可以讓你的程序在內(nèi)存中運(yùn)行時(shí)速度提升100倍,或者在磁盤上運(yùn)行時(shí)速度提升10倍 ?
Giraph(圖計(jì)算模型) ?
Apache Giraph是一個(gè)可伸縮的分布式迭代圖處理系統(tǒng), 基于Hadoop平臺(tái),靈感來(lái)自 BSP (bulk synchronous parallel) 和 Google 的 Pregel。 ?
最早出自雅虎。雅虎在開發(fā)Giraph時(shí)采用了Google工程師2010年發(fā)表的論文《Pregel:大規(guī)模圖表處理系統(tǒng)》中的原理。后來(lái),雅虎將Giraph捐贈(zèng)給Apache軟件基金會(huì)。 ?
目前所有人都可以下載Giraph,它已經(jīng)成為Apache軟件基金會(huì)的開源項(xiàng)目,并得到Facebook的支持,獲得多方面的改進(jìn)。 ?