原標(biāo)題:數(shù)據(jù)為王時代,向前金服“聽風(fēng)者”3.0如何突破數(shù)據(jù)質(zhì)量瓶頸
當(dāng)今時代,數(shù)據(jù)為王。
人工智能技術(shù)承載了人們對于未來世界和商業(yè)模式的無限野望,但脫離對數(shù)據(jù)規(guī)模和質(zhì)量的討論,無法突破數(shù)據(jù)造假等瓶頸,就都是空談。
以智能風(fēng)控為例,無論采用何種算法,最終決定風(fēng)控模型精度極限的,還是數(shù)據(jù)?!安煌乃惴Q定了模型逼近極限的速度,但真正對模型精度起決定性作用的是數(shù)據(jù)質(zhì)量,是特征工程。”向前金服模型與應(yīng)用團(tuán)隊負(fù)責(zé)人楊林說。
特征工程,指通過對底層數(shù)據(jù)的清洗、衍生,提取對訓(xùn)練模型有價值的特征這一過程。在8月份向前金服上線的大數(shù)據(jù)智能風(fēng)控“聽風(fēng)者”3.0模型的研發(fā)過程中,特征工程是最為重要的一環(huán)。
規(guī)范獲取數(shù)據(jù)原料,優(yōu)質(zhì)數(shù)據(jù)的先決條件
在“聽風(fēng)者”的這次升級中,特征工程占了建模工作三分之二的工作量。
在數(shù)據(jù)原料上,除多年運(yùn)營積累的自有數(shù)據(jù)外,向前金服的風(fēng)控模型還采用了央行征信中心數(shù)據(jù)及百行征信、美國個人消費(fèi)信用評估知名機(jī)構(gòu)FICO等行業(yè)數(shù)據(jù)。
在數(shù)據(jù)獲取上,向前金服一直堅持兩個基本原則。
首先,數(shù)據(jù)要具備高精準(zhǔn)度,這是數(shù)據(jù)質(zhì)量的決定因素。有了好的原材料,加工出的“菜品”才能營養(yǎng)美味。
其次,數(shù)據(jù)獲取方式要規(guī)范,不僅嚴(yán)格篩選技術(shù)手段合規(guī)的數(shù)據(jù)源,而且在數(shù)據(jù)傳輸全流程采用不可逆的加密算法進(jìn)行脫敏處理。遵守操作規(guī)范,“菜品”才不至于變質(zhì)。
在獲取了豐富多元的原始數(shù)據(jù)后,需要對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,也就是經(jīng)過數(shù)據(jù)清洗,才能擁有整齊干凈的數(shù)據(jù),這是進(jìn)行變量衍生的基礎(chǔ)。
變量衍生,創(chuàng)新技術(shù)和業(yè)務(wù)經(jīng)驗的結(jié)合之果
數(shù)據(jù)經(jīng)過清洗后,對基礎(chǔ)字段上進(jìn)行衍生,造出衍生變量則是整個過程最艱辛的部分。衍生變量,需要對基礎(chǔ)數(shù)據(jù)進(jìn)行組合,基于不同關(guān)系而產(chǎn)生。“很多時候,單獨(dú)看一個維度數(shù)據(jù)很難發(fā)現(xiàn)隱藏的風(fēng)險,但做一些交叉分析,會暴露更多的信息?!睏盍终f。
而產(chǎn)生衍生變量的難度在于,不僅要基于對業(yè)務(wù)的深刻理解進(jìn)行組合,有時還需要建模人員開腦洞對基礎(chǔ)變量進(jìn)行花樣組合,并且要經(jīng)過反復(fù)校驗。最終變量能否進(jìn)入模型,要看挖掘出的變量是否對于判定借款人的還款意愿、還款能力有價值。
在這個過程中,以評估個人還款能力和還款意愿為出發(fā)點(diǎn),向前金服模型與應(yīng)用團(tuán)隊在衍生變量的制造上,采用了創(chuàng)新技術(shù)與業(yè)務(wù)經(jīng)驗相結(jié)合的方式。一方面,利用成熟且科學(xué)的量化算法,進(jìn)行大量衍生變量的自動化生成;另一方面,與風(fēng)控策略等團(tuán)隊合作,利用他們豐富的一線業(yè)務(wù)經(jīng)驗和對風(fēng)險點(diǎn)的敏感度,產(chǎn)出與自身業(yè)務(wù)高度契合的變量。
最終,“聽風(fēng)者”3.0模型的變量候選池規(guī)模過萬。這意味著,向前金服可對借款用戶通過上萬字段進(jìn)行交叉比對,這是在用戶畫像精準(zhǔn)度、風(fēng)控可靠性等方面跨上了一個新的臺階,也讓向前金服資產(chǎn)的優(yōu)質(zhì)性有了進(jìn)一步的提升。返回搜狐,查看更多
責(zé)任編輯: