當前位置: 華文問答 > 科學

有哪些精彩的特征工程案例?

2020-06-07科學

今天來吹吹審美問題

看了些 論文 kaggle 網文 等,從個人口味覺得,談得上「精彩」的特征工程案例不算多。。因為大多數人都聚焦在「技術」層面。。

都是啥,這個要log onehot 分桶 histogram,那個要embedding,另外一個在模型結構裏COEC,還有的直接上千億維id特征,這是工程的美,不是業務的美

有業務美感的特征長什麽樣?

今天我也想來給大家介紹介紹,我心目中有「業務美感」的特征工程怎麽搞的

一般開發的套路是,數據→特征,只有工程的美感

而業務的套路是,知識→因子→特征,主要是業務美感

比如很多人都知道預測糖尿病用pmi肥胖指數(體重除以身高²)非常準,這是挺棒的一個 把業務洞察轉化為量化特征 案例,挺有這種美感的:

1、醫學知識→肥胖導致糖尿病

2、構建因子→肥胖因子

3、搞搞能量化能表達肥胖因子的特征

→梳理特征體系,首先收集數據,可以按照望聞問切排列,也可以把體型體重體態 腰圍 腿圍 胸圍 身高 ,按照身體部位擴列進去,盡量mece,架構清晰

→構建原子特征,特征做下表達上的處理強化,出來bmi肥胖指數 腰臀比 之類

下面介紹下我的一點淩亂套路,到底怎麽做出業務美感的特征

第一步,【知識】成為行業專家

以預測空調的銷量為例,你要去找專家訪談,去深挖影響要素:

上次有個top供應鏈數據服務公司的博士哥想200萬賣預測模型,一看那個特征我都要笑了,garbage in garbage out,凈給我弄些gdp 商品內容之類的辣雞特征,一看就是大路貨,一點行業洞察都沒,給大家尷尬的,還想賣幾百萬)

50%空調都是買住宅裝修帶來的需求,一般跟房子銷量有關

房產一般有一個固定周期,控規 拍地 預售 簽約 收房 裝修 入住

買空調一般是一次性賣幾台

電商出貨量是假的需要特殊處理

溫度對於空調銷量很重要,越熱越好賣

搜尋流量和上架進貨情況決定了單品銷量,而這兩者主要是取決於轉化率,轉化率好推薦系統會加權給你更多流量,線下成交率高決定了上架進貨

價格和促銷是單品銷量的重要因素,而價格和促銷一般又和年初制定的單品銷量目標有關,也可以說銷量是做出來的

以裝修場景的空調為例,我們按統計局公布的竣工面積換算過,發現50%以上的空調都源於住宅和商業產權的房屋購置需求,而基於行業洞察,我們可以透過爬蟲和內部系統得到以下鏈路的數據:

控規:提前3-5年政府會規定每個區每個板塊,具體是蓋醫院住宅還是學校商場,而且會規定容積率來規定建成面積不得高於某個值,面積就對應了空調需求了;

招掛拍:在建成之前,會開展土地拍賣,拍賣會有公告、成交,以及2年的開發期限,不允許捂盤銷售;

預售證和網簽:開發商會申請預售證,預售證一般會標明這個小區有多少棟樓多少套房子,每套房子狀態是不是已經網簽,預計什麽時候收樓;

竣工:我們可以查到每個小區每棟樓是不是已經交付竣工;安裝卡:我們可以透過內部安裝數據知道每個小區每一期是不是已經上了安裝卡,印證該小區已經開始家裝;

前裝電器:買房子一般裝修先做廚衛和櫥櫃,再買空調,所以廚衛賣的好空調後面一個月也會賣得好,其銷量增幅關聯性很大,比如有一個負責營運同學比較留心,剛好看到了關於沈陽棚改集中交付的新聞,再結合看看發現自己廚房大電也賣的很火,冒險備了幾倍的空調庫存,這後續多賣了10多20億、單市4倍多增幅的銷售額。。其他人都沒得賣,就他有。

你看,透過以上數據,我們可以提前掌握50%的空調需求,再結合氣溫、價格、節點等資訊做綜合判斷,完全可以幫助空調提前1-2年開展精準研發、提前數月精準備產備貨、提前幾周精準行銷(如新小區業主分裂特權、小區活動、用LBS地理位置投資訊流廣告等)。

又比如說你是做汽車房產等留資加微類行業定向模型特征,你可以爬汽車銷售房產銷售,給他們打上賣的什麽品牌什麽價位什麽板塊的房產的標簽,然後對這些銷售加的好友按標簽分類聚合做成特征,這個強特征直接進召回,粗排精排,就能秒殺大多數什麽dnn 亂七八糟的模型改動了。。。

又比如做廣告平台的,你可以根據adx和rta的競價資訊(對什麽id 用什麽item出什麽價),把item打上商品 內容的標簽,去逆推背後的dsp廣告主所出價id的需求,比如你肯定對自己的精準使用者高roi使用者出高價嘛,我直接把他弄成特征直接進召回,推給你類似的item,這個量可比曝光大多了,效果秒殺一堆雙塔什麽亂七八糟多路召回的設計啊

所以說,行業專家來做特征,真的會很刁很厲害

每個演算法,都願意被行業專家包養

https://www.zhihu.com/video/1381796276036579328

第二步,【因子】羅列邏輯嚴謹的因子和數據需求

做因子結構,邏輯很重要。。比如空調的最終銷量可以是漏鬥漏出來的,也可以是邏輯樹一樣一個個分類壘起來的。。

按漏鬥邏輯的話,你能不能把漏鬥的各個環節羅列出來,每個環節的影響因素搞出來?比如從房子數量到空調社會需求量,再到電商流量,到品牌流量,到單品流量和轉化

按樹邏輯的話,你能不能把樹的各個枝丫列出來,每個枝葉背後的影響因素能不能羅列出來?比如分成 裝修 換新 等個場景,分別去找場景的銷量因素

貼一張我做的漏鬥特征把

第三步,【梳理特征體系】做成一個反映使用者需求的標簽體系(上一步是因子,沒到標簽級別)

部份人也喜歡叫知識圖譜,其實嚴格來說,知識圖譜其實是谷歌首創的模型概念,最近四五年很火感覺概念有點泛濫,不是一回事,所以寫標簽體系會更準

又比如,我們想向使用者推薦遊戲,發現玩遊戲,有人喜歡容易玩的難度低的,不會玩復雜的,有人喜歡畫面美好的,有人喜歡仙俠,有人喜歡社交場景隨大流的,你如果從遊戲策劃專家那個級別去想問題,整個特征這麽出發去想,整個構建出來的特征就會比較給力,能反映使用者需求,強化推薦效果

核心是 標簽體系要反映使用者的 →需求!

最博大精深 虛無縹緲 又最 關鍵的一個詞

→需求!需求!需求!

她是所有廣告預算背後無數的行銷人員(品牌,電話銷售,中介, 電商營運 文案 詳情頁落地頁策劃) 和產品人員(房產策劃 遊戲策劃,商品企劃,外觀設計,課程策劃)夢中的女神

他們會拼盡全力,用各種復雜使用者定位,釘選一小撮特性的persona,做focus group訪談 入戶訪談 ua觀察 試用報告,定性拆解出核心維度,然後用定量調查,滿意度調查,競品調查,用這些維度去對「使用者需求」描述,把它變成「產品開發需求」,期望做出像 iphone 元氣森林 小米手機 原神 學而思 深圳灣一號 花西子眉筆 完美日記口紅 那樣一炮而紅的超級產品

所以做標簽體系,一方面是工程套用落地到特征或者模型上,另一方面是,你真的要鉆進去,成為一個專業的產品人員和行銷人員,來了一個產品,你的圖譜就能把它的設計意圖給逆推回來,快速定位回它當初設定市場定位那個persona的人群去

對產品本身的理解,就是推薦系統冷啟動的最佳燃料

所以,最便捷的方式不是想破腦袋去拍維度,而是學習學習再學習,問專家要一份專業的產品或品牌策劃報告,能決定億級品牌 研發開發預算那種報告,努力看懂行業裏大師的書 部落格 分析文章 寫的啥

下面放一個我在電商領域做的特征標簽體系(簡化版),感覺還是挺全的,用sku聚合的辦法做了很多強特征,換了特征版本以後,投放roi提升了起碼30%,結合其他樣本集的技巧,別說做數據服務的友商,平台自己的策略演算法來做都追不上這個效果(事實上差很遠,看不見車尾燈,哈哈)。。

第四步,【原子特征】用專家視角構建超強原子特征和特征值

舉個栗子,溫度對空調銷售的特征怎麽構造?

方法論還是,知識→因子→特征

知識:業務告訴我們,人們感覺越熱 ,就越需要空調,關鍵是怎麽量化這種感覺 的強度大小呢?

量化:首先溫度越高越需要空調,但它估計是個廠字型正相關規律,其次近期連續熱的日期越多越需要空調,連續性和近期2個都需要量化,成正相關

特征:可以構造 近x天y度以上有z天 這樣的特征,x可選近7 10 15 20 30天 y可選 24 25 26 27 28 29 30 40度 z可選 1234567 10 15天以上,暴力做線性相依性(z值作為連續值)或皮爾遜卡方檢驗(onehot編碼),看那種方案最具有解釋性

不過還有很多需要分析的問題,溫度用預報溫度還是真實溫度,用單一指標溫度(直接最高低值)還是復合指標溫度(具體是均值權值再說,各個地市省份溫度要不要用人口加權,對應溫度下影響的人口才是影響銷售的核心要素,最高低值要不要合算,因為這個關系到人的體感),用過去溫度還是未來溫度,共2×2×2種選擇,訓練集和預測集,在這裏分別怎麽選?

還有例子,好多人在電商平台上購買商品都是半小時完成決策的,結果很多做電商的策略演算法竟然用t+1特征去做特征和潛客池,我特麽真的是醉了,先不說模型召回率,光潛客池的召回率50%都不到。。。真是沒常識到一定地步了。。。。

以上每個問題沒考慮好,不懂行業特性,搞出來的這些這個原子標簽可能就崩了。。。