当前位置: 华文问答 > 科学

有哪些精彩的特征工程案例?

2020-06-07科学

今天来吹吹审美问题

看了些 论文 kaggle 网文 等,从个人口味觉得,谈得上「精彩」的特征工程案例不算多。。因为大多数人都聚焦在「技术」层面。。

都是啥,这个要log onehot 分桶 histogram,那个要embedding,另外一个在模型结构里COEC,还有的直接上千亿维id特征,这是工程的美,不是业务的美

有业务美感的特征长什么样?

今天我也想来给大家介绍介绍,我心目中有「业务美感」的特征工程怎么搞的

一般开发的套路是,数据→特征,只有工程的美感

而业务的套路是,知识→因子→特征,主要是业务美感

比如很多人都知道预测糖尿病用pmi肥胖指数(体重除以身高²)非常准,这是挺棒的一个 把业务洞察转化为量化特征 案例,挺有这种美感的:

1、医学知识→肥胖导致糖尿病

2、构建因子→肥胖因子

3、搞搞能量化能表达肥胖因子的特征

→梳理特征体系,首先收集数据,可以按照望闻问切排列,也可以把体型体重体态 腰围 腿围 胸围 身高 ,按照身体部位扩列进去,尽量mece,架构清晰

→构建原子特征,特征做下表达上的处理强化,出来bmi肥胖指数 腰臀比 之类

下面介绍下我的一点凌乱套路,到底怎么做出业务美感的特征

第一步,【知识】成为行业专家

以预测空调的销量为例,你要去找专家访谈,去深挖影响要素:

上次有个top供应链数据服务公司的博士哥想200万卖预测模型,一看那个特征我都要笑了,garbage in garbage out,净给我弄些gdp 商品属性之类的辣鸡特征,一看就是大路货,一点行业洞察都没,给大家尴尬的,还想卖几百万)

50%空调都是买住宅装修带来的需求,一般跟房子销量有关

房产一般有一个固定周期,控规 拍地 预售 签约 收房 装修 入住

买空调一般是一次性卖几台

电商出货量是假的需要特殊处理

温度对于空调销量很重要,越热越好卖

搜索流量和上架进货情况决定了单品销量,而这两者主要是取决于转化率,转化率好推荐系统会加权给你更多流量,线下成交率高决定了上架进货

价格和促销是单品销量的重要因素,而价格和促销一般又和年初制定的单品销量目标有关,也可以说销量是做出来的

以装修场景的空调为例,我们按统计局公布的竣工面积换算过,发现50%以上的空调都源于住宅和商业产权的房屋购置需求,而基于行业洞察,我们可以通过爬虫和内部系统得到以下链路的数据:

控规:提前3-5年政府会规定每个区每个板块,具体是盖医院住宅还是学校商场,而且会规定容积率来规定建成面积不得高于某个值,面积就对应了空调需求了;

招挂拍:在建成之前,会开展土地拍卖,拍卖会有公告、成交,以及2年的开发期限,不允许捂盘销售;

预售证和网签:开发商会申请预售证,预售证一般会标明这个小区有多少栋楼多少套房子,每套房子状态是不是已经网签,预计什么时候收楼;

竣工:我们可以查到每个小区每栋楼是不是已经交付竣工;安装卡:我们可以通过内部安装数据知道每个小区每一期是不是已经上了安装卡,印证该小区已经开始家装;

前装电器:买房子一般装修先做厨卫和橱柜,再买空调,所以厨卫卖的好空调后面一个月也会卖得好,其销量增幅关联性很大,比如有一个负责运营同学比较留心,刚好看到了关于沈阳棚改集中交付的新闻,再结合看看发现自己厨房大电也卖的很火,冒险备了几倍的空调库存,这后续多卖了10多20亿、单市4倍多增幅的销售额。。其他人都没得卖,就他有。

你看,通过以上数据,我们可以提前掌握50%的空调需求,再结合气温、价格、节点等信息做综合判断,完全可以帮助空调提前1-2年开展精准研发、提前数月精准备产备货、提前几周精准营销(如新小区业主裂变特权、小区活动、用LBS地理位置投信息流广告等)。

又比如说你是做汽车房产等留资加微类行业定向模型特征,你可以爬汽车销售房产销售,给他们打上卖的什么品牌什么价位什么板块的房产的标签,然后对这些销售加的好友按标签分类聚合做成特征,这个强特征直接进召回,粗排精排,就能秒杀大多数什么dnn 乱七八糟的模型改动了。。。

又比如做广告平台的,你可以根据adx和rta的竞价信息(对什么id 用什么item出什么价),把item打上商品 属性的标签,去逆推背后的dsp广告主所出价id的需求,比如你肯定对自己的精准用户高roi用户出高价嘛,我直接把他弄成特征直接进召回,推给你类似的item,这个量可比曝光大多了,效果秒杀一堆双塔什么乱七八糟多路召回的设计啊

所以说,行业专家来做特征,真的会很刁很厉害

每个算法,都愿意被行业专家包养

https://www.zhihu.com/video/1381796276036579328

第二步,【因子】罗列逻辑严谨的因子和数据需求

做因子结构,逻辑很重要。。比如空调的最终销量可以是漏斗漏出来的,也可以是逻辑树一样一个个分类垒起来的。。

按漏斗逻辑的话,你能不能把漏斗的各个环节罗列出来,每个环节的影响因素搞出来?比如从房子数量到空调社会需求量,再到电商流量,到品牌流量,到单品流量和转化

按树逻辑的话,你能不能把树的各个枝丫列出来,每个枝叶背后的影响因素能不能罗列出来?比如分成 装修 换新 等个场景,分别去找场景的销量因素

贴一张我做的漏斗特征把

第三步,【梳理特征体系】做成一个反映用户需求的标签体系(上一步是因子,没到标签级别)

部分人也喜欢叫知识图谱,其实严格来说,知识图谱其实是谷歌首创的模型概念,最近四五年很火感觉概念有点泛滥,不是一回事,所以写标签体系会更准

又比如,我们想向用户推荐游戏,发现玩游戏,有人喜欢容易玩的难度低的,不会玩复杂的,有人喜欢画面美好的,有人喜欢仙侠,有人喜欢社交场景随大流的,你如果从游戏策划专家那个级别去想问题,整个特征这么出发去想,整个构建出来的特征就会比较给力,能反映用户需求,强化推荐效果

核心是 标签体系要反映用户的 →需求!

最博大精深 虚无缥缈 又最 关键的一个词

→需求!需求!需求!

她是所有广告预算背后无数的营销人员(品牌,电话销售,中介, 电商运营 文案 详情页落地页策划) 和产品人员(房产策划 游戏策划,商品企划,外观设计,课程策划)梦中的女神

他们会拼尽全力,用各种复杂用户定位,锁定一小撮特性的persona,做focus group访谈 入户访谈 ua观察 试用报告,定性拆解出核心维度,然后用定量调查,满意度调查,竞品调查,用这些维度去对「用户需求」描述,把它变成「产品开发需求」,期望做出像 iphone 元气森林 小米手机 原神 学而思 深圳湾一号 花西子眉笔 完美日记口红 那样一炮而红的超级产品

所以做标签体系,一方面是工程应用落地到特征或者模型上,另一方面是,你真的要钻进去,成为一个专业的产品人员和营销人员,来了一个产品,你的图谱就能把它的设计意图给逆推回来,快速定位回它当初设定市场定位那个persona的人群去

对产品本身的理解,就是推荐系统冷启动的最佳燃料

所以,最便捷的方式不是想破脑袋去拍维度,而是学习学习再学习,问专家要一份专业的产品或品牌策划报告,能决定亿级品牌 研发开发预算那种报告,努力看懂行业里大师的书 博客 分析文章 写的啥

下面放一个我在电商领域做的特征标签体系(简化版),感觉还是挺全的,用sku聚合的办法做了很多强特征,换了特征版本以后,投放roi提升了起码30%,结合其他样本集的技巧,别说做数据服务的友商,平台自己的策略算法来做都追不上这个效果(事实上差很远,看不见车尾灯,哈哈)。。

第四步,【原子特征】用专家视角构建超强原子特征和特征值

举个栗子,温度对空调销售的特征怎么构造?

方法论还是,知识→因子→特征

知识:业务告诉我们,人们感觉越热 ,就越需要空调,关键是怎么量化这种感觉 的强度大小呢?

量化:首先温度越高越需要空调,但它估计是个厂字型正相关规律,其次近期连续热的日期越多越需要空调,连续性和近期2个都需要量化,成正相关

特征:可以构造 近x天y度以上有z天 这样的特征,x可选近7 10 15 20 30天 y可选 24 25 26 27 28 29 30 40度 z可选 1234567 10 15天以上,暴力做线性相关性(z值作为连续值)或皮尔逊卡方检验(onehot编码),看那种方案最具有解释性

不过还有很多需要分析的问题,温度用预报温度还是真实温度,用单一指标温度(直接最高低值)还是复合指标温度(具体是均值权值再说,各个地市省份温度要不要用人口加权,对应温度下影响的人口才是影响销售的核心要素,最高低值要不要合算,因为这个关系到人的体感),用过去温度还是未来温度,共2×2×2种选择,训练集和预测集,在这里分别怎么选?

还有例子,好多人在电商平台上购买商品都是半小时完成决策的,结果很多做电商的策略算法竟然用t+1特征去做特征和潜客池,我特么真的是醉了,先不说模型召回率,光潜客池的召回率50%都不到。。。真是没常识到一定地步了。。。。

以上每个问题没考虑好,不懂行业特性,搞出来的这些这个原子标签可能就崩了。。。