当前位置: 资讯 >

因果推断在腾讯视频增长业务的应用

来源:DataFunTalk 发表日期:2023-06-17 05:56:48

导读 因果推断概念成为近两年的热点,业务中的落地场景也日益丰富与广泛,与“增长”十分匹配。腾讯视频的增长业务于近几年陆续开展对于因果推断的尝试,本文将分享相关应用案例。今天的介绍将针对业务场景落地与技术创新探索,围绕下面三点展开:

全文目录:


(资料图)

1. Uplift增益模型

2. PSM用户匹配

3. Spark CausaIML

分享嘉宾|常铮 腾讯 腾讯视频用户增长数据科学负责人

编辑整理|王雨润 北京大学

出品社区|DataFun

业务场景落地一方面分享如何通过Uplift模型增强用户理解,并分享将其应用于投放、活动等四个具体落地案例;另一方面,将PSM作为AB实验的补充工具进行增量效果度量,总结PSM准入逻辑与评估步骤,并分享进行增量效果评估的四个落地案例。技术创新层面分享Spark CausalML包的封装情况,以解决传统包无法应对的海量样本的因果推断问题。

01

Uplift增益模型

首先和大家分享Uplift增益模型。

1. 营销用户的四个象限

将干预行为定义为发放优惠券,横轴表示在“无干预”情况下的购买状态,纵轴表示在“有干预”情况下的购买状态,可将用户划分为四个象限:

自然转化型用户:不管是否发放优惠券,都会购买 南辕北辙型用户:不发优惠券会购买,发放优惠券不购买 干预敏感型用户:发放优惠券会购买,不发放优惠券不购买 心如磐石型用户:不管是否发放优惠券,均不会购买

通过Uplift模型,我们希望能够识别干预敏感型用户以获得增长部分。在响应模型(response model)中,仅通过计算发放优惠券后的购买转化率进行用户识别与决策,可能存在潜在偏差。但Uplift模型通过比较发放优惠券前与发放优惠券后的购买转化率,能够更精确识别存在增量的干预敏感型用户,用以指导营销活动。基于这条思路,我们通过Uplift模型来识别干预敏感型用户,并对应进行精细化人群策略。

2. Uplift模型比较

使用Uplift增益模型估计某种干预对个体行为的因果效应,将人群X随机分为实验组和对照组,给实验组施加干预T,计算某输出指标Y在两组中的差异,即为干预带来的增量。常用方法包括:

S-learner:One-Model的差分响应模型 T-learner:Two-Model的差分响应模型 X-learner:基于T-learner的反事实推断模型 DragonNet:NN based的深度模型

3. Uplift模型效果评估

因为Uplift模型得到的结果是反事实结果,因此无法使用回归模型中常用的均方误差RMSE等方式进行评估。常用的模型效果评估方式包括Uplift分位图、Qini曲线等。

分位图按照用户模型预测Uplift分值进行横轴分桶,纵轴显示实验过程所观察到的实验组与对照组之间差异,较直观、便于理解。如果分位图能“左高右低”较为单调地显示预测结果与实验结果,则说明模型结果能较好地符合预期。

4. 应用案例

(1)广告投放拉活

广告投放场景以ROI为主要考核目标,常用优化主要涉及投放前进行人群识别、精准锁定用户。传统模型包括基于规则圈选用户与根据业务经验定向投放人群,并逐步演进至利用响应模型定位高价值用户。

然而问题在于高价值用户并不等同于高增量用户,因此需要使用Uplift模型精准识别能够带来增量的用户。将Uplift模型内的“干预”定义为广告曝光,“结果”定义为端内播放。

初版模型抽样100万数据,使用较为常用的Meta Learner方法,利用CausalML包对Uplift进行建模估算;第二版模型纳入8000万更大数据量,在Spark环境下分别尝试S-learner和T-learner进行全量建模;第三版模型使用深度模型DragonNet,进一步取得更优收益。通过Uplift分位图识别具有高Uplift分位数分值的增长用户,可以在控制业务预算消耗的情况下选择头部30%的用户进行广告精准投放。腾讯视频根据Uplift模型选择头部30%用户进行精准投放,其播放转化率相比通投提升,带来投放ROI的大幅改善。

(2)内部流量位运营

腾讯视频App内部流量位包括拍脸图、气泡、挂件等,是各种增长营销活动在App内影响用户的重要触点。但同时,内部流量位的使用会对用户的端内浏览过程造成打扰,因此需要格外关注其对平台的负向影响。根据内部流量池的全局holdback实验,内部流量位触达用户的过程对平台次留指标产生显著的负向影响。

为均衡内部流量位对平台大盘的负向影响与业务对内部流量位的使用需要,使用Uplift建模推断内部流量位的使用对平台次留的因果效应。模型中的“干预”定义为用户是否被内部流量位触达,“结果”定义为平台的次留。

基于472个用户相关特征,使用XGB T-learner分别对实验组和控制组用户进行留存的二分类训练,Uplift分位图显示负向影响用户占比较为稳定,对Uplift分值后5%的用户剔除内部流量位触达后,可以实现对次留的无显著影响。目前,该模型在线上做例行化部署,对于Uplift分值后5%的用户任何营销策略均不触达。

(3)推送下发策略

推送是用户增长中最常见的触达渠道之一,过高的推送人均下发条数对用户体验造成负向影响。减条数实验发现推送条数降低后点击量、点击率均明显下降,手动维度亦无法识别推送条数下降场景下保持点击的用户人群。因此,将“干预”定义为推送条数的减少,“结果”定义为用户是否点击推送,通过构建Uplift模型识别对于减少推送条数具有不同点击行为响应的用户人群。

分位图结果显示,约有10%用户对减少推送条数的干预行为响应敏感,会大幅度减少点击量与点击率。因此根据Uplift模型预测结果,对该部分用户不进行推送下发条数删减,7日内活跃用户UTR指标负向影响的相对差异相比于全量减发改善了。

(4)限免券下发策略

为了提升非会员在端内体验,产品策略上尝试对非会员用户下发限免券用于观看会员剧集。实验数据显示,限免券的下发明显提升用户播放时长,但对于会员收入有不可接受的负向影响。基于付费模型开展用户分析,发现降低对会员收入负向影响的同时播放时长收益也被大幅稀释。因此,希望借助Uplift模型平衡“会员开通负向影响”与“播放时长正向收益”,找到发放限免券对会员开通负向影响小、播放时长提升大的目标用户群体开展精细化运营。

使用双目标Uplift增量模型,“干预”定义为活动曝光,“结果”定义为用户是否付费和是否播放。同时构建两个Uplift模型,将两个Uplift分值标准化后按比例融合得到综合Uplift分,找到会员负向影响小、播放时长提升大的目标用户群体与需要屏蔽下发的非目标用户群体。根据模型结果,屏蔽20%的会员负向影响大、播放时长提升小的非目标用户群体,不发放限免券。

02

PSM用户匹配

接下来和大家分享增量评估部分。

1. PSM方法的准入逻辑

实验是黄金准则,但针对部分因为成本、技术实现等因素无法进行实验或策略影响用户渗透率过低导致实验失效的场景,需要准实验工具进行因果推断,以满足效果评估需求。准实验方法包括双重差分(DID)、合成控制法、倾向性得分(PSM)等。

对于数据侧,进行因果推断前需要进行前置检查,主要关注:

科学实验优先 实验质量检查 PSM前置检查

2. PSM步骤

业务问题定义:依照定义的业务问题,按用户漏斗拆解,选定比较两组 倾向性得分匹配:估算倾向性得分并匹配,注意特征选择的独立性 平衡性检查:核验实验组对照组是否配平 因果效应推断:计算增量评估与显著性 敏感性测试:检验测算的增量评估稳定性

3. 应用案例

(1)运营商一分钱开会员活动

经数据分析,业务筛选流失但高价值用户,进行运营商1分钱产品投放,活动通过气泡触达用户资源位,用户点击后可享受低价会员产品。由于AB实验上线后用户渗透率低,无法得出显著收益,故选用PSM方法推断该运营活动的因果效应。

圈定PSM实验组为AB实验中的实验组点击用户,PSM对照组为AB实验对照组中活跃用户,匹配(matching)后得到两组目标用户进而得到关于活跃、播放等指标的增量评价。

(2)激励广告解锁付费剧集

预期以“提前解锁会员内容”为钩子,以“激励广告任务”激励非会员用户拉长播放时长。上线AB实验后,实验用户转化至成功用券用户比例过低,故采用PSM推断该营销策略因果效应。模型测算结果显示实验组播放时长相对提升%,指标正向且显著。

(3)下发小天数卡活动效果评估

增长运营借助活动下发小天数卡,促进用户价值提升。由于该活动在“奖品下发”层不支持实验分流,因此考虑借助PSM因果推断方式评估单一奖品对活动的增量价值。模型结果显示该活动对于用户活跃LT指标与播放时长均有显著提升。

(4)福利中心效果评估

增长以福利中心为据点,进行用户运营以提升整体平台收益,需要对福利中心活动的增量效果进行例行化评估。但由于福利中心的常驻入口无法进行实验分流,故采用因果推断方式找到对照组用户并进行增量价值评估。PSM模型测算结果显示福利中心对于用户活跃度、播放市场、平台收入等指标均有显著正向影响。

03

Spark CausalML

最后和大家分享一项技术创新的探索,从应用角度探索分布式的因果推断工具Spark CausalML。

目前较为常用的CausalML/DoWhy(PyWhy)/MatchIt等包仅限于单机性能,无法对百万级及以上的数据量级进行建模,因此我们开发了分布式PySpark版本,满足大样本因果推断需求。Spark CausalML是一个用来做因果的PySpark包,此包可以直接应用于对实验数据的推断,也可对观测数据进行匹配后再进行推断。

以下是不同包的功能对比:

包的架构层面针对大样本数据进行了Spark脚本的重写,同时也包含了对于小样本数据推断操作的封装。Spark CausalML目前已在腾讯内部开源,增长侧的因果推断任务均使用此包例行调度,正积极推进外部开源中。

今天的分享就到这里,谢谢大家。

x
推荐阅读 更多