机器之心专栏
作者:快手社区科学部
在本文中 , 快手的研究者们提出了一种新的 HTE 预估方法——多元因果森林模型 , 并且结合高效的整数规划求解算法 , 效果显著优于业界常用的几种树模型方法 。在智能营销场景下 , 比如美团的满减优惠券 , 淘宝的购物红包等 , 需要形成系统化的营销决策 。 基于此类场景 , 快手为了实施更细粒度的营销决策 , 提出了一种新的多元因果森林模型 。 基于快手亿级别的用户量 , 快手社区科学部设计了资源分配并行算法 , 高效产出智能营销决策 。 为了解决多元因果模型的评估问题 , 该研究利用随机匹配的思想 , 提供了一个供业界参考的方法 。 最后 , 通过线下仿真实验和线上真实 A/B 实验 , 验证了 LBCF 算法的有效性 , 该技术已经申请中国发明专利 , 并在快手智能营销业务中获得广泛应用 。
异质性因果效应 (HTE) 是因果推断理论需要解决的核心问题 , 其概念最初来源于医疗领域 。 HTE 是指对于同一种干预手段 , 对不同受众的影响因人而异 , 在计算广告、个性化治疗、个性化教育以及公共政策等领域都有广泛的应用 。 为理解其概念 , 举个智能营销领域的例子 , 对于同一补贴力度的营销手段 , 某些受众会立即转化 , 而某些受众可能根本不会转化 , 如何准确区分出这些受众便是 HTE 需要解决的问题 。 近年来 , 学术界不断涌现新的 HTE 方法 , 其中斯坦福大学经济学教授 Susan Athey 等人提出的因果森林模型【1】因其良好的可解释性和出色的效果在业界获得逐步认可 。
文章图片
- 论文链接:https://arxiv.org/abs/2201.12585
- 论文代码:https://github.com/www2022paper/WWW-2022-PAPER-SUPPLEMENTARY-MATERIALS
多元因果森林模型
智能营销要研究的核心问题是 , 用户对不同补贴额度的转化效果差异有多大?这些不同的补贴额度可以被看作是因果推断中的 treatments , 所以场景驱使研究者去研究用户在不同 treatments 下的转化效果 , 即需要多元因果模型 。 以树为基础的模型具有良好的解释性并且在机器学习中展现了很好的效果 , 在本文中 , 该研究主要考虑以树模型为基础的 HTE 预估方法 。 该方法可以应用于任何需要预估 HTE 的领域 , 本文仅以智能营销场景为例进行阐释 。
本文提出的多元因果森林模型 , 模型结构如图 2(示意的例子) , 该模型结构有两个优点:第一 , 单一一个模型能够同时处理任意种干预手段 , 否则 , 几种干预手段就需要维护相应数量的二元因果森林模型;第二 , HTE 的定义要求各干预手段对应一致的特征子空间 , 该模型结构保证了这一点 , 这对准确估计 HTE 至关重要 。
文章图片
图 2 多元因果森林模型 (注:图 2 中的 Age , Inc. 等数据仅为了示意说明)
为此 , 该研究重新设计了因果森林的分裂准则 , 在每一次对树节点进行分裂时 , 不但强调不同节点间的异质性 , 即节点间分裂(Inter Split) , 同时也强调节点内不同干预手段的异质性 , 即节点内分裂(Intra Split) 。 从计算复杂度来说 , 在寻找一个树节点的特征分裂点时 , Inter Split 可以快速一次性预先计算出分裂所需数据 , 而 Intra Split 依赖于树节点间分裂的结果 , 因此 Intra Split 每次都需要重新计算分裂数据 , 极其低效 。 为了平衡算法的效率和效果 , 该研究采用了两步走的分裂算法:
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
