即使不是被故意滥用 ,算法推荐也可能暗含社会的偏见和歧视 。 去年10月 , 推特的推荐算法被发现“无意中放大了右翼团体内容的传播”:政治右翼当选官员发布的推文在算法上被放大的程度超过政治左翼;右翼媒体比左翼媒体的影响力更大 。
更早之前 , 职场社交网站领英的搜索算法(也可以看作一种形式的推荐算法:根据搜索关键词推荐“最匹配”的内容) 被发现存在性别歧视 , 男性求职者会被放在更高的位置 。 谷歌的广告平台AdSense被发现存在种族偏见 , 如果搜索关键词看起来像是黑人的名字 , AdSense就会有更大概率推荐犯罪记录查询相关的广告 。
因为算法推荐有这些潜在危害的风险 , 欧美一些研究者很早就提出对推荐算法加以管制 。 本次《规定》中要求的算法机制机理审核、科技伦理审查、允许用户关闭算法推荐等措施 , 在国外都早有人提过建议 。 然而国际互联网大厂从未将这些建议落地 , 还经常辩称“基于深度学习的算法无法被审核” 。 为了帮助读者理解《规定》的重要意义 , 笔者将简要介绍算法推荐背后的技术原理 。
算法推荐的技术原理
各种形式的算法推荐 , 包括《规定》中列举的“生成合成、个性化推送、排序精选、检索过滤、调度决策”等形式 , 当下主流的实现方式都是采用机器学习(machine learning) , 背后的原理都是基于贝叶斯统计(Bayesian statistics)方法的预测——听起来很高深 , 其实通过一个简单的例子很容易就能理解 。
假设你丢一个以前没用过的骰子 , 你认为有多大概率丢出6点?当然 , 在没有任何额外信息的情况下 , 你的预测是“1/6” 。 然后 , 你连续丢了20把 , 每把都是6点 , 这时候你认为下一把继续丢出6点的概率是多大?经典概率论说 , 每次丢骰子都是一个独立随机事件 , 过去丢出的点数不影响未来丢出的点数 , 所以你的预测仍然应该是“1/6” 。 但很明显正常人不会这么想 。
“这个骰子连丢了20把6点”这项信息很明显会影响对未来的决策(例如可能说明这个骰子被灌了铅) , 因此你会预测下一把有很大概率还是会丢出6点 。 简化地说 , 贝叶斯统计就是“基于过去已经发生过的事件预测未来将要发生的事件” 。 各种算法推荐都是在进行这样的预测:
知乎的 个性化推送就是预测用户可能喜欢看什么问题和回答;
百度的 检索过滤就是预测用户可能对哪些搜索结果感兴趣;
淘宝的 排序精选就是预测用户可能购买哪些商品 。
这些预测所基于的“过去已经发生过的事件”则是与用户相关的、非常宽广的数据集 , 不仅包含“用户看过/赞过/收藏过哪些回答”这种直接的用户行为 , 还包含大量用户本身的属性信息:年龄、性别、地域、教育程度、职业、上网设备、买过什么东西、发过什么言论、住多大房子、家里几口人、喜欢张信哲、反感蔡徐坤……这些信息都会被用于预测用户的偏好 。
每一项类似这样的属性信息也被称为“特征”(feature) , 对于一个普通用户 , 互联网公司通常拥有数千、数万项特征信息 。 其中一些特征信息来自该公司本身的业务 , 更多的特征信息来自其他平台 , 三大运营商、微博、腾讯、阿里、手机制造商等企业都会SDK(软件开发包)的方式与其他互联网应用共享用户个人特征信息 。
文章图片
知乎与第三方共享个人信息的清单(部分)
在所有这些特征信息中 , 给定一项具体的预测 , 有些特征与这项预测的相关度较高 , 有些特征的相关度则较低 。 如果能从预测的结果回溯到哪些特征产生了重要的影响 , 我们就可以说这种算法“具备可被审核性”(auditable) 。 例如最简单、最基础的机器学习算法线性回归(linear regression) , 其原理就是根据过去的事件给每项特征打一个权重分数 , 然后根据这些权重分数预测未来的事件 。 从一个线性回归的预测模型中 , 可以直观地看到每项特征的在预测中的权重 , 因此线性回归是特别容易审核的一种算法 。
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
