算法推荐的歧视与偏见

近日,牛津大学互联网研究院的一项新研究显示,算法正在基于我们的浏览行为推断一些敏感的个人特征,比如,种族、性别、性取向和宗教信仰。这些特征随后会被在线广告商加以利用,在推销产品和服务时瞄准或排除某些特定群体,或向他们提供不同价格,从而引发新的“歧视”。

算法正在大规模、大范围地进入我们的生活,对广告商来说,智能算法通过对用户的浏览行为、消费习惯等数据的分析,将相关信息内容推送给最有可能与其互动的受众,帮助广告商更加快速到达精准受众群体。一些企业也通过智能算法,由机器承担繁杂的现实认知任务,以计算机的思维帮助企业实现定向招聘、人才筛选、公司决策等问题。智能算法对于普通用户的影响,主要通过个性化推送实现,这种方式有效地解决了信息过载的问题,满足用户潜在和实在的个性化需求。但与此同时,对于“算法偏见”“算法歧视”的讨论也不绝于耳。

连带歧视:更为隐蔽的算法歧视

基于数据分析的智能算法常常带来歧视等问题。算法广告中的种族歧视、性别歧视,以及“大数据杀熟”背后的价格歧视是生活中常见的几种算法偏见。有学者认为,将算法偏见仅仅定义为由于算法程序的片面性呈现在种族、性别、职业身份等之上的消极态度,未免稍显狭隘。他们指出,“算法偏见”是指算法程序在信息生产和分发过程失去客观中立的立场,影响公众对信息的客观全面认知。

牛津大学互联网研究院的这项研究则表明,广告商正在刻意规避以个体敏感特征(如性别、种族等)将目标受众进行分类,而是以貌似中性的特征将用户分成不同的人群,基于人群的类同性来提供不同的产品、价格与服务。主持该研究的学者桑德拉・瓦赫特将这种以中性特征划分人群所引发的算法歧视称为“连带歧视”。

桑德拉指出,根据英国现行的数据保护法规,广告商基于个人敏感特征(性别、种族等)来瞄准信息群体被视为非法。这就意味着以智能算法作为决策工具的企业需要通过其他类别数据的收集,达成对目标对象更为精准的分析,提供更加适合受众口味或有利于自身利益诉求实现的产品和服务。

而连带歧视则意味着,即使看似最无害的中立信息,也存在被滥用的风险。例如“一种放贷算法可能会认为养狗的人群和按时偿还贷款的人群之间存在正相关,因此会将‘养狗’作为一个中性变量,用来优先对某些人放贷”。也就是说,对于数据收集类型的限制并不必然带来算法歧视的减少,相反,这种歧视可能以更加隐蔽的形式存在着。

算法歧视溯源:数据解读现实世界的失败

算法一方面以其超强的洞见能力和探索能力不断强化自身权威,同时又以其复杂晦涩的计算进程和“客观中立”的技术外衣拒绝普通个体的质疑,以此塑造个体对于数据算法的信任,重构人类社会的运作规则。然而大量研究指出,算法程序的设计、数据挖掘、数据处理等过程都有可能被悄然嵌入偏见的基因。

首先,我们所生活的世界并非可以完全被量化计算的文化空间。算法的基础是大数据的挖掘和处理,这种实证主义范式以量化的手段理解人类行为和社会现象,通过数学模型的构建推断出不同事物的因果关系和相关关系,个体主观的解读被更加客观的数据处理所取代。然而,将我们所生活的空间完全变成“编码空间”是不现实的,人类社会存在数据无法言说的领域,数字逻辑也无法完全解答个体的行为逻辑。在社会化媒体平台上,算法通过挖掘用户点赞、转发、收藏等数据,来判断用户的信息偏好。但是用户的信息行为及动机是丰富且复杂的,用户转发和收藏某个话题内容不全是出于热爱,可能是出于好奇,也有可能是为了批判而找论据。

其次,样本数据的有限性和可伪造性也进一步影响算法的准确性和公正性。尽管当前已经进入了大数据时代,但是由于各种商业平台的利益竞争、用户隐私的保护规定和技术手段的有限性等因素,加之每时每刻都在产生量级规模的数据,全样本数据的获得并不具备可行性。例如,推特、微博等社交平台基于用户数据保护规定和平台利益,开发人员难以通过官方许可渠道获得最全面的用户数据。与此同时,CNNIC发布的第44次《中国互联网络发展状况统计报告》显示,截至2019年6月,我国网民规模达到8.54亿,互联网普及率达61.2%,仍然有相当一部分人群生活在互联网世界之外,智能算法对于这部分人群的数据“选择性失明”。信息热度数据的可伪造性也为算法准确性带来遮蔽,可人为操纵的点赞量、转发量等虚假流量对于算法规则的欺骗,其带来的推荐结果必然包含误差和偏见。2019年,央视起底数据流量造假产业,指出在微博上“买热搜”“买流量”的现象,是对影视文娱行业的侵蚀。而这些被买了流量的信息内容在微博的算法推荐机制之下,随即出现在许多网民的主页上,与部分用户的信息偏好相离甚远。

再次,算法在描绘和解释现实世界的同时,也对人类社会的结构型偏见进行了继承。作为人类思维外化的智能算法,在数据选取标准、数据模型的权重设定、语用分析和结果解读等各环节都贯穿着人为因素,因此算法不可避免地会反映设计者对于世界的认识。而当设计者将自身固有的社会成见嵌入规则之中时,智能算法在反映这种偏见的同时,也可能放大歧视倾向。2018年路透社揭露亚马逊公司开发的人工智能招聘系统存在性别歧视,算法在进行简历筛选时,对包含“女性”等词的简历进行降权处理。英国《金融时报》也有文章认为,当前科技行业男性占主导的地位,是导致这种算法偏见的产生的原因。

此外,利益团体的资本嵌入,也是引发算法歧视的重要原因。2014年,美国白宫发布的大数据研究报告指出,由设计者造成的算法歧视可能是无意识的,也可能是利益团体对于弱势一方的蓄意剥削。技术神话之下用户对于数据的迷信,给予了资方用算法中立的外衣来操作舆论、控制受众的机会,“大数据杀熟”便是一种典型的价格歧视。商家通过大数据分析,为不同人群提供动态定价,以获得更大限度的消费者剩余,而对于被以高价供应的消费者群体而言,即是以更高的价格买了同等商品。而当广告商以貌似中立的特征描绘人群,而非以种族、性别、职业身份等归类人群时,这种操纵被掩饰得更隐蔽,消费者成了更加无力的反抗者。

算法歧视下窄化的个人选择与社会偏见

连带歧视概念的提出提示人们,以往看似“没用”的数据类型也成为了可利用的数据主体,数据收集的范围有进一步扩大的趋势。一方面,这意味着个体用户想要在互联网上寻求“隐身”的难度增加;而另外一方面,这种趋势意味着位于大数据边缘的群体更加难以被言说。以往被诉说的数据主体更加深刻地被诉说着,而被遗忘的数据主体仍然被遗忘着,连带歧视提示的是智能算法为数据富集群体和数据边缘人群的带来的不平等后果。

对于使用智能算法的公司来说,大部分时候,智能算法的偏差和失误所导致的损失都在可承受的范围之内。但是对于“被误差”的个体而言,算法歧视给某些人群带来了完全不同的结果。当特定的产品与服务仅向特定群体投放时,实际剥夺了个体的知情权利,窄化了用户的选择范围,导致某些对象失去获得新资源的机会。有学者指出,科技可以创造社会进步,但是科技的不均衡则会导致社会知识和权力的集中,加剧阶层分化现象。算法歧视实际上将个体困在了原有的社会结构之中,加剧社会资源分配上的“马太效应”。

而在社会认知层面,算法歧视固化和放大了人类社会的偏见。英国学者詹姆斯・布莱德尔指出,对机器的信任是加深这种“自动化偏见”的前提,数据以事物的现状为模板,那些不能被归入旧有模式的都将被排除,计算投射的未来与过去如出一辙。与社会文化同构的智能算法,无法完全规避来自人类社会的偏见。从偏见衍生出的算法规则输出了具有歧视性的结果,而这种结果作用于现实世界的个体,个体又成为一种数据再次被算法所学习,由此形成社会偏见的循环固化。而连带歧视的概念指出,最无害的人群分类都可能产生有害后果,这就意味着貌似中立的个人数据也可以成为将人群划分为三六九等的要素,放大了算法的歧视倾向。

数据样本收集的有限性和人类社会偏见的顽固性导致算法歧视具有必然性,而对连带歧视应指出的是,我们不仅需要对个体的敏感特征信息进行保护,同时也要警惕中性的数据信息带来算法歧视扩大化的可能性。不少国家已经意识到算法歧视带来的恶性后果,展开一系列立法实践,意图提高算法运行机制的透明度。与此同时,以伦理进行引导、推动平等的数据接触权利,是数据时代刻不容缓的工作。

(作者:人民网新媒体智库 张力、郑丽云)