您好、欢迎来到现金彩票网!
当前位置:秒速快3 > 数据模型 >

想过吗数据错配与模型偏见会带来什么

发布时间:2019-05-17 18:08 来源:未知 编辑:admin

  《算法霸权》数学杀伤性武器的威胁(美)凯西·奥尼尔 著马青玲 译中信出版社2018年9月出版

  想象这样一个场景:想申请红十字会工作机会的凯瑟琳,在收到的拒绝信上,发现了一条非常令其震惊的信息,她的数据资料显示她曾因涉毒遭到刑事控告。凯瑟琳追踪数据产生的原因,发现系统将她和一个同名同姓,又刚好同一天出生的人弄混了。事情弄清楚了,但凯瑟琳的麻烦可不会到此为止。这份错误的信息报告,正在被不同的公司使用,她也许一辈子都要活在证明自己是此凯瑟琳,而非彼凯瑟琳的证明题当中。

  这样的情景,是不是有些无厘头?但据美国2013年联邦贸易委员会发布的一篇报告,全美约5%的消费者其信用报告中包含差错,而差错带来的后果,足以严重到影响他们的信贷、求职。谷歌公司的图片自动识别软件,就曾在2015年将三位年轻的美国黑人标记为黑猩猩。这样的数据差错,在信息化时代可说俯拾皆是。大数据追求的是汇集数据洪流、高速运算,要解决的是趋势预测问题,至于数据运算的精准度,便成了效率之下的牺牲品,迄今在技术层面还未曾深入探讨数据如何精准匹配的问题。

  再先进的机器智能,也需要有个不断试错调整——数据输入、输出、反馈、调整、再反馈的过程。假如将错漏百出的数据全面应用到社会生活中,且针对每一个个体下断言,由此会带来怎样的混乱?

  其实,数据错配,在美国数据科学家凯西·奥尼尔所著的《算法霸权:数学杀伤性武器的威胁》中,仅仅是“数据作恶”的冰山一角。她有大量生动鲜活的案例,证明大数据正在被滥用,在算法的加持下,种种偏见成为“上帝的预言”,固化了社会的某些不公,令贫者更贫,弱者更弱,让无数人的生活因此陷入混乱,甚至造成整个社会的失序。

  那让人看不见、摸不着,却在暗中起效的算法,正在成为一种新兴霸权,凯西·奥尼尔将之称之为“数学杀伤性武器”。除了建模者没有人知道他的运算规律,也没有人了解影响运算结果的关键数据,但它却可以在看似公平的机器运算掩盖之下,堂而皇之地大行偏见,把纷纭复杂的社会现实和千差万别的人,简化成ABCD这样“单纯”的运算结果。算法可以轻而易举地摧毁具有某类特征的人群,让他们成为商家逐猎的目标,甚至因看不见的偏见而在求职、升学、社会保障、公共服务、信贷等领域备受歧视……

  正如同科学不带有善恶属性一般,数据本身并不带有偏见,并不会作恶,令数据变成“杀伤性武器”的是站在背后的人。数据建模者难以认识到自身的局限,在有限的知识范围内他们也难以预测一个数学模型广泛运用于社会,将会产生怎样的蝴蝶效应。

  1983年,美国一家濒临停刊的大学期刊,启动了为全美1800所学院和大学排名的项目,他们对外宣称此举的目的是“指导数百万的年轻人做好人生中的第一个重大选择”,但实际目的不过是想借此让期刊吸引世人目光,起死回生。但问题在于,杂志的编辑并不是教育学家,他们并不清楚什么才是真正好的教育,也不清楚应如何去认定一所大学的软、硬实力,他们不过是将反馈回来的评价大学校长调查问卷,随意设置一个权重比例,计算出综合得分。尽管遭遇了如潮的抗议,这家杂志每年也都在调整数据取得的方法和权重比例,但这项排名依然是罩在各大学头上的魔咒,而不是优化教育的助推器。

  这种毫无科学根据的排名,一旦在公众中传播,效应就会自行固化,且不断自我实现。此中,排名靠后的大学声誉受损,其生源就会恶化,优秀的教授也会相继离去。不久,这些排名靠后的大学就成了不受社会欢迎的学校了。再来看因这种排名而造成的颇具小品讽刺效果的社会现实:各所大学的校长,如同回到了学生时代,捧着各项排名考核指标研究,据此调整学校的教学标准、录取学生的方法,学校软硬件配置,改变学生们的课余活动内容,鼓励学生们去参加各种竞赛、社会活动,以提升学校声誉,甚至把毕业生找到了一份钟点工都算做了学生就业。一所大学忙着去迎合一家杂志的评价口味而不是教书育人,一群学者“苦心”于数字造假而不是坚守学术尊严,这是何其的荒唐。长此以往,这种排名对社会的伤害又将是何其之深?

  大数据有无限潜能,但并不等于利用大数据的人拥有上帝般的智识,他们在利用大数据建模时,会在无意识中植入一些偏见。正如书中所示,这些偏见会自行固化,逐步成为大规模“杀伤性武器”。比如一家信用评估公司开发了一套信用评估模型,它自动利用互联网搜集个人的资产、负债、收入、学历、居住区、过往还贷记录,以及犯罪记录等信息,生成个人的信用档案。这看似公正的信用评价体系,其致命误区在于用一个人的过往推测他的未来,相信一个贫穷的人将永远贫穷。因为他过往的贫困,所以不能申请贷款,这也就令其失去了通过购买设备、投资等去创业致富的机会,同时也会令其信用状况继续恶化,无法通过改变收入状况去偿还欠款。如果你出生在某个贫民区中,你的社会信用得分,就已经输在了起跑线上;如果你所在的族群,过往有较高的犯罪比率,那么你就会在就业时受到种种限制;如果你家族或本人有精神疾病史,你就难以通过公司的就职筛选……在此,数据已经通过各种数学模型,变成了有针对性的杀伤性武器。

  因这些显失公平的数据测算指标而遭到歧视性待遇的人,通常都不清楚导致自己不幸的真实原因。即使知道了是算法在从中作乱,也往往申诉无门。

  “模型不会倾听,也不会屈服,对诱惑、威胁和哄骗以及逻辑通通充耳不闻,即使被评估者有充足的理由怀疑得出结论的数据被污染。”这些模型的设计者,数据的提供者,往往来自商业领域,他们以追求效率为天职,并不担当社会道义。

  数据提供者可能是二手数据商,他们网罗各种来源的数据,再卖给使用者,为了规模和效率,对他人造成的误伤,并不在他们考虑的范围之列。回到本文开篇提及的凯瑟林那里,她不论如何提升专业能力和与人沟通、以及面试的技巧,在求职过程中,总要被非难,很多招聘单位,根本不给她解释的机会。在数据被广泛滥用的过程中,数据已然失控。

  没有模型能囊括现实世界的所有复杂因素或者人类交流上的所有细微差别,有些信息会不可避免地被遗漏。数据建模者,不论出于何种目的建立模型,为了提升效率,让一切皆可测量,必须忽略现实生活中千差万别的人、千差万别的事,而将他们笼统归到某一大类中作数据化运算。比如,一些模型为企业员工的工作表现打分,对那些难以量化的岗位而言,他们的沟通交流技巧,调节办公室氛围的能力,为周围的人带来的正能量,都被模型通通忽略掉了,而他们所书写的文案、提交的设计稿,制作的课件,鼓舞人心的演讲,都被当成了无差别产品。这真是对人类智力莫大的讽刺!

  在建模者试图用数字评判世界的时候,一个刻板、无趣、显失公平的世界已呼之欲出。殊不知,算法霸权已成为悬在他人头上的达摩克利斯之剑,随时都有可能挣脱最后一丝牵引,击碎别人的生活。美国马里兰大学教授弗兰克·帕斯奎尔也曾在《黑箱社会:控制金钱和信息的数据法则》中,剑指那些掌握信息技术大权的互联网大鳄,通过设置不平等规则,将他人命运甚至经济社会的未来操纵于掌心。本书作者凯西·奥尼尔则将愤怒的火焰燃向了所有利用算法霸权,制造社会不公的数据提供商、算法规则制造者,以及不假思索滥用数据模型的人。

  当一个数学模型,被广泛应用于社会生活领域,并足以对他人造成影响时,就成了一个社会公器。我们不仅要问模型的设计者是谁,还要问设计模型的人或者组织要达成什么目的,他们所采用的数据源自哪里,数据匹配是否可靠,系统是否具有反馈回路,能否根据千差万别的现实,不断调整优化数据算法……总之,要研究数据模型内设的“算法”是否经得起逻辑及社会现实的检验。

  奥尼尔并非要唱衰大数据,他是想让更多的人了解大数据、了解算法,反思模型;不断改善各类设计评价体系,减少模型性偏见,维护社会的公平;让各种足以操控民生的算法、规则袒露于阳光之下,接受阳光的消毒;让算法模型从高高在上的“独裁判官”进化成能有效服务民生、服务大众的公共服务系统。

http://istighcomputing.com/shujumoxing/37.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有