大数据的伦理挑战及其应对路径

原创王国豫，梅宏科学人文在线 2021年05月17日 09:54

点击上方“科学人文在线”可关注

大数据时代，我们都遭遇过数据的真实性与可靠性、数据权属、数字身份与污名化、信息茧房与自主性丧失等各种问题，如何应对？应该重视并积极解决大数据引发的社会伦理问题。

进入21世纪以来，以互联网、大数据、云计算和人工智能等为代表的新一代信息技术在我国发展迅猛，许多领域的应用已经走在世界前列。但与此同时，当下中国社会在数据安全、隐私保护等方面也问题频发。党和国家高度重视大数据的发展及其相关伦理问题的治理。2017 年12 月8 日，中共中央总书记习近平在主持以实施国家大数据战略为主题的十九届中央政治局第二次集体学习时强调，在加快建设数字中国的过程中，要切实保障国家数据安全，加快法规制度建设，保护好个人隐私，维护广大人民群众利益、社会稳定、国家安全。要加强国际数据治理政策储备和治理规则研究，提出中国方案。

在这样的背景下，我们认为，应该全面认识大数据带来的社会变革，在发展和应用大数据相关技术的同时，也要关注大数据引发的社会伦理问题，将大数据的社会治理纳入国家治理的框架，进一步推动大数据技术朝着有利于社会和谐和人民福祉的方向健康发展。

大数据面临的主要伦理挑战

2011 年美国麦肯锡咨询公司在《大数据：创新、竞争和生产力的下一个前沿》的研究报告里曾经预言“数据已成为一股洪流，流入全球经济的每一个领域”。事实上，现今每时每刻产生的海量数据，不仅创造了全新的商业模式和服务模式，转化为新的生产资料和价值，而且带来了从政治、经济到科研、文化和思维以及生活方式的重大改变。可以说，大数据重塑了我们生活的世界。与此同时，人类基于传统生活世界的伦理价值也在面临着巨大的挑战，大数据的威力有多大，这一挑战也就有多大。概括地看，大数据的伦理挑战主要表现在以下几个方面。

1. 数据的真实性与可靠性问题

大数据被看作是科学研究和知识生产的新资源。在图灵奖得主Jim Gray 看来，科学研究已经进入“第四种范式”——数据密集型科学范式。在此范式下，数据不仅成为科学研究的新方法和新路径，而且是科学研究的主要驱动力，成为人类认识的主要来源。在哲学家James Bogen 和James Woodward 看来，数据就是与某种现象所对应的有待阐释的事实的表征。“只要满足一定的状态，或者当满足一定的状态的时候，相关的事实就可以进行解释，它们（数据）就可以表征相关的事实。”在这个意义上，数据取代了传统的自然和人工世界成为我们的认知对象，或者换言之，我们构建的世界图景就取决于数据。然而，我们也知道数据的产生是一个多主体、多层次、多环节的过程，其中技术人工物也同样扮演着中介的角色。在这种情况下，如何保证数据的真实性，不仅关系到科学研究的结果，关乎我们认知的可靠性，而且也直接影响到我们对经验世界的感受和价值旨趣，甚至关系到我们的善恶判断和道德抉择。

2. 数据权属的不确定性

大数据是建立在数据共享基础之上的。从数据产生的过程来看，一般至少有三个主体：数据的所有者、数据的生产者和数据的使用者（如果数据的使用者和数据的生产者不是同一个人或机构的话）。以个人基因组数据为例。对个人基因组数据的分析往往是由科研人员完成的，在数据提取和分析中凝聚了他们的劳动。但是数据本身如果是一个受试者或者患者的，那么，数据的主体就是受试者或患者。如果第三方需要使用这个数据，不仅涉及知识产权问题，还涉及受试者或患者的权利问题。然而，即便对于受试者或患者来说，他的部分生物数据（如基因数据）也难以像是私有财产一样完全属于个人所有。数据在这个意义上具有一定的“公有性”。这就使得数据的权属问题变得异常复杂：如果数据的应用产生了商业价值或者其他价值，那么这里就有两个问题，谁该获得这些利益？受试者是否有权利得到部分补偿？这两个问题涉及社会公正，但目前的伦理和法律规范对此并没有清晰的规定。在科学研究中，数据产生的知识产权问题已经影响甚至阻碍了数据共享，引起了广泛的关注。

3. 数字身份的建构、隐私与污名化

身份是一个个体区别于他人的标志或要素。数字身份是大数据背景下用来描述一个人的数据集。通常有几种类型：第一类身份是一个人的生物学数据，如基因组学和其他组学数据、表型数据。这是一个人先天所有的独一无二的标志。基因数据、指纹、血型、虹膜都属于这一类数据。第二类身份是人的行为身份，它与人的个性、情感偏好等相关。透过这些身份数据人们可以了解一个人的价值、态度和情感取向。第三类身份属于社会学的概念，与一个人在社会上的地位相关。财富、职业和职位通常与此相关。

在大数据时代，一个人的身份可以由数据建构，为了不暴露自己的真实身份，人们可以通过一个任意的符号来表示自己的存在。因此，数字身份未必和真实的人具有同一性，数据身份在这个意义上讲具有虚拟性和隐匿性。然而，即便你用假名来替代真实姓名，在大数据分析技术下，人们仍然可以通过一个人在网络上留下的“足迹”、借助于大数据的叠加效应来挖掘出其真实身份。通过对理财和购物留下的数据足迹的深入挖掘，人们还可以对一个人的行为偏好和财产状况甚至社会地位进行分析和猜测。基因信息或其他表型信息一旦泄露则情况更严重。比如，如果基因检测提示某家族可能患有某一类精神性疾病，一旦此类信息被泄露，有可能给该家族的所有人都带来污名化。因为此类信息与信息主体具有同一关系，而不像财产类信息一样只是所属关系。失去了此类信息，人就等于裸奔，就失去了安全感，没有安全感也就没有了自由。

4. 信息茧房与自主性的丧失

今天，人们几乎足不出户便可享受与衣食住行相关的所有的服务。人们在线上留下的“足迹”又推动了数据的汇集，并进而带来更多的“主动”服务：只要消费者搜索过什么，系统就会继续自动向消费者推送与该产品相关联的其他产品或者相似产品与服务。然而，当我们期待在系统的帮助下方便快捷地实现自己的愿望的时候，其实我们也正处在危险之中。这一危险首先是来自智能数据系统为我们构建的“信息茧房”。桑斯坦认为，借助特定的算法推送，人们的喜好会被技术不断强化，长此以往，人们就会像在“茧房”中的蚕一样，陷于被推送的信息所编织的网络之中。这一状态的实质是自主性的丧失。这样，我们实则被系统指示和推动着行动，人似乎“着魔般”地失去了选择的能力，而习惯于按照系统的提示行动、关注其推荐的商品。在我们享受着系统“主动”服务的同时，系统的“主动”将逐步替代人的“自主”。信息的“控制力”将逐步凸显。

5. 大数据的群体隐私与知情同意的个体性

大数据背景下，为了解决数据共享中隐私保护问题，人们借用了医学伦理学中的知情同意规范，期望依靠这一原则来走出困境，保护数据主体的权利。然而，传统的知情同意原则是建立在个体主体基础上的，不能够解决大数据背景下出现的群体隐私问题。大数据技术可以将人的各种属性数据化，即用一组数据对一个具体的人进行描述。然后，再根据类别进行不同的挖掘、分析，并且做出跟类别相关的选择。比如在新冠肺炎疫情暴发期间，研究人员在开展流行病学调查时，就常常利用大数据技术追踪和记录无症状的感染者。这些无症状感染者因为其共同的特征形成特定的临时群组。虽然具体的个人被隐匿在数据中，但仍然可能包含直接对此类群体造成影响或伤害的信息。比如新冠病毒暴发初期，国外某些人将新冠病毒称为“中国病毒”或“武汉病毒”，进而形成对华人群体的污名化。在国内也出现过多起对武汉或者湖北籍人士的“特殊”对待事件。

6. 算法偏见与算法歧视

算法偏见有两类，一类来自历史数据或新采集的数据集的偏见，经过算法再一次被放大；另一类来自算法工程师的个体的偏见。在某种意义上，数据偏见是历史数据本身不可避免的产物。偏见在解释学的语境中是一种先见或前见。人是历史文化中的人，由于时代、地域和文化等限制，不同的人对同一件事、同一个人在不同的环境中对同一件事的理解在结构上都有可能带有不同的见解，也就是“偏见”。偏见不必然带来歧视，但是如果这一偏见是价值上的偏见，与好恶或者其他评价相关，就可能导致歧视。如果算法工程师自身抱有对性别和种族的歧视，在数据采集和程序设计中，就有可能把个人的偏见和歧视渗透到算法中。如果数据训练依据的是有偏见的数据，其分析的结果不仅可能会延续而且甚至有可能加剧基于种族或性别的歧视。“数据是社会数据化的结果，其原旨地反映了社会的价值观念，不仅包括先进良好的社会价值观念，也包括落后的价值观念。”

7. 大数据的“记忆”与数据不平等

大数据时代，我们所有的活动和信息都以数据的形式保持在网络上。数字化技术的发展使得人类的记忆变得过于丰富和完善。人是一种会遗忘的生物。过去的几千年，“遗忘一直是常态，而记忆才是例外”。因为遗忘，人们才不会一直生活在过去的阴影和羁绊中，才会有当下和未来。然而，大数据时代的数字记忆具有社会性，在数字技术上留下的痕迹已经不属于记忆的主体，而成了一种社会记忆。数字记忆使人们失去了遗忘的权利，让人难以走出痛苦的阴影向前看。舍恩伯格用大量的实例说明了个人记忆是如何转变为社会记忆的：2006 年的某一天，一位60 多岁的生活在温哥华的加拿大心理咨询师菲尔德玛，在从加拿大去美国的边境上，被边境卫兵用互联网搜索到他本人在一篇文章中提及年轻时曾服用过致幻剂LST 的事情，因此被扣留了4h，其间被采了指纹并签署了不准再进入美国境内的声明。在这里，菲尔德玛个体的记忆不仅被网络放大转化成了社会记忆，而且直接带来了对他个人行动的控制。记忆成为权力，成为对个人自由的干涉。今天，人们在互联网上的浏览记录都被记载和保存。这些海量的用户数据，经过关联分析，不仅有可能使个人的隐私行为暴露无遗，而且还有可能给个人甚至家庭带来潜在的危害。作为数据主体的个人却逐渐丧失了对自己信息的掌控。

国外大数据伦理研究和治理概况

伦理研究方面，国外的研究经历了从最早的计算机伦理，到信息伦理、网络伦理和大数据伦理、人工智能伦理等多个发展阶段。人们关注的焦点也从对计算机的伦理问题的关注，如黑客问题、知识产权问题，隐私问题、网络空间建构的伦理问题，到对大数据的伦理问题（如数据挖掘和算法歧视等）的关注。2012 年美国学者 K．Davis 和 D．Patterson 出版的《大数据伦理学》（Ethics of Big Data）被认为是第一部关于大数据的伦理研究的著作。作者认为，大数据环境下，企业应该确立自身的道德规范，明确数据对于自身的价值，重视数据中所涉及的身份（identity）、隐私（privacy）、归属（owner-ship）以及名誉（reputation），在技术创新与风险之间寻求平衡。

隐私问题一直是信息技术伦理中的重要问题。与传统的信息伦理和计算机伦理关注个人隐私保护不完全相同，大数据伦理越来越多地关注群体隐私问题。虽然传统的匿名化方法在大数据的叠加技术面前，使得个人隐私也很难得到很好保护，但相形之下，群体隐私的保护问题更是国外学者研究和关注的重点，如群体歧视问题，包括地域歧视、种族歧视、性别歧视等。

值得关注的是，国外能够较快地将信息伦理的研究成果转化为政策和法规。尽管大数据是新生事物，但是在国外，基于信息保护的相关伦理和法律已经相对比较成熟，为进一步构建大数据伦理和治理体系提供了基础。比如，美国1970 年出台的《公平信用报告法案》（Fair Credit Reporting Act）和1974 年出台的《隐私法》（ThePrivacyAct）就要求收集和使用个人信息必须遵循合法性原则、知情同意原则、参与原则和目的限定原则等基本原则。1988 年的《计算机匹配和隐私保护法》（Computer Matching and Privacy Protection Act）扩充了1974 年《隐私法》的内容，限制了通过计算机系统进行个人信息识别与比对的行为。

隐私概念是一种社会建构。私，指的是相对于公共领域而言的私人领域。学术界普遍认可的“隐私权”概念的提出，源于1890 年美国学者S. D. Warren 与L. D.Brandeis 在《哈佛法律评论》上发表的《论隐私权》一文。他们指出，隐私权作为人格权的重要组成部分，是一种“不被打扰的权利”，其本质是“个人不受侵犯”。这就为作为人格权的信息隐私权奠定了权利基础。欧盟1995 年颁布的《数据保护条例》（Data Protection Directive），在基本价值取向上，与美国基本一致，明确了数据主体的权利、数据利用者的义务并设置了数据保护的专门行政机关。数据保护条例为信息保护提供了明确可操作的实体法依据，大大提高了欧盟保护个人信息的法律统一程度，各国可以数据保护条例为下限，执行数据保护标准。2016 年欧盟颁布了《通用数据保护条例》（General Data Protection Regulation， GDPR），一方面继承了1995 年颁布的数据保护条例在信息主体权利与信息使用者义务上的规定，并因应大数据时代的到来而进一步予以细化和完善；另一方面则着重加强和完善了条例的执行机构与权利救济措施。GDPR 一方面设置了专门的欧洲数据保护委员会（European Data Protection Board）用于法规的解释与强制执行，另一方面则要求数据的处理者和控制者所处理的个人信息规模庞大或性质敏感时，必须委任数据保护代表（data protection officer）监督本单位的信息利用行为，与信息主体和监管机构沟通，发挥“润滑整个数据保护机制”的作用。

欧盟在大数据伦理问题治理上还采取了一系列措施。首先，厘清大数据伦理问题的主要表现。其次，提出了5 项措施，从个人、企业、研究机构等各个层面实现有效治理。包括：①建立一个泛欧洲的门户网站作为隐私管理中心；②发布《数据伦理管理协议》；③发布《数据管理声明》；④建立欧洲电子健康数据库；⑤构建大数据时代的数字教育体系。

我国大数据伦理治理的可能路径

当前，数据驱动的互联网、人工智能等新型产业作为未来国家经济和社会发展的重要引擎正在我国蓬勃发展。建设数字中国、发展数字经济已经成为国家战略。在这样的大背景下，为了进一步推动行业和国家层面的数据开放共享，加大对数据伦理问题的治理、提高数据质量、保障数据安全和尊重个人隐私、保护个体权益就成为当务之急。忽视大数据的伦理道德问题进而引起负面影响和社会排斥的例子并不少见。2020 年社会对“文明码”的拒绝和对小区安装刷脸识别系统说“不”等事件的爆发，都再一次说明，在研发和应用大数据技术的过程中，必须考虑技术应用的社会可行性和可接受性。我们认为，对大数据伦理问题的治理，必须从技术规范与社会规范（包括伦理和法律与政策规范，通常用ELSI 表示）的双重路径，从个体、机构、行业、国家乃至国际多主体多层面，通过伦理教育、政策引导与法律规约等多种途径，对大数据的获取、存储、处理、传输、共享、应用到删除的全生命周期进行全面系统、合理有序、兼顾规范性和有效性的治理。

1.大数据治理的路径——技术规范与社会规范双管齐下

要实现对包括大数据安全与伦理问题在内的社会治理，依靠更加精准可靠的技术手段不失为重要的路径。当前，数据管理已有不少可用技术与产品。比如，针对数据共享开放过程中的安全隐私问题，科学家们提出了如变换处理、多方安全计算和联邦学习等方法，以及数据审计识别和管控技术等。比如，通过大数据分析平台对数据进行审计识别，然后对这些数据设置授权范围，只有拥有授权的人才可以查看相关的信息；或者利用失真数据处理技术，在不改变数据属性的前提下利用阻塞、随机化、凝聚等技术手段对数据进行“伪装”，从而对数据加以保护等。然而，大数据的伦理问题并不仅仅是技术问题，而且是社会- 技术系统中的系统性问题。离开了应用场景，大数据也就失去了价值。因此，大数据伦理问题的治理，绝不能仅仅依靠技术的手段，而应该从技术发生和发展的社会政治、经济和文化语境中寻找根源和解决方法，由此发展出一整套适合大数据时代的伦理和政策法规。2019年6 月，国家新一代人工智能治理专业委员会发布了《新一代人工智能治理原则——发展负责任的人工智能》，提出了人工智能治理的框架和行动指南；2020 年10 月，第十三届全国人大常委会第二十二次会议审议了《中华人民共和国个人信息保护法（草案）》。这些都可以看作是社会治理的必要举措。

2. 大数据伦理治理的责任主体——个体或机构、行业、国家、国际

大数据的治理不能仅限于技术内部的治理。除了不断完善发展相关技术以应对各种新型攻击和挑战外，企业安全保障制度、行业自律监管机制和伦理规范，以及国家通过法律确定的强制手段还有待完善。大数据治理的责任主体包括个体主体和机构与集体主体，涉及从个体到行业到国家乃至国际多个层面。

首先，作为数据权属的个体主体，必须增强数据安全和隐私保护意识，养成良好的数据管理行为。作为大数据技术挖掘和处理主体的工程技术人员对涉及隐私和公平公正等的问题需要有道德敏感性和法律意识，对涉及个体隐私和群体隐私等的敏感数据要自觉保护。

其次，企业、行业是源数据聚集和跨组织、跨领域的数据深度融合挖掘与数据跨组织流动的责任主体。在价值驱动下，各界普遍存在着数据突破组织边界流动的需求。企业组织的大数据治理离不开行业的规范和自律。

再次，要保证大数据治理相关的研究和实践的关联性、完整性和一致性，政府必须在其中起到协调作用。数据的权属问题、公众的隐私权、遗忘权和反歧视等问题需要从国家层面通过法律法规予以确立和保障。要加强对采集、分析、使用数据相关行为的立法，对于过度或非法使用数据获利的行为，要进行严厉打击。

最后，在数据保护，特别是跨境数据流通问题的治理上，需要加强国际合作，做好和相关国家的沟通与协调，构建跨区域、跨国家的大数据治理体系。目前，欧盟、美国等国家和国际组织都颁布了一系列法律条例，规范数据的保护和使用。我国正在审议的《中华人民共和国个人信息保护法（草案）》中，除了对境内个人信息的保护以外，也包含了维护国家利益、完善个人信息跨境提供的规则等内容。一旦草案通过，在具体实施方面，还必须和国外的跨境数据管理的法律法规进一步协调和合作。

3. 大数据伦理治理的途径——伦理教育、政策引导与市场监管、法律规约

大数据治理是一个系统工程。其中，伦理教育必须先行。在大数据时代，随着知识生产和技术生产的范式转变，数据伦理问题已经成为社会伦理的一部分。大学（甚至中小学）、企业和行业协会必须加强对工程师和大数据从业人员的伦理培训，提高他们的道德敏感性和社会责任感，对什么是应该的、什么是不应该的要有基本的道德判断。政府的各级部门要通过相关的政策，引导企业在创新过程中坚持符合伦理的价值导向。对大数据产品和技术服务市场必须加强监管，对违背了国家和地方的法律法规和人民群众利益的行为要坚决制止和予以惩罚。

我国在个人数据和信息保护方面的法制建设工作正在稳步推进。2020 年5 月28日，十三届全国人大三次会议表决通过了《中华人民共和国民法典》，其中的第一千零三十二条“隐私权”规定了自然人享有隐私权。任何组织或者个人不得以刺探、侵扰、泄露、公开等方式侵害他人的隐私权，明确了个人信息是以电子或者其他方式记录的能够单独或者与其他信息结合来识别特定自然人的各种信息，包括自然人的姓名、出生日期、身份证件号码、生物识别信息、住址、电话号码、电子邮箱、健康信息、行踪信息等。其中，个人信息中的私密信息，适用有关隐私权的规定；没有规定的，适用有关个人信息保护的规定。处理个人信息，包括个人信息的收集、存储、使用、加工、传输、提供、公开等时，应当遵循合法、正当、必要原则，不得过度处理。信息处理者应当采取技术措施和其他必要措施，确保其收集、存储的个人信息安全。

结　　语

大数据正在重塑我们的生活世界。大数据不仅带来了生活的便捷，更带来了从经济生产到知识生产和社会组织等多方面的变革。生活世界、生活方式的改变必然带来伦理关系方面的变化。传统的伦理观与现行的伦理生活的不一致甚至冲突是必然的。因此，重要的不是讳疾忌医，不谈伦理问题，而是要以更加开放的姿态，开展对大数据背景下伦理问题的讨论和对话。对于出现的伦理问题的治理不能完全依靠技术途径。伦理问题的治理是一个系统工程。需要个体、企业、行业和国家多方联动、协同治理，要把大数据伦理问题的治理纳入国家治理的框架下。当然，我们在大数据治理的过程中，也必须兼顾规范性和有效性，在尊重个人基本权利的同时，促进数据应用的健康发展。让大数据更好地造福人类社会。

（参考文献：略）

本文作者简介

王国豫，复旦大学哲学学院教授、博士生导师，复旦大学应用伦理学研究中心/复旦大学生命医学伦理研究中心主任。曾任大连理工大学科研院副院长，人文学院副院长，欧盟研究中心、德国技术哲学研究中心主任，哲学系主任，教授、博士生导师。德国DAAD奖学金获得者（马格德堡大学哲学系），斯图加特大学哲学系客座教授。目前兼任中国计算机学会职业伦理与学术道德委员会共同主席，上海国际人类表型组计划伦理委员会主任。研究方向为高科技伦理学、生命医学伦理学、环境伦理学、德国技术哲学、科学技术与文化。

梅宏，计算机软件专家，中国科学院院士，发展中国家科学院院士，欧洲科学院外籍院士，中国人民解放军军事科学院副院长。1980年考入南京航空航天大学计算机应用专业，先后获得学士学位、硕士学位；1987年硕士毕业后留校工作；1989年进入上海交通大学，攻读计算机软件专业博士；1992年博士毕业后进入北京大学计算机科学技术系，进行博士后研究工作，同时在北京大学任教，先后担任讲师、副研究员、教授、博士生导师；1997年获得霍英东基金青年教师奖（研究类）；1999年作为访问科学家，前往美国贝尔实验室学习；2001年获得国家杰出青年科学基金资助。主要从事软件工程和系统软件领域的研究。

本文摘编自《2020高技术发展报告》（中国科学院编，2021.4），标题和内容有调整。科学创造未来，人文温暖世界。在科技引领发展的时代，与您共同关注科技史、科技哲学、科技前沿与科学传播，关注人类社会的可持续发展。