在数据驱动的机器学习时代,数据的总量和维度不断丰富,其通过机器学习等算法产生了巨大的社会价值,但同时也引发了一系列伦理问题。
大数据伦理分为两类:以数据为载体的数据伦理和以算法为载体的算法伦理。数据伦理主要包括数据隐私问题和数据垄断问题;算法伦理主要包括决策公平问题和决策可解释问题。在本质上,大数据伦理问题的产生主要是数据获取、使用和决策的不透明性导致的,因此建立数据透明机制是解决此问题的重要举措之一。
大数据伦理问题的研究需兼顾两点:①数据的特殊性质使得此伦理问题不能通过简单界定数据归属的方法解决。数据既不同于森林和矿藏等源于自然的自然产物,也不同于文学作品和专利等由人创造的精神产物,它是物质和精神的衍生物,并不能简单界定数据的归属。如果为解决数据隐私和垄断等伦理问题,而将数据简单地界定为个人归属,则不能发挥其应有的价值。②不同伦理问题之间相互影响。以数据隐私和数据垄断为例,一方面,数据垄断的破除将有效阻止大量数据的汇集,从而降低挖掘和泄漏数据隐私的风险;另一方面,高度的数据隐私并不利于数据垄断和决策不公平现象的发现。如何平衡各伦理问题之间的关系亦十分关键。