关于流程挖掘中的数据隐私、数据安全、数据道德底线的一些思考

  • 来源:网络大数据

数据隐私数据安全数据道德这三者一直是商业界与学术界探讨的热点问题,本文就在流程过程中如和处理上述三个问题,提出了一些自己的见解。本文作者为 Anne Rozinat 博士与Christian W. Gunther 博士。

十二年前,我移民到了荷兰,常在当地的一家连锁超市买东西,一开始他们让我办购物卡,说这种卡在它们的连锁店买东西会打折,但我却不想办这种卡。我一直觉得,如果商家知道了我的购买记录,那么他们就会采取一些针对方案(如广告推送)使我购买更多的商品(而我原本并不想买的),但是后来我发现,是我想错了。

数据分析技术本身不存在好坏之分,人们使用数据分析技术只是为了让产品的销量更好。例如,超市通过分析人们的购物习惯,在摆放商品时,它们会让顾客走尽可能长的路,花费尽可能多的时间来买顾客原本想买的东西。在买全物品的过程中,让顾客尽可能多的看到在他们购买计划之外的商品,以增加这些计划外商品的销售量。除此之外,商场还可以使用顾客的购买信息,为顾客提供更好的购物体验。

许多公司以这种或那种的方式对数据进行分析,这些数据分析技术给公司和消费者带来了极大的好处,数据分析技术的广泛使用虽然带了很多好处,但也产生了一些问题,最主要的就是数据道德问题。Responsible Data Science在研讨会主动讨论了关于数据道德问题、并且呼吁研发人员在研究算法时不应只研究算法本身,还要考虑数据的准确性,保密性、安全性等问题。随着其探讨与呼吁,越来越多的人开始关注到了这一问题。

如果流程挖掘运用得当,那么它将可以使你更加深入了解你的业务处理流程,并提出改进措施。但这面临一个问题,那就是你怎么保证你在流程挖掘过程没有触碰道德底线呢?你在流程挖掘中应该注意些什么呢?

在本文中,我们就在流程挖掘过程中应该注意的问题,提出了一些自己的见解。

1.目标明确

首先我们应明确我们的分析目标,大多数情况我们下,我们只需要对内部组织流程进行分析。进一步说,你是对整体进行分析。举个例子,一个流程挖掘的目标可能是让人们不要闲下来,而不是让人们的工作效率更高。此外,流程之间是相互影响的,一旦你想要对某一特定流程进行深入了解,你就得深入研究其它流程,因为这些流程会对你要研究的那个流程造成影响。

因此在进行流程挖掘的开始阶段,你就应该明确你的分析目标,弄清分析结果可以应用在哪些地方,想明白你要处理哪些问题以及为了解决这些问题,你需要哪些数据。

在这个过程中,以下事情你需要做:

所用数据是否有法定限制。例如,在德国,员工相关信息是不允许直接拿来使用的,如果你的项目需要使用员工信息,你需要对员工信息进行加密处理,然后再使用;

项目道德底线问题。在确定项目目标时,你应该考虑哪些地方可以使用你的分析结果,哪些地方不能用。举个例子,你研发了一个对人的工作效果进行评估的项目,在项目的开始时,你就应该明确该项目不会用在自己的员工身上。此外,我们还应该与数据提供者随时保持联系,以便他们随时为你提供你所需要的数据。

以下事情不能做:

在项目目标不明确的情况下启动项目。要启动一个项目,一定要想清楚你到底要解决什么问题?解决这些问题到底需要哪些数据?你的项目应该紧跟商业目标,这样才能取得商业经理的支持。

项目不要立得太大,应该有一个清楚、明确、具体的目标。如果一个项目过大,那么人们会很难弄清楚你到底要做什么,进而可能会出现反对你的项目的情况。

2.责任意识

当你获得数据后,你关心的只是数据本身。只有发生数据泄露问题时,人们才意识到数据安全问题。所以拿到数据之后,一定要对你拿到的数据进行恰到的保护,以防数据泄露,为了做到这些,你需要做以下事情:

与员工签署数据保密协议; 对数据存储设备进行加密处理; 数据检查,在将拿到的数据交给开发人员之前,应对数据进行仔细检查,确保没有多余信息、敏感信息的出现; 不要使用任何需要数据上传的过程挖掘工具,过程挖掘工具应该使用本地内部版本。

不能做的事情:

直接将数据交给研发人员,而不对其进行任何审查; 未经公司允许,将数据直接上传到云端过程挖掘工具中。

3.加密意识

如果数据集中有敏感信息怎么办呢?将这些敏感信息直接删除,除了这种方法,我还有别的选择吗?当然有,我们可以对这些信息进行加密处理,例如员工姓名 Mary Jones、Fred Smith。我们可以将其处理成Resource 1、Resource 2。如果同一个名字出现多次,我们就用同样的值将其替换。这样就可以对你的信息即进行了加密处理、又保留了数据信息的完整性。例如,在对员工姓名进行加密后,你照样可以对每个员工的工作量进行分析。

让我们值得高兴的事,一些过程挖掘工具包含了加密功能。这就意味加密将变得简单,我们只需简单的将数据导入工具,然后选择要加密的数据,轻轻一点,就实现了数据加密。 在这个过程中,你需要做如下事情:

● 确定要加密信息并且明确加密后对数据分析的影响;

● 提高信息安全意识,某些信息即使加密,也有可能会造成信息安全问题。例如在病历中,只有一个人患有某一种罕见的特殊疾病,如果我们知道这个人的出生日期及其出生时间,那么通过这些信息我们就很有可能推断出患有此疾病的人是谁。

● 数据清洗之前进行数据加密。例如:在不同地区我们对用户类别的叫法稍有不同,但它们实际是一类,在数据清洗的时候,你可以简单的将那些叫法不同但含义相同的类进行合并,如果你先对数据进行了加密,那么这些叫法不同但含义相同的类将被彻底分为两个不同的类,它们将会很难被合并。

以下事情不应该做:

不要给不需要加密的信息进行加密处理。加密尽管可以保留原始信息,但其却会失去相关信息。举个例子,如果你对Case ID进行加密,那么在服务台你就无法查询关于该Case ID的先关信息。如果你的团队责任意识强、保密意识强,那么你还是可以考虑将原始数据向整个团队公开的。

4 合作文化

在负责任的流程挖掘过程中,最重要的就是创建一种合作的文化。流程挖掘可以发现业务流程中的不足,并将这种不足以一种透明的形式展现在人们面前,因此,我们应鼓励人们说“实话”,即说出业务流程中的不足。此外,我们还应该选择一种恰当的方式将你的流程挖掘目标与相关人员进行沟通。这样做的目的是为创造一种这样的环境,即我们不是在责怪你(因为你使得业务流程出现问题),而是说与你一起努力,使我们的流程更加合理、完善。为了达到这个效果,你应该做如下事情:

确保数据质量,最好聘请相关领域专家对数据进行审查。数据质量足够高,那么挖掘出来的信息才能让人更加信服、更具有代表性。

使用迭代的方式进行挖掘,即将挖掘出的新信息做为下一次挖掘的已知条件。给人们解释与提问的机会。这有助于提高你的挖掘效果。

跳出结论:永远不要以为自己将流程看得很清、很透。进展慢的组可能解决了棘手的问题。人们可能因为一个充分而合理的理由而对原问题跑偏。讨论的时候,将自己的观察作为出发点,而不是结论,听取别人的解释,构建一种信任、协作的文化氛围。

不要做的事情:

不要通过歪曲数据来证明自己的观点,相反,密切注意过程挖掘中所采用的的数据与流程。对分析结果有任何疑问,我们都要进行相关回溯。例如,如果我们对挖掘出的结果有疑问,我们就应该立即分析,以确定到底是哪些数据过滤导致了这个观点的产生。

来源:雷锋网