行业动态
大数据时代如何保护隐私
个人角度,首要因素是从心理和行为上重视数据的重要性,具体细节包括但不限于:
不要在不明底细的网站上实名,
所有网站都用不同、且长度足够的密码(做不到一次一密,可以一处一密),可以考虑类似1password等密码管理软件;
不要用过多个性化推送服务 ;
对所有涉及个人数据的选项/纸张都谨慎处理,不能别人要什么就给什么。
同时建议从国家层面仿照欧盟隐私保护法(GDPR)出台相应法律,保护用户从企业手里夺得隐私数据链路的控制权。
其实(数据)隐私这个概念,在信息学里和在大众眼中并不相同:
1. 现代社会下,数据是基于事件收集的,而隐私约等于事件要素合集
这是个人可以参考的隐私保护思路。
虽然隐私(privacy)这个概念是Warrian在1890年左右的《隐私权》里提出并广为流传,但是大多数人往往只是明白它的法律和社会学含义,即「隐私」=「用户认为自身敏感、且不愿意公开的信息」。在信息技术方面,我们讨论的隐私往往聚焦在数据上。数据需要在特定的情景或者事件下,才会被收集/产生。
换句话说,广义上的数据隐私往往需要符合事件四要素:
数据 = 人物(Who)+/or 时间(When)+/or 地点(Where)+/or 事件(What)。
也正是因为这四要素,学术界就出现了一种折衷思想:如果我们采取某种手段保护其中一部分,那么在大多场景下也就等价于保护数据隐私。
比如:
如果我们去除人物在某个地点的活动数据,是位置隐私(location privacy)保护[1];
如果我们去除「人物」要素,包含个人的出生年月等基本信息,那么就是身份隐私(identity privacy)保护[2];
如果我们去除「人物」、「时间」、「地点」的关系,那么就是去除了「数据足迹」,也就是在行为隐私(activity privacy)保护[3]。
实际上,现实世界里很多人就是这么做的。
一些明星在出门时往往喜欢带口罩甚至全副武装,这就是在保护身份隐私,从而保护数据隐私。明星的全副武装,其实算是从个人角度、在真实世界里能做到的极限了,对于隐私非常看重的同学推荐学习(:。
但即使如此,大家可能不知道的是,如果只局限于去除某些要素(比如身份信息),数据(事件)关联性分析依然很容易反推出原始信息。
有两个非常典型的案例:
很多人的隐私泄露其实是因为大多数人都会图省事,在很多网站采用同样的密码,那么如果一个网站被攻破,简单的数据库碰撞就可以得到这个人在网上的全部信息(甚至是支付信息),
又比如明星出轨里,众多吃瓜网友能通过不同时间、地点佩戴的相同耳环,联想到出轨事件。
当然,如果我们把上述四个要素全都进行保护,即出门蒙面,互联网上完全不实名,或者在访问互联网的时候采用Tor等匿名服务,删掉/禁用一切缓存/推送服务,只用纸币,那么确实可以花费巨大代价像中本聪一样从互联网隐身,即完美的匿名。
但是这种方式带来的时间和经济成本都非常可观,我也相信大多数人用不到。对于大多数人来讲,对隐私的忧虑其实并不是隐私技术本身是不是够强,而是一种对未知情况下信息失控风险的担心。
2. 我们不能让自身信息传播链路失控
正如我们之前所说,隐私其实不可能被完美保护,它往往只能被限制在一个小范围内,这种角度来说,我们也能认为隐私最大的问题还是信息泄露。如为了推断一个用户的身份或者行为信息,没有授权的第三方可能会从不同的社会数据中整合其他数据,并进行推断。
从这个角度来讲,现代社会很多人担心自己的隐私问题,本质上是在担心自身信息的传播链路失控[4]。
但是现在毫无疑问已经失控了。
每分钟,互联网厂商们这么收集数据
每当用户使用网络的时候,网络服务商往往会在用户不能预见的多种途径、多种维度上收集信息,用户甚至对此完全无知。当然某种程度上,这种收集是有好处的,因为会便利用户的日常数据使用。目前大家都面临的问题其实相通:
作为用户,不能控制自己的隐私数据,社会网络的提供商可以全权访问用户数据;
作为用户,只能粗粒度的修改自己的隐私数据,但是这也对日常数据也没啥意义。
因此,正确的做法是,我们应该得到合理的处理自身信息的权利,比如在特定商家自查数据的权利,有权要求自身数据的公开范围 (细节到某些服务),有权要求放弃个性化推送等服务。
在集体诉讼缺失,导致个人司法弱势的当下,这也是未来立法应该做到的事。