大数据时代如何保护隐私

发布时间：2024-10-08点击：4

个人角度，首要因素是从心理和行为上重视数据的重要性，具体细节包括但不限于：

不要在不明底细的网站上实名，

所有网站都用不同、且长度足够的密码（做不到一次一密，可以一处一密），可以考虑类似1password等密码管理软件;

不要用过多个性化推送服务 ;

对所有涉及个人数据的选项/纸张都谨慎处理，不能别人要什么就给什么。

同时建议从国家层面仿照欧盟隐私保护法（GDPR）出台相应法律，保护用户从企业手里夺得隐私数据链路的控制权。

其实（数据）隐私这个概念，在信息学里和在大众眼中并不相同：

1. 现代社会下，数据是基于事件收集的，而隐私约等于事件要素合集

这是个人可以参考的隐私保护思路。

虽然隐私（privacy）这个概念是Warrian在1890年左右的《隐私权》里提出并广为流传，但是大多数人往往只是明白它的法律和社会学含义，即「隐私」=「用户认为自身敏感、且不愿意公开的信息」。在信息技术方面，我们讨论的隐私往往聚焦在数据上。数据需要在特定的情景或者事件下，才会被收集/产生。

换句话说，广义上的数据隐私往往需要符合事件四要素：

数据 = 人物（Who）+/or 时间（When）+/or 地点（Where）+/or 事件（What）。

也正是因为这四要素，学术界就出现了一种折衷思想：如果我们采取某种手段保护其中一部分，那么在大多场景下也就等价于保护数据隐私。

比如：

如果我们去除人物在某个地点的活动数据，是位置隐私（location privacy）保护[1]；

如果我们去除「人物」要素，包含个人的出生年月等基本信息，那么就是身份隐私（identity privacy）保护[2]；

如果我们去除「人物」、「时间」、「地点」的关系，那么就是去除了「数据足迹」，也就是在行为隐私（activity privacy）保护[3]。

实际上，现实世界里很多人就是这么做的。

一些明星在出门时往往喜欢带口罩甚至全副武装，这就是在保护身份隐私，从而保护数据隐私。明星的全副武装，其实算是从个人角度、在真实世界里能做到的极限了，对于隐私非常看重的同学推荐学习（：。

但即使如此，大家可能不知道的是，如果只局限于去除某些要素（比如身份信息），数据（事件）关联性分析依然很容易反推出原始信息。

有两个非常典型的案例：

很多人的隐私泄露其实是因为大多数人都会图省事，在很多网站采用同样的密码，那么如果一个网站被攻破，简单的数据库碰撞就可以得到这个人在网上的全部信息（甚至是支付信息），

又比如明星出轨里，众多吃瓜网友能通过不同时间、地点佩戴的相同耳环，联想到出轨事件。

当然，如果我们把上述四个要素全都进行保护，即出门蒙面，互联网上完全不实名，或者在访问互联网的时候采用Tor等匿名服务，删掉/禁用一切缓存/推送服务，只用纸币，那么确实可以花费巨大代价像中本聪一样从互联网隐身，即完美的匿名。

但是这种方式带来的时间和经济成本都非常可观，我也相信大多数人用不到。对于大多数人来讲，对隐私的忧虑其实并不是隐私技术本身是不是够强，而是一种对未知情况下信息失控风险的担心。

2. 我们不能让自身信息传播链路失控

正如我们之前所说，隐私其实不可能被完美保护，它往往只能被限制在一个小范围内，这种角度来说，我们也能认为隐私最大的问题还是信息泄露。如为了推断一个用户的身份或者行为信息，没有授权的第三方可能会从不同的社会数据中整合其他数据，并进行推断。

从这个角度来讲，现代社会很多人担心自己的隐私问题，本质上是在担心自身信息的传播链路失控[4]。

但是现在毫无疑问已经失控了。

每分钟，互联网厂商们这么收集数据

每当用户使用网络的时候，网络服务商往往会在用户不能预见的多种途径、多种维度上收集信息，用户甚至对此完全无知。当然某种程度上，这种收集是有好处的，因为会便利用户的日常数据使用。目前大家都面临的问题其实相通：

作为用户，不能控制自己的隐私数据，社会网络的提供商可以全权访问用户数据；

作为用户，只能粗粒度的修改自己的隐私数据，但是这也对日常数据也没啥意义。

因此，正确的做法是，我们应该得到合理的处理自身信息的权利，比如在特定商家自查数据的权利，有权要求自身数据的公开范围 (细节到某些服务），有权要求放弃个性化推送等服务。

在集体诉讼缺失，导致个人司法弱势的当下，这也是未来立法应该做到的事。