博客

大数据不会说谎,但进入大数据的人可能会

Lori MacVittie 缩略图
洛里·麦克维蒂
2018 年 7 月 16 日发布

我们都知道有一条古老的商业格言: 顾客永远是对的。

在这个数字经济时代,这个公理必须改变为: 客户的数据永远是正确的。

让我用一个小故事来说明一下。

我最近决定买一辆新车并用旧车换钱。 我拥有这辆旧车大约有六年了,每年行驶大约三千英里。 我知道这听起来很疯狂但这是事实。 我曾开着它出州到俄亥俄州看望家人。 就是这样。 否则,它会一直呆在家三十英里半径范围内。 我喜欢开玩笑说,我就是那个只在星期天开车去教堂的老太太。

所以,请想象一下,当汽车经销商告诉我我的里程表读数不准确——误差超过30k——而且是基于经销商访问的车辆历史报告中的一行数据时,我会有多么惊讶。 一行数据进一步表明我的车两年前曾在北达科他州接受过维修。

这种差异不容小觑。 里程表读数可以反映交易价值,篡改里程表读数是违法的(可能会被罚款和监禁)。 考虑到实际里程表读数比报告中的数字低得多,你可以想象经销商有点不安。 他面临着一个艰难的决定,是相信我——谁坚持说我从来没有开车去过北达科他州——还是相信数据表明我曾经开车去过?

问题很快就归结为“客户总是对的吗”或“客户的数据总是对的吗”?

事实证明,这并不是第一次有人因车辆历史报告中的不准确数据而受到困扰。 大多数数据仍然是手动输入,因此可能会出现错误。 但纠正这些错误的过程需要输入错误的人承认犯了错误。 这意味着他们必须记住自己五年前、十年前甚至十五年前犯过错误。 如果输入数据的技术人员还在的话,他们愿意承认错误。 

最后,我开着新车离开了,经销商负责纠正报告。 我敢打赌你们中的许多人都有类似的故事。 当你在数字经济中运作时,这种情况太常见了。

人为(错误)因素

随着我们不断扩大对机器解决问题、挖掘数据和做出决策的依赖,我们需要意识到我们拥有的数据可能并不准确。 在该数据的保管链中的某个环节,有人参与其中。 作为人,我们都会犯错,这是不言而喻的真理。 六年前,北达科他州的一名服务技术人员按错了一个键,然后你就会突然受到严厉质询,被问及你曾经进行的每一次汽车旅行。

我们需要谨慎对待我们用于做决策的数据。 我们不仅需要担心意外错误,还需要担心故意错误。 我保证,你的数据是脏的。 

DNS 在指定权威来源和非权威来源方面的设计非常出色。 因为你知道,如果存在差异,你可以去唯一真实的来源找到真相。 对于客户数据来说,就不存在这样的事情。 这是一个潜在的危险信号,因为我们现在使用的系统(以及在不久的将来将要使用的系统)不一定知道什么是准确的,什么不是。 毕竟没有地方可以验证其真实性。 没有证书颁发机构,没有像 DNS 这样的指定权威来源。 而且在很多情况下,无法对数据提出异议。

当我们继续利用零散的数据构建客户的数字形象时,我们需要认识到这些数据会产生多大的影响——无论是对我们(作为业务决策者)还是对客户(作为必须承受基于这些数据得出的任何结论的后果的人)。

作为应用安全解决方案的提供商,我们经常强调数据和身份保护,防止泄露和盗窃。 但我们通常不会反过来谈论数据损坏的可能性,无论是意外损坏还是恶意损坏。

我们应该这样做——在它成为 Twitter 上的热门话题之前。

我们已看到针对人类的报复性数字攻击以多种形式出现。 由于 911 调度员无法从手机获取准确的位置和地址,受害者遭遇了致命的骚扰事件。 色情报复是一种现象,在社交媒体上冒充我们的朋友和家人的情况时有发生。 自从 Kustodian 首席执行官 Chris Rock在 DEF CON (CS Monitor)上演示了由于大多数国家的死亡登记流程存在漏洞,欺诈者如何人为地“杀死”某人以牟利或恶作剧以来,已经过去了 3 年多。 对于那些关注的人来说,这是 1995 年电影《黑客》中使用的黑客手段之一,同时还取消某人的信用卡并提交虚假的个人广告,作为对某些轻视(无论是想象的还是真实的)的报复。 

这种报复行为蔓延到污染其他地方的数据只是时间问题。 

如果您认为我头上戴着锡箔帽,请记住2017 年的 RedLock CSI 报告,其中指出 31% 的数据库都有一个向互联网开放的端口。 对任何人来说。 还记得MongoDB 的失败吗,当时有超过 27000 个数据库向公众开放。 错误的人员打开了正确的数据库可能会对您的数据造成严重破坏。

这是个问题,因为我们已经到达了一个转折点,数据经常被视为事实的不可侵犯和绝对正确的版本。 由于数据输入错误,“真相”可能会让我入狱。

数字数据尽职调查

随着我们不断扩大业务和生活在数字领域的存储量,我们应该深呼吸,并记住数据仓库中的比特和字节代表了真实人类的某些方面。 我们对待数据的认真程度反映了我们对待真实客户的态度。 尤其是当我们不知道我们今天输入的数据以后可能会被以某种方式解读,从而损害客户利益时。 毕竟,我的车辆历史记录只是为了在北达科他州登记一次换油。 我并没有恶意,但结果对我来说可能是灾难性的。 

无论是为了防止数据损坏而制定安全策略,还是控制对应用程序和数据库的访问,或更加关注手动输入数据,我们都需要记住,虽然数据不会说谎 - 它代表了输入者的真实信息 - 但输入者可能已经知道了。