博客

自食恶果: 大脏数据

Lori MacVittie 缩略图
洛里·麦克维蒂
2017 年 8 月 21 日发布

大数据。 整个商业价值链中嵌入的数百万个传感器和监视器每小时都会产生 PB 级的数据。 从制造到交付、从 POS 到消费者,产生的数据量达到了前所未有的水平。

这些数据本身是没有意义的。 数据本身是特定形式的 1 和 0 的集合,当被应用程序解释后就变成了信息。 信息只有经过分析才有用,只有采取行动才有价值

人们无法有效地分析今天产生的数据,更不用说下一小时、一天或一周会产生什么数据。 然而,商业决策越来越需要近乎实时地做出。 为了实现这一点,需要经过计算和系统训练才能在每天收集的大量噪音中识别信号。

这并非仅仅是猜测。 在“机器学习: 竞争优势的新试验场”——由麻省理工技术评论和谷歌云联合进行的一项调查——超过 60% 的受访者“已经实施了 ML [机器学习] 策略,近三分之一的人认为他们的计划已经处于成熟阶段。” 他们之所以对这项新兴技术进行大量投资,原因在于竞争优势。 “据受访者称,机器学习的一个主要优势是能够获得竞争优势,26% 的当前机器学习实施者认为他们已经实现了这一目标。”

预计其效益将是惊人的。

对于一家典型的财富 1000 强公司来说,数据可访问性仅提高 10% 就会带来超过 6500 万美元的额外净收入。

充分利用大数据力量的零售商可以将其营业利润率提高 60%。

到目前为止一切都很好。 我们正在利用数据来推动决策,从而使企业能够占据领先地位并实现增长。

危险在于没有认识到任何依赖都会带来风险。 如果我依赖汽车去杂货店(因为我住的地方没有公共交通)那么汽车发生意外就有风险。 风险很大。 如果我的业务依赖大数据来做出决策(对我来说是可能的,如果专家的预测是按面值来判断的话),那么这些数据发生某些事情就会有风险。

现在我不是在谈论明显的数据丢失,甚至数据损坏。 我谈论的是一种更为隐蔽的威胁,它来自于我们对数据真实性的信任。

为了根据任何数据做出决策——无论是在我们的个人生活还是商业生活中——我们必须首先相信数据的准确性。

大脏数据

脏数据并不是什么新鲜事。 我承认,当需要访问互联网上的文章或资源时,我有时会伪造自己的个人信息。 但新的数据流不一定会受到这种无害的损坏的威胁。 他们面临着来自不法分子的蓄意腐败的威胁,这些不法分子意图使您的业务偏离轨道。

因为我们根据数据做出决策,并且只有在出现明显异常时才会质疑它,所以我们几乎看不到逐渐腐败的威胁。 就像现在流行的从银行交易中捞钱的陈词滥调一样,数据的细微变化可能会被忽视。 一个市场对产品 X 的需求逐渐增加可能被视为营销或促销活动的成功。 宏观经济学通常可以解释其他产品 Y 的需求突然下降。 如果我有耐心和决心去弄乱您在制造或分销过程中作出决策的数据,那么我对您的业务的影响能力是巨大的。

有多重要? 根据 Ovum Research 的调查,数据质量差会导致约 30% 的收入损失。 Analytics Week 编制了一份有趣的大数据事实清单,其中列出了与不良数据类似的后果,其中包括:

不良数据可能使企业损失20%–35%的营业收入。

不良数据或数据质量差每年给美国企业造成 6000 亿美元的损失。

看起来不太可能? 通过网络抓取情报作为企业间谍活动的一部分是真实存在的,并且有团队致力于阻止这种行为。 API 的使用使得这些工作变得更加容易和糟糕——有时甚至是实时的。 因此,认为不会有人故意将坏数据引入你的流中,就好比故意忽视坏人往往(通常)比我们领先两步的现实。

redlock-csi-数据

我们的安全实践——尤其是在云端,预计大量大数据将驻留在其中——加剧了这种威胁。 由 Information Builders 赞助的 TDWI 白皮书中有更多有关脏数据成本的例子。 虽然大多数问题都与由于收购而集成数据时产生的典型脏数据问题或典型的客户生成的伪造信息有关,但成本模型对于理解基于可能被破坏的信任数据对业务造成的威胁以及您可以采取的措施非常有价值。

仅今年一年,依赖默认配置就已导致多起违规行为。 还记得一月份的 MongoDB 崩溃吗? 默认配置是否让数据库对互联网上任何可能对其感兴趣的人开放? 或者RedLock CSI 研究发现 Kubernetes 的 285 个管理控制台实例完全开放。 无需任何凭证。 同一报告发现,云中 31% 未加密的数据库正在接受来自互联网的入站连接。 直接地。 就像我和你的数据之间什么都没有一样。

由于没有采取任何措施保护,导致 27000 多个数据库暴露在外并可通过互联网访问,因此不难想象数据流很容易被污染。 当某些组织故意删除云存储服务的默认安全控制,使其很容易被发现和破坏时,不良行为者插入脏数据的可能性就会从可能上升到很可能。 依赖数据的组织(如今几乎每个人都是如此)有责任不仅要注意如何保护数据,还要注意如何验证其准确性。

未来数据驱动型业务的安全性不仅意味着防止数据泄露,还必须考虑渗透的真正威胁以及如何打击它。