哪些因素可以区分暗数据和大数据?

时间:2014-03-26 07:38:35

标签: hadoop bigdata

我对“黑暗数据”一词的理解,

  

暗数据是一种非结构化,未标记且未开发的数据   存在于数据存储库中,尚未进行分析或处理。   它类似于大数据,但它在很大程度上被忽略的方式不同   业务和IT管理员的价值。

此外,研究公司IDC表示,高达90%的大数据是暗数据。

问题是,

- 为什么地狱大数据退出&虽然黑暗,但在市场上发出声响     数据更重要?

- 还有哪些因素会导致大数据与大数据的分离?暗数据?

如果你在这个主题上分享一些知识,我真的很感激。

4 个答案:

答案 0 :(得分:3)

黑暗数据有三种类型

  1. 当前未收集的数据。

  2. 正在收集的数据,但很难访问 正确的时间和地点。

  3. 收集并可用的数据,但尚未提供 使用或完全应用。

  4. 大数据问题不是由数据不可访问引起的,而是由大量数据引起的。

    由于客户意识到他们的问题,因此在处理黑暗数据问题的公司通常不会在现有市场中发挥作用。 他们通过展示新类型的数据并使用该数据创建出色的应用程序来创造新的市场。 但是当他们成功时,他们就会成为大公司。

    查看link以了解更多关于AIIM市场情报总监Doug Miles所写的差异。

答案 1 :(得分:2)

黑暗数据不受管理,未分类和未开发 - 它占用了宝贵的存储空间,并且可能包含隐藏的风险,因为它通常存在于公司的信息/保留策略的外围,因此尚未进行分析或处理。虽然它类似于大数据,但不同之处在于它在潜在价值方面被业务所忽视。

黑暗数据可能是长期离职员工的电子邮件收件箱,旧财务信息,电子表格的遗忘副本。如果审计师和律师必须参与查找这些信息,那么成本就会变得非常高。由于在他们的系统上有未受保护的机密信息但没有受到管理或保护,“黑暗数据”可能会使公司处于被罚款或制裁的高风险中。与大数据一样,Dark Data可以占用数TB的磁盘空间。

大数据是管理,构建和保护的信息。它会产生很多噪音,因为它有很多(we create 2.5 quintillion bytes of data every day),公司需要提供资源来保护它(想想音量,速度和变化。)

通过分析,一些暗数据可能会转换为大数据。

答案 2 :(得分:2)

暗数据是指具有某些特征的狭义上的实际数据(位和字节,文本,图像,声音等),大多数在某种程度上被忽视或低估。

因此,以下陈述是有道理的:

  

我们已经积累了100TB的黑暗数据,我们不知道该怎么做。

大数据是一组与以特定方式解决业务问题相关的技术,实践和解决方案,主要是收集和存储大量信息并将其用于某种目的的变体。大数据通常是指狭义上的数据(位和字节等)。

考虑一下:

  

我们在服务器上累积了100TB的大数据。

听起来不是很尴尬吗?

正如您所说,大数据更像是一种营销/商业隐喻。当营销人员发现 Dark Data 的气味并将其变成像 Big Data 这样的流行语时,我们就可以开始将它们与苹果进行比较。但就目前而言,我们有:

Dark Data == underutilized and underappreciated data 
Big Data == collecting, storing and analyzing vast bodies of information

考虑到这一点,我可以尝试用最初的引用的含义来说明“高达90%的大数据是黑暗的数据”(我个人觉得这些措辞很蹩脚,主要是为了吸引注意力):

  

在大数据计划下收集的高达90%的数据没有充分发挥其潜力:其大部分真正价值仍然隐藏和未实现。

如果我们希望利用所有那些看不见的见解,我猜这篇文章的其余部分谈到了数据科学如何仍处于起步阶段以及未来还有多少工作要做。

答案 3 :(得分:1)

暗数据是当前未使用的数字信息。 但是,这些黑暗数据可能是组织在其常规业务活动过程中收集,处理和存储以供将来使用的资产。

这些数据可能会用于推动新的收入来源,消除浪费并降低成本。因此,许多组织存储黑暗数据以符合法规要求 VS

大数据是指在数字环境中生成的大规模数据。这个大数据通常很大,生成周期很短。

它不仅包括数字数据,还包括文本和图像数据。 大数据环境比以前更加多样化。 一般来说,大数据是来自物联网设备,机器和设备的所有记录。有一些专为大数据设计的解决方案(例如Machbase databaseHadoop等)。它们通常实时处理大量数据,包括数据存储和分析功能。

相关问题