为什么视频是大数据背景下的非结构化数据?

时间:2017-03-03 18:47:33

标签: hadoop structured-data bigdata

我正在尝试深入研究大数据,而我遇到的条款很少是structuredunstructured data。我明白了structured和非结构化数据的意义。

我很难理解为什么视频和照片属于unstructured data类别。

任何人都可以帮我理解这个吗?

1 个答案:

答案 0 :(得分:2)

“结构化”数据的大多数定义是指具有高度组织性的数据,通常意味着预定义的数据模式。模式通常由特定顺序的多个字段组成,每个字段只包含一种类型的数据,非常类似于经典的数据库表:

userId,username,age,location,joinedOn
12,"Polly",20,"Washington DC","2016-02-23 13:34:01"
14,"Dan",19,"San Diego CA","2016-11-10 18:32:21"
15,"Shania",36,"","2017-01-04 10:46:39"

在这种情况下,您有两个String字段,两个Integer字段和一个Date / Time-type字段。在大数据环境中,这允许方便的数据查询/处理,大大改进的压缩以及高效的存储。所有这些都可能是困难的问题,特别是随着数据量的增加。

现在考虑可以用许多不同方式表示的图像:简单位图,矢量,渐进式JPEG,内置可变压缩格式,分形,动画帧容器等。不仅如此,图像具有不同的大小,调色板和元数据,以及所有这些变化意味着您无法将具有不同属性的两个图像视为一个数据模式(意味着您无法获得面向列的存储,压缩或查询的好处)。 / p>

至于视频,上述所有内容仍然是正确的,除了你的容器格式可以包含多个不同的视频(和音频)编解码器和内部压缩,这进一步增加了复杂性。