大数据是一个术语,描述以高速度和高容量不断产生的各种数据集,包括结构化、非结构化和半结构化数据集。然而,这里重要的不仅仅是数据的类型或数量,而是企业如何处理这些数据。可以通过分析大数据来获得洞察力,从而改善决策并为制定战略性业务举措提供信心。越来越多的公司现在使用这些数据来发现有意义的见解并改进决策过程。
大数据的历史
21 世纪初,分析师 Doug Laney 写了一篇 按行业划分的特定数据库 文章,这篇文章是当今最著名的大数据定义,Doug 将他的想法提炼为我们将在下一节中介绍的 5V 概念。可用数据量的不断增加和即时商业模式使得有必要找到一种方法来实时分析大量数据。
大数据的组成部分(5V)是什么?
我们可以将大数据的概念分为5个:Volume(数据量)、Velocity(速度)、Variety(多样性)、Veracity(真实性)和Value(价值)。
1. 音量
每天从社交媒体、网站和博客 互动并随着时间的推移发 互动、购买历史、点击,甚至跟踪潜在客户和客户产生的 2.5 千万亿条数据从各种各样的来源带来了令人印象深刻的信息量。此时,体量是理解大数据的起点。
2. 速度
速度是指数据生成和处理的速度。以交通运输行业为例。一辆通过远程信息处理技术连接到互联网的汽车每小时以几乎恒定的速率生成和传输 25 GB 的数据。这些数据大部分需要实时或近实时处理。
3.多样性
它是展现大数据多样性 最新群发短信 的向量。这些数据不仅仅是关系数据库中以行和列形式存在的结构化数据。它有各种各样的形式,根据应用程序的不同而不同,并且大多数大数据都是非结构化的。例如,一个简单的社交媒体帖子可以包括一些可能包含的文本信息、视频或图像等。
4.真实性
真实性是衡量数据的准确性和可靠性以及它带来多少价值的标准。如果数据不完整或不一致,分析过程的准确性就会降低。因此,数据准确性通常被分为好、差或未定义。这在处理医疗记录等多样化数据集时非常有用,因为任何不一致或模糊性都可能产生不利影响。
5.价值
有了如此大量的数据,当您真正需要它时,您可能会忘记所有的事情。因为不同平台之间的信息对接和转换非常困难。因此,有必要将各个元素相互连接和关联起来。
为何创建大数据?
过去几年中每天产生和积累的大量信息已被视为洞察力的来源,而不仅仅是一堆数据。因此,公司需要考虑一种分析模型,帮助他们在如此多的数据中找到有价值的见解。
这个解决方案就是大数据。
大数据;企业不仅可以在明确的地方发现机会,还可以通过关联和交叉引用复杂数据来发现机会;通过分离结构化、非结构化和高度结构化数据,他们能够对其进行探索。