大数据分析的技术包括什么?
您是否想更好地了解传统数据与大数据的区别,在哪里可以找到数据,可以使用哪些技术来处理数据?
这些是处理数据时必须采取的第一步,所以这是一个很好的起点,尤其是如果你在考虑数据科学!
“数据”是一个广义术语,可以指“原始事实”、“处理后的数据”或“信息”。在进入细节之前,确保我们在同一页面上分开它们。
我们收集原始数据,然后处理以获取有意义的信息。
很容易把它们分开!
现在,让我们进入细节!
原始数据(也称为“原始数据”(也称为“””) 原始 事实”或“ 原始 数据”)是您在服务器上积累并存储但未触及的数据。这意味着你不能立即分析它。我们称原始数据收集为“数据收集”,这是我们必须做的第一件事。
什么是原始数据?
我们可以将数据视为传统数据或大数据。如果您不熟悉这个想法,您可以想象包含分类和数字数据的表格形式的传统数据。数据结构化并存储在可以从计算机管理的数据库中。收集传统数据的一种方法是调查人。要求他们以1到10的水平来评估他们对产品或体验的满意度。
传统数据是大多数人习惯的数据。例如,“订单管理”可以帮助您跟踪销售、购买、电子商务和工作订单。
然而,大数据是另一回事。
顾名思义,“大数据”是保留超大数据的术语。
你也会经常看到它用字母“” V”作为特征。例如“大数据3V” 所述。有时我们可以拥有5、7甚至11个“ V大数据。它们可能包括在内– 您对大数据的愿景、大数据的价值、您使用的可视化工具或大数据一致性中的可变性等
但是,以下是您必须记住的最重要的标准:
体积
大数据需要大量的存储空间,通常分布在许多计算机之间。其大小以TB、PB甚至EB为单位
品种
在这里,我们不仅在谈论数字和文字。大数据通常意味着处理图像、音频文件、移动数据等。
速度
在处理大数据时,目标是尽快从中提取模式。我们在哪里遇到大数据?
答案是:在越来越多的行业和公司中。这是一些著名的例子。
作为最大的在线社区之一,“ Facebook“跟踪用户姓名、个人数据、照片、视频、录制信息等。这意味着他们有各种各样的数据。世界上有20亿用户存储在服务器上。
以“金融交易数据”为例。
当我们每5秒记录一次股价时会发生什么?还是每一秒?我们得到了一个巨大的数据集,需要大量的内存、磁盘空间和各种技术来提取有意义的信息。
传统数据和大数据将为您提高客户满意度奠定坚实的基础。但是这些数据会有问题,所以你必须在进行任何其他操作之前处理它们。
如何处理原始数据?
让我们把原始数据变成美丽的东西!
收集到足够的原始 在数据之后,我们要做的第一件事就是所谓的“数据预处理” "。这是一组操作,将原始数据转换为更容易理解和有用的进一步处理格式。
我想这一步会挤在原来 在数据和处理之间!也许我们应该在这里添加一部分...
数据预处理
那么,“数据预处理”的目的是什么?
它试图解决数据收集中可能出现的问题。
例如,在您收集的一些客户数据中,您可能有一个注册年龄为932岁或“英国”的人。在进行任何分析之前,您需要将此数据标记为无效或更正。这就是数据预处理的全部内容!
在预处理传统和大原始数据时,让我们研究一下应用技术吗?
类标签
这涉及到将数据点标记为正确的数据类型,换句话说,按类别排列数据。
我们将传统数据分为两类:
一种是“数字” –如果您想存储每天销售的商品数量,请跟踪值。这些是您可以操作的数字。例如,您可以计算每天或每月销售的平均商品数量。
另一个标签是“分类” –在这里,您正在处理数学无法处理的信息。例如,一个人的职业。请记住,数据点仍然可以是数字,而不是数字。他们的出生日期是一个数字。你不能直接操纵它来给你更多的信息。
考虑基本的客户数据。*(使用的数据集来自我们 SQL课程)
我们将使用包含客户文本信息的表,给出数字变量和分类变量之间差异的明确例子。
请注意第一列,它显示了分配给不同客户的ID。您无法操作这些数字。“平均” ID不会给你任何有用的信息。这意味着即使是数字,也没有值,是分类数据。
现在,专注于最后一列。这显示了客户提出投诉的次数。您可以操作这些数字。将它们添加到一起以提供总投诉是有用的,因此它们是数字数据。
我们可以看到的另一个例子是每日历史股价数据。
*这是我们在Python课程中使用的。
您在这里看到的数据集中有一列包含观察日期的数据,被视为分类数据。还有一列包含股价的数字数据。
当你使用大数据时,事情会变得更加复杂。除了“数字”和“分类”数据,你还有更多的选择,比如:
文字数据
数字图像数据
数字视频数据
和数字音频数据
数据清理
也称为“ 数据清理” 或“ 数据清理”。
数据清理的目的是处理不一致的数据。可以有多种形式。假设你收集了包括美国各州的数据集,四分之一的名字拼写错误。在这种情况下,你必须执行一些技术来纠正这些错误。您必须删除数据;线索是名称!
大数据有更多的数据类型,它们有更广泛的数据清理方法。有一些技术可以验证数字图像是否已经准备好处理。有一些特定的方法来确保文件的音频 质量足以继续下去。
缺失值
“ 缺失的 “价值观”是你必须处理的其他事情。并不是每个客户都会为你提供所需的所有数据。客户经常给你他的名字和职业,而不是他的年龄。在这种情况下你能做什么?
您是否应该忽略客户的整个记录?还是可以输入其他客户的平均年龄?
无论哪种最佳解决方案,在进一步处理数据之前,都必须清理数据并处理缺失值。
传统数据处理技术
让我们进入处理传统数据的两种常用技术。
平衡
想象一下,你已经编制了一份收集男女购物习惯数据的调查表。假设你想确定谁在周末花了更多的钱。然而,当你完成数据收集时,你会发现80%的受访者是女性,只有20%是男性。
在这种情况下,你发现的趋势会更倾向于女性。解决这个问题的最好方法是应用平衡技术。例如,从每组中提取相同数量的受访者,比例为50/50。
数据改组
从数据集中混合观察结果就像混合一张纸牌。这将确保您的数据集不会出现由问题数据收集引起的有害模式。数据重组是一种提高预测性能并帮助避免误导性结果的技术。
但是如何避免错觉呢?
嗯,这是一个详细的过程,但一般来说,混合洗涤是使数据随机化的一种方法。如果我从数据集中获得前100个观察值,它不是随机样本。最高观察值将首先提取。如果我混合和清洗数据,可以肯定的是,当我连续输入100个项目时,它们将是随机的(可能具有代表性)。
处理大数据的技术
让我们来看看一些处理大数据的特定案例技术。
挖掘文本数据
想想大量存储在数字格式中的文本。许多旨在从数字资源中提取特定文本信息的科学项目正在进行中。比如你可能有一个存储学术论文“营销费用”(你的研究主题)的数据库。如果源的数量和存储在数据库中的文本数量足够少,那么大数据分析技术可以很容易地找到所需的信息。一般来说,尽管数据很大。它可能包含来自学术论文、博客文章、在线平台、私人excel文件等的信息。
这意味着你需要从许多来源中提取“营销支出”信息。换句话说,它是“大数据”。
这并非一件容易的事,这就导致了学者和从业人员开发出实施“文本数据挖掘”的方法。
数据屏蔽
如果你想保持可靠的业务或政府活动,你必须保留秘密信息。在线共享个人详细信息时,您必须使用一些“数据屏蔽”技术来分析信息,以免损害参与者的隐私。
像数据改组一样,“数据屏蔽”可能非常复杂。它使用随机和虚假数据隐藏原始数据,并允许您在安全的地方分析和保存所有机密信息。通过“机密保留数据挖掘”技术,将数据屏蔽应用于大数据的示例之一。
完成数据处理后,您将获得所需的有价值和有意义的信息。我希望我们知道传统数据和大数据的区别,以及如何处理它们。
数据挖掘技术也属于人工智能的范畴吗?所谓的人工智能技术包括什么?
数据挖掘可以作为支持人工智能的技术,也可以作为人工智能的一部分。KDD是与人工智能和big相关的著名会议和组织 data 数据库之间有着密切的联系。