分析数据
“分析数据”是一个广泛的概念,它涵盖一系列不同的流程和技巧。可能有一种以上的方式可实现相同的数据分析目标。总体流程通常是迭代的,要求您基于您一路发现的信息修改您的初始方法。
有效的数据分析
在最基本的层面上,分析数据是找到数据相关问题的答案的过程。Analytics 提供了许多命令和其他工具,供您用来获取有关您所调查数据的深刻见解,以及回答具体问题。但是,您应该丢弃只需在 Analytics 中单击两三个按钮就能魔术般得到全部数据分析答案的幻想。
有效的数据分析要求:
- 了解数据的性质
- 制定具体的分析目标
- 明智地应用工具
Analytics 可以显著扩大您的数据分析能力,但不能取代它们。
Analytics 中的数据分析命令和工具
下表按数据分析领域对 Analytics 命令和工具进行了分类。这些分类不是绝对的。您可能在某个命令的类别外部发现其有效用途。某些命令,如排序和联接,其主要用途不是解析性的,但在某些情况下可提供解析性的见解。
说明
除了最基本的场合以外,数据分析通常要求使用一系列命令来逐步达成分析目标,而不是单独使用一个命令。
| 数据分析领域 | 命令或工具 | 描述 |
|---|---|---|
|
一般特征 |
使用下列命令可发现数据集的一般特征,包括:
|
|
| 可靠性/准确性 | 计算域 | 使用计算域可重新计算和测试数据集中的计算金额(如包括税费在内的总金额)的准确性 |
| 隔离 |
使用过滤功能可将数据集或数据处理范围限制到感兴趣的记录子集 使用搜索功能可查找数据集中的特定值 |
|
| 序列顺序 | 序列 | 测试数据是否按顺序排序,并识别失序的数据项 |
| 完整性 | 间隔 | 验证一个序列(如一系列按顺序排序的检查)中的所有记录是否都存在,并且识别该序列中任何间隙的位置 |
| 唯一性 | 重复 | 识别域中的重复值或重复项,或者整个重复记录 |
| 不精确性 | 模糊重复 | 识别可能引用相同现实实体的、几乎完全相同的值 |
|
频率分布 重要性集中度 |
对记录进行分组,并且按数值范围或聚类、按期间或者按记录标识符(如位置代码、供应商/客户编号或产品标识符)确定有多少个记录以及有多少值被集中 对于识别异常值也是有用的 |
|
| 比较 | 组合表以查明记录在多个表(如发票表和采购订单表)中是得到匹配还是得不到匹配 | |
| 数值异常值 | Benford | 通过测试前导数字以检查是否与预期 Benford 分布情况存在差异来发现异常数值数据 |