分析数据

“分析数据”是一个广泛的概念,它涵盖一系列不同的流程和技巧。可能有一种以上的方式可实现相同的数据分析目标。总体流程通常是迭代的,要求您基于您一路发现的信息修改您的初始方法。

有效的数据分析

在最基本的层面上,分析数据是找到数据相关问题的答案的过程。Analytics 提供了许多命令和其他工具,供您用来获取有关您所调查数据的深刻见解,以及回答具体问题。但是,您应该丢弃只需在 Analytics 中单击两三个按钮就能魔术般得到全部数据分析答案的幻想。

有效的数据分析要求:

  • 了解数据的性质
  • 制定具体的分析目标
  • 明智地应用工具

Analytics 可以显著扩大您的数据分析能力,但不能取代它们。

Analytics 中的数据分析命令和工具

下表按数据分析领域对 Analytics 命令和工具进行了分类。这些分类不是绝对的。您可能在某个命令的类别外部发现其有效用途。某些命令,如排序和联接,其主要用途不是解析性的,但在某些情况下可提供解析性的见解。

说明

除了最基本的场合以外,数据分析通常要求使用一系列命令来逐步达成分析目标,而不是单独使用一个命令。

数据分析领域 命令或工具 描述

一般特征

验证

计数

合计

摘要

统计

异常值

排序

索引

使用下列命令可发现数据集的一般特征,包括:

  • 数据有效性
  • 记录计数
  • 总金额
  • 最小、最大和平均金额
  • 标准偏差、中值、模式和四分位数值
  • 异常值
  • 范围
  • 正值和负值的分布情况
  • 模式
可靠性/准确性 计算域 使用计算域可重新计算和测试数据集中的计算金额(如包括税费在内的总金额)的准确性
隔离

过滤

搜索

使用过滤功能可将数据集或数据处理范围限制到感兴趣的记录子集

使用搜索功能可查找数据集中的特定值

序列顺序 序列 测试数据是否按顺序排序,并识别失序的数据项
完整性 间隔 验证一个序列(如一系列按顺序排序的检查)中的所有记录是否都存在,并且识别该序列中任何间隙的位置
唯一性 重复 识别域中的重复值或重复项,或者整个重复记录
不精确性 模糊重复 识别可能引用相同现实实体的、几乎完全相同的值

频率分布

重要性集中度

分层

帐龄

分类

汇总

交叉制表

柱状图

聚类

对记录进行分组,并且按数值范围或聚类、按期间或者按记录标识符(如位置代码、供应商/客户编号或产品标识符)确定有多少个记录以及有多少值被集中

对于识别异常值也是有用的

比较

联接

模糊联接

关联

组合表以查明记录在多个表(如发票表和采购订单表)中是得到匹配还是得不到匹配
数值异常值 Benford 通过测试前导数字以检查是否与预期 Benford 分布情况存在差异来发现异常数值数据