条件抽样

注意

在抽样时应用命令过滤或范围参数会损害样本的有效性。如果您这样做,则会在日志中生成表示样本结果可能无效的说明。

尽管抽样对话框中存在应用命令过滤器和范围参数的功能,本指南的抽样程序中已删除相应的步骤。

条件抽样被用于限制对满足指定条件(例如,在特定地点发生的交易或者由特定制造商生产的产品)的记录的样本选择。

执行条件抽样时,必须确保您使用了准确的数据集。尽管抽样可能生成意外的结果,但使用命令过滤器可以优化数据。最佳做法是首先将满足必要条件的数据提取到一个新的表,然后在不使用过滤器的情况下对新表执行抽样。

对过滤数据进行抽样与对抽样数据进行过滤

执行条件抽样时,请注意下列各项之间的区别:

  • 对过滤数据进行抽样
  • 对抽样数据进行过滤

最佳做法:对过滤数据进行抽样

假定您有一个表包含 1000 个记录,其中有 150 个记录满足条件“12 月 3 日”。您想要从“12 月 3 日”中抽取包含 10 个记录的样本。

实现您的目标的最佳方式是在抽取样本之前,先进行过滤并将“12 月 3 日”记录提取至一个新表。然后,您可以对新表进行抽样,以便您只从“12 月 3 日”记录抽取样本。使用此方法,您便是对过滤数据进行抽样。

避免对抽样数据进行过滤

假定您有一个表包含 1000 个记录,其中有 150 个记录满足条件“12 月 3 日”。您想要从“12 月 3 日”中抽取包含 10 个记录的样本。

如果您从包含 1000 个记录的原始表抽取由 10 个记录组成的样本,并且在该过程中应用了命令过滤器 IF 部门 = "03",则您是在对抽样数据进行过滤。

此方法的问题在于,Analytics 从未过滤的数据集中选择 10 个记录,然后只提供满足“12 月 3 日”这一条件的记录,从而导致样本中的记录数少于所要求的 10 个记录。该样本不具有代表性,是无效的。

出于类似的原因,过滤包含抽样记录的输出表会使样本无效。