Prüfung auf Lücken

Konzept-Informationen

GAPS-Befehl

Lücken in sequenziell angeordneten numerischen oder Datumzeit-Feldern könnten andeuten, dass eine Datendatei unvollständig ist. Sie können ein Feld mit sequenziell angeordneten Werten auf Lücken testen und, falls vorhanden, ein oder mehrere Lücken bzw. fehlende Elemente identifizieren.

Um gültige Ergebnisse zu erzielen, muss das getestete Feld zuvor eine sequenzielle Ordnung aufweisen. Für den Lückentest können Sie ein Feld vorab sortieren oder die Option Vorsortieren verwenden.

Ein Test numerischer oder Datumzeit-Felder ist ebenso möglich wie Tests von Zahlen in Zeichenfeldern. Sie können jeweils nur ein Feld testen.

Auflistung von Lückenbereichen oder Einzeleinheiten

Für die Ausgabe der Ergebnisse des Lückentests gibt es zwei Optionen:

  • Lückenbereiche
  • Einzeleinheiten

Lückenbereiche

Diese Option gibt den Beginn und das Ende einer Lücke an sowie die Gesamtanzahl der innerhalb der Lücke fehlenden Elemente.

Der angegebene Beginn und das Ende der Lücke stellen nicht selbst fehlende Elemente dar. Sie sind vielmehr die sequenziellen Werte unmittelbar vor und nach der Lücke und werden als Lückenanfang (exklusiv) und Lückenende (exklusiv) bezeichnet. Die Schecknummern 12345 und 12350 würden beispielsweise eine Lücke mit vier fehlenden Elementen zwischen diesen beiden Werten darstellen.

Einzeleinheiten

Diese Option listet einzelne fehlende Elemente innerhalb einer Lücke auf. Im obigen Beispiel wären dies die Schecknummern 12346, 12347, 12348 und 12349.

Diese fehlenden Elemente sind berechnete Werte und tauchen in den getesteten Daten nicht tatsächlich auf. Bei der Verwendung dieser Option ermöglicht Ihnen das Feld Lückenlimit, die maximale Anzahl der einzeln aufzulistenden fehlenden Elemente anzugeben. Dies ist hilfreich, falls eine Lücke sehr groß ist. Sobald der maximale Wert überschritten wurde, verwendet Analytics stattdessen die Bereichsmethode. In diesem Fall sind die Anfangs- und Endwerte der Lücke jedoch die ersten und letzten fehlenden Elemente und werden als Lückenanfang (einschließlich) und Lückenende (einschließlich) bezeichnet.

Hinweis

Die in Lückenlimit angegebene Zahl gilt auf Basis jeder einzelnen Lücke. Sie begrenzt nicht die Gesamtanzahl fehlender Elemente innerhalb des Datasets, unabhängig davon, ob diese einzeln oder als Lückenbereich aufgelistet werden.

Bei der Verwendung der Einzeleinheiten können die Ergebnisse eine Mischung aus einzelnen fehlenden Elementen und Bereichen darstellen. Dies hängt von dem Wert des Felds Lückenlimit und der Größe der unterschiedlichen Lücken ab.

Untersuchung numerischer Daten auf Lücken

Wenn Sie numerische Daten auf Lücken untersuchen, bestimmt die Anzahl der Dezimalstellen der Daten das gestattete Intervall innerhalb der Daten:

  • Numerische Daten beinhalten lediglich ganze Zahlen (ohne Dezimalstellen) Das gestattete Intervall beträgt 1

    Falls ein Intervall größer als 1 ist, stellt es eine Lücke dar. Bei Lücken, die als Bereiche gemeldet werden, ist die Anzahl der fehlenden Elemente die Anzahl der fehlenden ganzen Zahlen.

  • Numerische Daten enthalten Dezimalstellen Das gestattete Intervall entspricht dem kleinsten Dezimalintervall.

    Falls ein numerisches Feld beispielsweise zwei Dezimalstellen aufweist, beträgt das gestattete Intervall 0,01. Ein Intervall, welches das kleinste Dezimalintervall überschreitet, stellt eine Lücke dar. Bei Lücken, die als Bereiche gemeldet werden, ist die Anzahl der fehlenden Elemente die Anzahl der fehlenden Dezimalintervalle.

Beispiele einer Untersuchung numerischer Daten auf Lücken

Im ersten Beispiel beinhalten die numerischen Daten lediglich ganze Zahlen. Das gestattete Intervall beträgt 1.

Testwerte

Fehlende Elemente

Anzahl fehlender Elemente

-2

-1

0

1

4

5

15

2

3

6 (bis) 14 (einschließlich)

1 (ganze Zahl)

1 (ganze Zahl)

9 (ganze Zahlen)

Im zweiten Beispiel beinhalten die numerischen Daten zwei Dezimalstellen. Das gestattete Intervall beträgt 0,01.

Testwerte

Fehlende Elemente

Anzahl fehlender Elemente

4,24

4,25

4,26

4,29

4,30

5,00

4,27

4,28

4,31 (bis) 4,99 (einschließlich)

1 (0,01-Intervall)

1 (0,01-Intervall)

69 (0,01-Intervalle)

Untersuchung von Datumzeitdaten auf Lücken

Sie können Datum-, Datumzeit- und Zeitdaten auf Lücken untersuchen:

  • Das gestattete Intervall in Datumsfeldern beträgt einen Tag.

    Ein Intervall, das größer als einen Tag ist, stellt eine Lücke dar. Bei Lücken, die als Bereiche gemeldet werden, ist die Anzahl der fehlenden Elemente die Anzahl der fehlenden Tage.

  • Das gestattete Intervall in Datumzeit- oder Zeitfeldern ist eine Sekunde.

    Ein Intervall, das größer als eine Sekunde ist, stellt eine Lücke dar. Bei Lücken, die als Bereiche gemeldet werden, ist die Anzahl der fehlenden Elemente die Anzahl der fehlenden Sekunden. Eine Lücke von einer Stunde würde also als ein Bereich mit 3.600 fehlenden Elementen ausgewiesen werden, eine Lücke von einem Tag als ein Bereich mit 86.400 fehlenden Elementen.

Beispiele einer Untersuchung von Datum- und Datumzeitdaten auf Lücken

Im ersten Beispiel beinhalten die Daten lediglich Datumswerte. Das gestattete Intervall beträgt einen Tag.

Testwerte

Fehlende Elemente

Anzahl fehlender Elemente

27 Dez 2014

28 Dez 2014

31 Dez 2014

01 Jan 2015

02 Jan 2015

12 Jan 2015

13 Jan 2015

29 Dez 2014

30 Dez 2014

03 Jan 2015 (bis) 11 Jan 2015 (einschließlich)

1 (Tag)

1 (Tag)

9 (Tage)

Im zweiten Beispiel beinhalten die Daten Datumzeit-Werte. Das gestattete Intervall beträgt eine Sekunde.

Testwerte

Fehlende Elemente

Anzahl fehlender Elemente

31 Dez 2014 23:59:54

31 Dez 2014 23:59:55

31 Dez 2014 23:59:58

31 Dez 2014 23:59:59

01 Jan 2015 01:00:00

01 Jan 2015 01:00:01

02 Jan 2015 01:00:02

31 Dez 2014 23:59:56

31 Dez 2014 23:59:57

01 Jan 2015 00:00:00 (bis) 01 Jan 2015 00:59:59 (einschließlich)

01 Jan 2015 01:00:02 (bis) 02 Jan 2015 01:00:01 (einschließlich)

1 (Sekunde)

1 (Sekunde)

3.600 (Sekunden)

86.400 (Sekunden)

Untersuchung numerischer Daten in einem Zeichenfeld auf Lücken

Sie können numerische Daten in einem Zeichenfeld auf Lücken untersuchen, wie z.B. Schecknummern, die typischerweise als Zeichendaten formatiert sind.

Wenn Buchstaben und Zahlen zusammen in einem Zeichenfeld erscheinen, werden nur die Zahlen untersucht und die Buchstaben werden ignoriert.

Beispiele einer Untersuchung numerischer Daten in einem Zeichenfeld auf Lücken

Beachten Sie, wie die vorausgehenden Buchstaben ignoriert und nur die Zahlen berücksichtigt werden.

Testwerte

Fehlende Elemente

Anzahl fehlender Elemente

A123

C124

 

0 (Zeichenzahl)

A123

B125

124

1 (Zeichenzahl)

Die Sortierung von Zeichenfeldern kann sich auf den Test auf Lücken auswirken

Je nach der Anordnung der Buchstaben und Zahlen in Zeichenfeldern können die Ergebnisse einer Lückenuntersuchung Anomalien aufweisen. Wenn einigen Zahlen beispielsweise ein Buchstabe vorausgeht und anderen nicht, oder wenn in der Nicht-Unicode-Edition von Analytics einige vorausgehende Buchstaben klein- und andere großgeschrieben werden, könnten die Ergebnisse nicht korrekt sein.

Der Grund der Ungenauigkeit besteht darin, dass das uneinheitliche Vorhandensein von Buchstaben oder deren uneinheitliche Groß- und Kleinschreibung eine sequenzielle Anordnung der Zahlen mit der Option Vorsortieren verhindert. In der folgenden Tabelle fehlen die Elemente 126, 127 und 124 nicht tatsächlich, sie werden vielmehr wegen der Sortierung der alphanumerischen Zeichenfolgen als fehlende Elemente ausgewiesen.

Falls Sie eine Anomalie vermuten, sortieren Sie das betreffende Feld, um die Sortierfolge des untersuchten Zeichenfelds zu sehen. Falls die sequenzielle Anordnung durch Buchstaben gestört wird, können Sie eine Analytics-Funktion wie z.B. INCLUDE( ) verwenden, um die Buchstaben vor der Lückenuntersuchung zu entfernen und dadurch gültige Ergebnisse sicherzustellen.

Beispiele fehlerhafter Lückenergebnisse

Beachten Sie, dass das uneinheitliche Auftreten von Buchstaben oder deren inkonsistente Groß- und Kleinschreibung dazu führt, dass Elemente fälschlicherweise als fehlend gemeldet werden.

Testwerte

Fehlende Elemente

Anzahl fehlender Elemente

123

124

125

128

129

A-126

A-127

126

127

1 (Zeichenzahl)

1 (Zeichenzahl)

A-123

a-124

A-125

A-128

A-129

A-126

A-127

124

1 (Zeichenzahl)

Schritte

Sie können jeweils ein Feld in der aktiven Tabelle prüfen, um zu bestimmen, ob in den sequenziell sortierten Zahlen oder Datumzeiten Lücken vorhanden sind.