Gruppierung von Fuzzy-Duplikaten
Beim Verarbeiten von Daten werden Fuzzy-Duplikate im Testfeld der Reihe nach ermittelt. Bei diesem Vorgang wird der erste Wert des Felds mit jedem folgenden Wert verglichen, anschließend der zweite Wert des Felds mit jedem folgenden usw. Dieser Vorgang wird so lange wiederholt, bis alle Werte des Felds mit jedem folgenden Wert verglichen wurden. Werte werden nicht mit vorangegangenen Werten verglichen.
Bei jedem Vergleich wird bestimmt, ob die beiden verglichenen Werte basierend auf den angegebenen Differenzeinstellungen Fuzzy-Duplikate sind. (Informationen zu den Differenzeinstellungen finden Sie unter Funktionsweise der Differenzeinstellungen.) Wenn es sich bei den zwei Werten um Fuzzy-Duplikate handelt, werden sie gemeinsam in einer Gruppe platziert. Doppelte Übereinstimmungen werden unterdrückt (Informationen hierzu weiter unten in diesem Thema). Die Ergebnisse des Vorgangs zum Ermitteln von Fuzzy-Duplikaten können mehrere Gruppen umfassen.
Gruppeneigentümer und Gruppenelemente
Das erste Fuzzy-Duplikat in einer Gruppe ist der Kontrollwert oder der „Eigentümer“ der Gruppe. Dies ergibt sich schlichtweg aus der Tatsache, dass es innerhalb der Gruppenelemente in dem von Ihnen getesteten Feld als erstes erscheint. Ein Testfeld umfasst dieselben Daten, eine andere Sortierung würde jedoch zu einem anderen Gruppeneigentümer und zu Gruppen mit einer anderen Zusammensetzung führen.
Die Gruppe wird durch die Datensatznummer des Gruppeneigentümers bezeichnet. Das Beispiel unten zeigt die Ergebnisse eines Tests für das Feld Nachname. „Janson“ bildet basierend auf den Differenzeinstellungen eine Gruppe. Da „Janson“ in der ursprünglichen Tabelle die Datensatznummer 3 aufweist, wird die Gruppe als Gruppe 3 bezeichnet.
Gruppeneigentümer ist nicht unbedingt der richtige Wert
Der Gruppeneigentümer ist nicht unbedingt der „richtige“ bzw. kanonische Wert. Er ist einfach derjenige Wert von dem aus bei der Gruppenbildung der von Ihnen angegebene Differenzgrad gemessen oder berechnet wird. Alle Gruppenelemente liegen innerhalb des angegebenen Differenzgrads zum Gruppeneigentümer. Der Differenzgrad der Elemente untereinander wird nicht berücksichtigt.
Im folgenden Diagramm finden Sie eine visuelle Darstellung der Ergebnisse innerhalb der obigen Ausgabetabelle. Der Differenzschwellenwert beträgt 1, d. h. dass Gruppenelemente einen Unterschied zum Gruppeneigentümer von maximal einem (1) Zeichen aufweisen dürfen. Beachten Sie, dass einige Fuzzy-Duplikate in mehreren Gruppen enthalten sind.
Vollständige und nicht erschöpfende Ergebnisse
Um zu verhindern, dass Ergebnisse erstellt werden, die unverhältnismäßig groß sind, kann das Fuzzy-Duplikate-Feature Gruppen erstellen, die nicht erschöpfend sind. „Nicht erschöpfend“ bedeutet, dass einzelne Gruppen von Fuzzy-Duplikaten möglicherweise nicht alle Fuzzy-Duplikate eines Testfelds enthalten, die den festgelegten Differenzgrad zum Gruppeneigentümer aufweisen. Wenn es sich bei dem Gruppeneigentümer um ein Fuzzy-Duplikat eines anderen Werts im Testfeld handelt, werden beide Werte gemeinsam in einer Gruppe innerhalb der Ergebnisse angezeigt, jedoch nicht notwendigerweise in der dem Gruppeneigentümer zugeordneten Gruppe. Die Gruppen sind unter Umständen nicht erschöpfend, die Ergebnisse insgesamt sind es jedoch.
Verwenden Sie die ISFUZZYDUP( )-Funktion, wenn Sie zur Analyse eine einzige vollständige Liste der Fuzzy-Duplikate für einen bestimmten Wert im Testfeld erstellen möchten. Weitere Informationen finden Sie unter Hilfefunktionen für Fuzzy-Duplikate.
Ausführliche Informationen zur Gruppenbildung
Mit der Funktion für Fuzzy-Duplikate werden nicht erschöpfende Gruppen erstellt, indem Werte aus einer Gruppe ausgeschlossen werden, wenn diese zusammen mit dem Gruppeneigentümer in einer vorangegangenen Gruppe angezeigt wurden. Durch diese Methode der Gruppenbildung wird die Anzahl doppelter Paare von Fuzzy-Duplikaten reduziert und die Kontrolle der Gesamtgröße von Ergebnissen erleichtert.
Die Regeln für die Gruppenbildung werden im Folgenden mit zugehörigen Beispielen erläutert.
| Regel | Erläuterung |
|---|---|
| Die Beziehung zwischen Eigentümer und Element ist nicht reziprok. |
Da Fuzzy-Duplikate im Testfeld nacheinander ermittelt werden, werden den Gruppeneigentümern nur diejenigen Fuzzy-Duplikate zugeordnet, die im Feld nach diesen angezeigt werden, keine vorhergehenden. In vielen Fällen ist ein Gruppeneigentümer selbst ein Element einer oder mehrer vorangegangener Gruppen. Das Gegenteil ist jedoch nicht möglich. Eigentümer vorangegangener Gruppen können nicht Elemente folgender Gruppen sein. Sobald ein Wert die Position eines Gruppeneigentümer einnimmt, wird er in folgenden Gruppen nicht mehr berücksichtigt. Im obigen Beispiel ist der Eigentümer der Gruppe 6, „Jansen“, Element von zwei vorangegangenen Gruppen. Die Eigentümer dieser Gruppen („Hansen“ und „Janson“) sind jedoch keine Elemente der Gruppe 6, obwohl es sich bei ihnen um Fuzzy-Duplikate von „Jansen“ handelt. |
| Wenn zwei Werte Elemente einer vorangegangenen Gruppe sind, werden sie in einer folgenden Gruppe nicht gemeinsam aufgeführt, wenn einer der Werte der Eigentümer der Folgegruppe ist. |
Im obigen Beispiel sind „Jansen“, „Jansan“ und „Jansn“ allesamt Elemente der Gruppe 3. Wenn „Jansen“ Eigentümer der Gruppe 6 wird, werden „Jansan“ und „Jansn“ nicht in dieser Gruppe platziert, obwohl es sich bei beiden um Fuzzy-Duplikate handelt, die im Testfeld nach „Jansen“ aufgeführt werden. |
| Wenn zwei Werte Elemente einer vorangegangenen Gruppe sind, können sie in einer folgenden Gruppe gemeinsam aufgeführt werden, wenn keiner der Werte der Eigentümer der Folgegruppe ist. |
Im obigen Beispiel werden „Hanson“ und „Jansen“ sowohl in Gruppe 2 als auch in Gruppe 3 gemeinsam angezeigt. In diesem Fall ist es möglich, dass sie in mehreren Gruppen gemeinsam angezeigt werden, da sich der Differenzgrad auf den jeweiligen Gruppeneigentümer, nicht auf einander, bezieht. |
Hinweis
In manchen Fällen sind Ausnahmen von der zweiten und dritten Regel möglich. Während der Ermittlung von Fuzzy-Duplikaten werden temporäre Werte gespeichert. Wenn der für diese temporären Werte zur Verfügung stehende Speicherplatz erschöpft ist, kann es zu einigen doppelten Gruppeneigentümern mit einem oder mehreren Gruppenelementen kommen. (Der Eigentümer und das Element sind in einer vorangegangenen Gruppe gemeinsam enthalten.) Je kleiner die angegebene maximale Größe für Gruppen von Fuzzy-Duplikaten ist, desto wahrscheinlicher können solche Redundanzen auftreten.
Datenverarbeitung und Gruppenbildung bei Fuzzy-Duplikaten
In der Tabelle unten wird die Verarbeitung des obigen Beispiels auf Ebene der Datensätze dargestellt. Die Daten werden in absteigender Reihenfolge verarbeitet. Um Redundanzen zu verringern, werden Werte aus einer Gruppe ausgeschlossen, wenn sie in einer vorangegangenen Gruppe bereits gemeinsam mit dem Gruppeneigentümer enthalten waren.
(Differenzeinstellungen: Differenzschwellenwert = 1, Differenzprozentsatz = 99)
| Datensatznummer | Nachname | Gefundene Fuzzy-Duplikate | Ausgabeergebnisse |
|---|---|---|---|
|
1 |
Ronson |
|
|
|
2 |
Hansen |
Hanssen, Hanson, Jansen |
Gruppe 2 Gruppeneigentümer: Hansen Gruppenmitglieder: Hanssen, Hanson, Jansen |
|
3 |
Janson |
Hanson, Jansen, Jansan, Jansn |
Gruppe 3 Gruppeneigentümer: Janson Gruppenmitglieder: Hanson, Jansen, Jansan, Jansn |
|
4 |
Hanssen |
|
|
|
5 |
Hanson |
|
|
|
6 |
Jansen |
Jansan, Janszen, Jansn |
Gruppe 6 Gruppeneigentümer: Jansen Gruppenmitglieder: Janszen |
|
7 |
Jansan |
Jansn |
|
|
8 |
Janszen |
|
|
|
9 |
Jansn |
|
|
Einbeziehen von exakten Duplikaten in Ergebnissen
Beim Ermitteln von Fuzzy-Duplikaten werden bei der Datenverarbeitung immer exakte Duplikate einbezogen, diese werden jedoch aus den Ergebnissen gefiltert, sofern Sie nicht im Dialogfeld Fuzzy-Duplikate die Option Exakte Duplikate einbeziehen aktivieren.
Exakte Duplikate unterliegen denselben Regeln zur Gruppenbildung wie Fuzzy-Duplikate. Sie werden also aus einer Gruppe ausgeschlossen, wenn sie in einer vorangegangenen Gruppe bereits gemeinsam mit dem Gruppeneigentümer enthalten waren. Falls der Gruppeneigentümer und der ausgeschlossene Wert exakte Duplikate sind, mag es erscheinen, dass der ausgeschlossene Wert der Eigentümergruppe angehören sollte. Der Ausschluss entspricht jedoch den Regeln zur Gruppenbildung, da beide Werte gemeinsam in einer vorangegangenen Gruppe aufgeführt waren.
Die folgende Tabelle zeigt die Verarbeitung von exakten Duplikaten. Die Daten werden in absteigender Reihenfolge verarbeitet.
- “Ronson (3)” bildet keine Gruppe mit “Ronson (4)”, weil sich die beiden Werte bereits zusammen in Gruppe 1 befinden.
- “Jansen (9)” ist aus der durch “Jansen (8)” gebildeten Gruppe ausgeschlossen, weil sich die beiden Werte bereits zusammen in Gruppe 2 und Gruppe 5 befinden.
(Differenzeinstellungen: Differenzschwellenwert = 1, Differenzprozentsatz = 99, Exakte Duplikate einbeziehen = Y)
| Datensatznummer | Nachname | Gefundene Fuzzy-Duplikate und exakte Duplikate | Ausgabeergebnisse |
|---|---|---|---|
|
1 |
Ronson |
Ronson (3), Ronson (4) |
Gruppe 1 Gruppeneigentümer: Ronson Gruppenmitglieder: Ronson (3), Ronson (4) |
|
2 |
Hansen |
Hanssen, Hanson, Jansen (8), Jansen (9) |
Gruppe 2 Gruppeneigentümer: Hansen Gruppenmitglieder: Hanssen, Hanson, Jansen (8), Jansen (9) |
|
3 |
Ronson |
Ronson (4) |
|
|
4 |
Ronson |
|
|
|
5 |
Janson |
Hanson, Jansen (8), Jansen (9), Jansan, Jansn |
Gruppe 5 Gruppeneigentümer: Janson Gruppenmitglieder: Hanson, Jansen (8), Jansen (9), Jansan, Jansn |
|
6 |
Hanssen |
|
|
|
7 |
Hanson |
|
|
|
8 |
Jansen |
Jansen (9), Jansan, Janszen, Jansn |
Gruppe 8 Gruppeneigentümer: Jansen Gruppenmitglieder: Janszen |
|
9 |
Jansen |
Jansan, Janszen, Jansn |
Gruppe 9 Gruppeneigentümer: Jansen Gruppenmitglieder: Janszen |
|
10 |
Jansan |
Jansn |
|
|
11 |
Janszen |
|
|
|
12 |
Jansn |
|
|