Hilfefunktionen für Fuzzy-Duplikate
Zwei Analytics-Funktionen unterstützen Sie dabei, Fuzzy-Duplikate effizienter zu ermitteln:
- SORTWORDS( )
- OMIT( )
Sie können die beiden Funktionen getrennt oder zusammen verwenden.
Eine dritte Funktion, ISFUZZYDUP( ), gibt Ihnen die Option, Fuzzy-Duplikate für einen spezifischen Wert statt ein gesamtes Feld zu identifizieren.
SORTWORDS-Funktion
Verwenden Sie bei der Nutzung des Fuzzy-Duplikate-Features die SORTWORDS( )-Funktion, um einen Ausdruck oder ein Kalkulationsfeld zu erstellen, das einzelne Elemente in Testfeldwerten sequenziell sortiert.
Eine Sortierung der Elemente, wie zum Beispiel der Bestandteile einer Adresse, verringert die Bedeutung der physischen Position von Elementen beim Fuzzy-Duplikate-Vergleich. Die daraus entstehende Effektivitätsverbesserung ermöglicht Ihnen einen deutlich niedrigeren Differenzschwellenwert, wodurch Sie eine kleinere und fokussiertere Ergebnismenge erhalten, die weniger Falschmeldungen enthält.
Detaillierte Informationen finden Sie unter SORTWORDS( )-Funktion. Weitere Informationen zum Differenzschwellenwert finden Sie unter Funktionsweise der Differenzeinstellungen.
Das Video Fuzzy Matching Using SORTWORDS() (Fuzzy-Übereinstimmungen mit SORTWORDS, nur auf Englisch) verschafft Ihnen einen Überblick zu SORTWORDS().
Beispiel
Die folgenden zwei Werte würden einen Differenzschwellenwert von mindestens 22 erfordern, um in die Ausgabeergebnisse für Fuzzy-Duplikate aufgenommen zu werden.
- 125 SW 39TH ST, Suite 100
- Suite 100, 125 SW 39TH ST
Der maximal erlaubte Differenzschwellenwert ist 10, weshalb das Fuzzy-Duplikat-Feature die beiden Werte nie als Fuzzy-Duplikate identifizieren würde. Gleichzeitig handelt es sich eindeutig um dieselbe Adresse.
Wenn Sie hingegen mit SORTWORDS( ) einen Ausdruck oder ein Kalkulationsfeld zur Sortierung der einzelnen Adressbestandteile verwenden, ist nur ein Differenzschwellenwert von 2 erforderlich, um die beiden Adressen als Fuzzy-Duplikate zurückzugeben:
- 100 125 39TH ST, SW Suite
- 100, 125 39TH ST SW Suite
OMIT-Funktion
Verwenden Sie bei der Nutzung des Fuzzy-Duplikate-Features die OMIT( )-Funktion, um einen Ausdruck oder ein Kalkulationsfeld zu erstellen, das generische Elemente aus Testfeldwerten entfernt.
Durch das Entfernen von Elementen wie Bindestrichen, Kommas und Vorzeichen sowie Wörtern oder Abkürzungen wie „GmbH“, „AG“, „Straße“, „Str.“ usw. konzentriert sich der Fuzzy-Duplikat-Vergleich nur auf den Teil der Testwerte, in dem bedeutende Unterschiede auftreten. Die daraus entstehende Effektivitätsverbesserung ermöglicht Ihnen einen deutlich niedrigeren Differenzschwellenwert, wodurch Sie eine kleinere und fokussiertere Ergebnismenge erhalten, die weniger Falschmeldungen enthält.
Detaillierte Informationen finden Sie unter OMIT( )-Funktion. Weitere Informationen zum Differenzschwellenwert finden Sie unter Funktionsweise der Differenzeinstellungen.
Beispiel
Die folgenden zwei Werte erfordern einen Differenzschwellenwert von mindestens 8, um in die Ausgabeergebnisse für Fuzzy-Duplikate aufgenommen zu werden:
- Intercity Couriers Corporation
- Inter-city Couriers Corp.
Ein Differenzschwellenwert von 8 würde zu einer großen, wenig fokussierten Ergebnismenge mit vielen Falschmeldungen führen. Bei einem niedrigeren Differenzschwellenwert würden die beiden Werte der Erkennung als Fuzzy-Duplikate entgehen.
Wenn Sie hingegen mit OMIT( ) einen Ausdruck oder ein Kalkulationsfeld erstellen, das generische Elemente wie „Corporation“ und „Corp.“ entfernt, ist nur ein Differenzschwellenwert von 1 erforderlich, um die beiden Namen als Fuzzy-Duplikate zurückzugeben:
- Intercity Couriers
- Inter-city Couriers
ISFUZZYDUP-Funktion
Nach Verwendung der Funktion für Fuzzy-Duplikate und Überprüfung der Ergebnisse können Sie mit der ISFUZZYDUP( )-Funktion eine einzige, vollständige Liste der Fuzzy-Duplikate für einen spezifischen Wert in den Ergebnissen ausgeben. Diesen zusätzlichen Schritt können Sie für Werte nutzen, die für Ihr Analyseziel besonders wichtig erscheinen.
Mit "vollständig" sind alle Werte gemeint, die den angegebenen Differenzgrad des zurückgegebenen Testwerts aufweisen, unabhängig von ihrer Position im Testfeld in Relation zum Testwert.
Das Fuzzy-Duplikate-Feature organisiert die Ausgabeergebnisse in nicht erschöpfenden Gruppen. Die Ergebnisse sind insgesamt vollständig, die einzelnen Gruppen müssen es aber nicht sein. Dieser Ansatz verhindert, dass die Ausgabeergebnisse sehr groß und unüberschaubar werden.
Die nicht erschöpfenden Gruppen sind jedoch möglicherweise für Ihre Analysezwecke ausreichend. Ist dies nicht der Fall, können Sie mithilfe der ISFUZZYDUP( )-Funktion vollständige Ergebnisse für einzelne Werte erstellen.
Detaillierte Informationen finden Sie unter ISFUZZYDUP( )-Funktion. Weitere Informationen zu nicht erschöpfenden Gruppen finden Sie unter Gruppierung von Fuzzy-Duplikaten.