Testen auf Fuzzy-Duplikate
Konzept-Informationen
Sie können ein Zeichenfeld einer aktiven Tabelle testen, um zu ermitteln, ob dieses nahezu identische Werte (Fuzzy-Duplikate) enthält. Sie können in die Ausgabeergebnisse neben nahezu identischen Werten auch optional identische Werte (exakte Duplikate) einbeziehen.
Wenn in den Ergebnissen eine oder mehrere Gruppen von Fuzzy-Duplikaten die jeweilige Höchstgrenze erreichen, wird eine Meldung angezeigt. Weitere Informationen finden Sie unter Kontrolle des Umfangs von Ergebnissen mit Fuzzy-Duplikaten.
Wirkung von Fuzzy-Duplikate-Tests verbessern
Mithilfe der folgenden Techniken können Sie die Wirksamkeit von Fuzzy-Duplikate-Tests beträchtlich steigern.
- einzelne Elemente in Testfeldwerten sortieren
- generische Elemente aus Testfeldwerten entfernen
- Testfelder verketten
Weitere Informationen finden Sie unter Hilfefunktionen für Fuzzy-Duplikate und Verketten von Feldern.
Ausführungszeit und Größe der Ausgabeergebnisse verringern
Die Funktion für Fuzzy-Duplikate erfordert eine hohe Prozessorleistung, da jeder Wert eines Testfelds mit jedem in diesem Feld folgenden Wert verglichen werden muss.
Wenn dies in Ihrer Analyse möglich ist, verwenden Sie Methoden wie z.B. Filtern oder Extrahieren von Datensatz-Untergruppen, um die Größe des zu testenden Datasets einzuschränken. Kleinere Datasets werden insgesamt schneller ausgeführt und helfen auch bei der Kontrolle der Größe von Ausgabeergebnissen.
Schritte
Hinweis
Detaillierte Informationen werden nach den Schritten angezeigt. Siehe Optionen im Dialogfeld „Fuzzy-Duplikate“.
- Wählen Sie Analyse > Fuzzy-Duplikate.
- Führen Sie in der Registerkarte Haupt eine der folgenden Aktionen aus:
- Wählen Sie aus der Liste Fuzzy-Duplikate an das zu testende Feld aus.
- Klicken Sie auf Fuzzy-Duplikate an, um das Feld auszuwählen oder einen Ausdruck zu erstellen.Tipp
Indem Sie einen Ausdruck erstellen, verketten Sie Testfelder, entfernen Sie generische Elemente aus Testfeldwerten oder sortieren Sie einzelne Elemente innerhalb der Testfeldwerte. Weitere Informationen finden Sie unter Hilfefunktionen für Fuzzy-Duplikate und Verketten von Feldern.
- Optional. Wählen Sie ein oder mehrere Datenfelder aus, um zusätzliche Felder zu den Ergebnissen hinzuzufügen, oder klicken Sie auf Datenfelder, um die Felder auszuwählen, Alle hinzufügen oder einen Ausdruck zu erstellen.
Durch zusätzliche Felder können für die Ergebnisse nützliche Kontextinformationen bereitgestellt werden. Darüber hinaus sind sie hilfreich beim Prüfen, ob Fuzzy-Duplikate auf dieselbe tatsächliche Entität verweisen.
Hinweis
Das Feld, das Sie auf Fuzzy-Duplikate testen möchten, wird automatisch am Anfang jedes Ergebnisdatensatzes angezeigt und muss nicht unter Datenfelder ausgewählt werden.
- Geben Sie zur Kontrolle der Differenz zwischen Fuzzy-Duplikaten einen Differenzschwellenwert an.
Die Einstellung wird im Folgenden erläutert.
- Führen Sie einen der folgenden Schritte aus:
- Geben Sie einen Differenzprozentsatz an, um den zulässigen Anteil der Differenz jedes einzelnen Fuzzy-Duplikats zu kontrollieren.
- Sie können den Differenzprozentsatz deaktivieren, indem Sie die Auswahl rückgängig machen.
Die Einstellung wird im Folgenden erläutert.
- Führen Sie einen der folgenden Schritte aus:
- Geben Sie eine Ergebnisgröße (%) an, um den maximalen Ergebnisumfang, berechnet als Prozentsatz der Testfeldgröße, festzulegen.
- Sie können die Ergebnisgröße (%) deaktivieren.
Die Einstellung wird im Folgenden erläutert.
- Wählen Sie Exakte Duplikate einbeziehen aus, wenn Sie in die Ergebnisse neben Fuzzy-Duplikaten auch exakte Duplikate einbeziehen möchten.
Weitere Informationen finden Sie unter Gruppierung von Fuzzy-Duplikaten.
-
Falls Einträge in der aktuellen Ansicht vorhanden sind, die Sie von der Verarbeitung ausschließen wollen, dann tragen Sie eine Bedingung in das Textfeld Wenn ein oder klicken Sie auf Wenn, um mittels Ausdruck-Generator eine IF-Anweisung zu erstellen.
Die IF-Anweisung berücksichtigt alle Datensätze in der Ansicht und filtert diejenigen heraus, die der angegebenen Bedingung nicht entsprechen.
- Wenn Sie mit einer Servertabelle verbunden sind, führen Sie einen der folgenden Schritte aus:
- Wählen Sie Lokal, um die Ausgabetabelle an demselben Speicherort wie das Projekt zu speichern oder um einen Pfad zu bestimmen oder zu einem anderen lokalen Ordner zu navigieren.
- Lassen Sie Lokal deaktiviert, um die Ausgabetabelle im Präfix-Ordner auf einem Server zu speichern.
Hinweis
Für Ausgabeergebnisse von Analysen oder von der Verarbeitung von Servertabellen in Analytics Exchange wählen Sie Lokal. Sie können die Auswahl der Einstellung Lokal aufheben, um Ergebnistabellen in Analytics Exchange zu importieren.
- Führen Sie einen der folgenden Schritte aus:
- Geben Sie in das Textfeld Nach den Namen der Analytics-Tabelle ein, welche die Ausgabeergebnisse enthalten wird.Analytics
- Klicken Sie auf Nach und wählen Sie eine bereits existierende Tabelle aus dem Dialogfeld Speichern oder Datei speichern unter aus, um diese zu überschreiben oder Daten an sie anzuhängen.
Sie können auch einen absoluten oder relativen Dateipfad angeben, oder zu einem anderen Ordner navigieren, um die Tabelle an einem anderen Speicherort als dem Projektspeicherort zu speichern oder anzuhängen. Beispiel: C:\Ergebnisse\Ausgabe.fil oder Ergebnisse\Ausgabe.fil.
Unabhängig davon wo Sie die Tabelle speichern oder anhängen, wird sie zum offenen Projekt hinzugefügt, wenn sie nicht bereits im Projekt vorhanden ist.
Falls Analytics einen Tabellennamen vorgibt, können Sie diesen akzeptieren oder ändern.
Hinweis
Analytics-Tabellennamen sind auf 64 alphanumerische Zeichen beschränkt, was die .FIL- Dateierweiterung nicht einbezieht. Der Name kann den Unterstrich beinhalten ( _ ), aber keine anderen Sonderzeichen oder Leerzeichen. Er kann nicht mit einer Ziffer beginnen.
-
Wählen Sie die Option Ausgabetabelle verwenden, wenn die Ausgabetabelle nach dem Abschluss der Operation automatisch geöffnet werden soll.
- Klicken Sie auf OK.
- Falls die Aufforderung zum Überschreiben angezeigt wird, wählen Sie die entsprechende Option aus.
Optionen im Dialogfeld „Fuzzy-Duplikate“
Die folgende Tabelle enthält detaillierte Informationen über die Optionen im Dialogfeld „Fuzzy-Duplikate“.
| Optionen – Dialogfeld „Fuzzy-Duplikate“ | Beschreibung |
|---|---|
| Differenzschwellenwert |
Die zulässige Differenz zwischen Fuzzy-Duplikaten. Geben Sie eine Zahl von 1 bis 10 an. Durch Erhöhen des Differenzschwellenwerts wird die Anzahl der Zeichen erhöht, in denen sich Paare von Fuzzy-Duplikaten unterscheiden dürfen, wodurch der Umfang der Ergebnisse zunimmt. Weitere Informationen finden Sie unter Funktionsweise der Differenzeinstellungen. |
| Differenzprozentsatz |
Der Prozentsatz, um den einzelne Fuzzy-Duplikate unterschiedlich sein dürfen. Geben Sie einen Prozentsatz zwischen 1 und 99 an. Durch Erhöhen des Differenzprozentsatzes wird der Anteil der möglichen Differenz eines Fuzzy-Duplikats erhöht, wodurch der Umfang der Ergebnisse zunimmt. Wenn Sie den Differenzprozentsatz deaktivieren, wird der Differenzanteil eines Fuzzy-Duplikats in den Ergebnissen nicht berücksichtigt. Die Ergebnisse fallen umfangreicher aus, als wenn Sie einen beliebigen Differenzprozentsatz angeben. Weitere Informationen finden Sie unter Funktionsweise der Differenzeinstellungen. |
| Ergebnisgröße (%) |
Der maximale Ergebnisumfang im Verhältnis zur Größe des Testfelds. Sie können einen Prozentsatz von 1 bis 1000 (eintausend) angeben. Mithilfe dieser Option können Sie den Vorgang zum Ermitteln von Fuzzy-Duplikaten automatisch beenden, wenn der Umfang der Ergebnisse einen für Sie sinnvollen Umfang überschreitet. Für ein Testfeld mit beispielsweise 50.000 Werten würde bei einer Ergebnisgröße (%) von 1 die Verarbeitung beendet, sobald die Ergebnisse einen Umfang von 500 Fuzzy-Duplikaten übersteigen. Wenn der Verarbeitung beendet wird, wird keine Ausgabetabelle erstellt. Wenn Sie die Ergebnisgröße (%) deaktivieren, beschränkt Analytics den Umfang der Ergebnisse nicht.Analytics Achtung Wenn die Ergebnisgröße (%) deaktiviert ist, kann dies zu übermäßig umfangreichen Ergebnisse und einer sehr langen Verarbeitungszeit führen, oder es tritt möglicherweise der Fall ein, dass der verfügbare Speicherplatz ausgeschöpft ist und die Verarbeitung beendet wird. Deaktivieren Sie diese Option nur, wenn Sie sicher sind, dass die Ergebnisse eine sinnvolle Größe nicht überschreiten. Weitere Informationen finden Sie unter Kontrolle des Umfangs von Ergebnissen mit Fuzzy-Duplikaten. |