Nachbesserung vermögensauskunft Muster

Basierend auf den Basisergebnissen haben wir eine detaillierte Fehleranalyse durchgeführt. Diese Analyse ergab, dass der Großteil der falsch positiven Ergebnisse auf eine überraschend geringe Anzahl von Fehlertypen zurückzuführen ist. Darüber hinaus können diese Arten von Fehlern meist durch Filtern bestimmter Muster oder durch Missachtung bestimmter Sätze entfernt werden. In den folgenden Abschnitten stellen wir einige solcher Filter und deren Auswirkungen auf die Leistung im Detail vor. Wir berichten auch über einige alternative Richtungen, die wir befolgt haben, die aber die Leistung nicht wesentlich verbessert haben. Schließlich analysieren wir die Gesamtleistung, wenn mehrere Filter kombiniert werden. Uns sind nur wenige andere Arbeiten bekannt, die die Filterung von Mustern in musterbasiertem IE bewertet haben. In den Biowissenschaften verwendete das SPIES-Projekt [10] einen Musterfilter, der auf dem Minimum Description Length Principle (MDL) für die PPI-Extraktion basiert (siehe Einleitung). Der Effekt, den sie melden, ist viel kleiner als der, den wir beobachtet haben, wahrscheinlich, weil ihre Leistung ohne Filterung bereits viel höher war als in unserem Fall, was weniger Raum für Verbesserungen ließ. Diese höhere Leistung erklärt sich dadurch, dass das SPIES-System nur auf einem Korpus bewertet wurde, der keinen Satz ohne positives Beispiel enthielt. Die Filterung durch Trigger-Wort-basierte Musterauswertung wurde auch von Cohen et al. [16] und von Buyko et al.

[27] speziell für die BioNLP-Aufgabe durchgeführt. Cohen et al. [16] geben Wörter nach Häufigkeit aus und behalten nur die oberen 10-30% (je nach Ereignistyp) für die Mustergenerierung. Im Gegensatz zu unserem Filter berücksichtigte ihre Lösung nicht die Mehrdeutigkeit von Triggerwörtern über den Ereignistyp hinweg, aber sie ließen einige sprachliche Variationen zu. Buyko et al. [27] testeten drei Varianten der Behandlung von Trigger-Wort-Mehrdeutigkeit, d.h. nach Frequenz, nach TF*IDF-Score und nach Bedeutung (unter Berücksichtigung der relativen Frequenzen in den verschiedenen Ereignistypen). Die Autoren berichten, dass der Filter unter Berücksichtigung der Frequenzen in verschiedenen Ereignisklassen am besten abgeschnitten hat. Beachten Sie, dass sie diese Partituren als Eingabe für einen machine learning-Ansatz zur Beziehungsextraktion verwendet haben, während wir mit Musterabgleich arbeiten. Ein System außerhalb des Life Science-Bereichs ist DARE [28]. DARE verwendet als Anfangsmuster sogenannte Seed-Beziehungen, die manuell angegeben werden.

Diese werden auf einen großen Korpus aufgetragen, um neue Beispiele zu generieren, die iterativ wieder als neue Samen verwendet werden. Alle Muster werden nach internen und externen Eigenschaften bewertet, bevor sie als neue Samen verwendet werden. Im Gegensatz zu unseren Vorschlägen ist die Musterbewertungsmethode sehr spezifisch für DARE und lässt sich nicht ohne weiteres auf andere Ansätze übertragen. Wenn zwei oder mehr Entitäten in einem Muster kontextbezogen sind, verwenden Muster Entitätsrollen, um kontextbezogene Informationen über Entitäten zu extrahieren. Wir haben diese Hypothese anhand von zwei Experimenten ausgewertet: Erstens haben wir alle Muster in Teilmengen gleicher Länge aufgeteilt und jede Teilmenge separat auf dem Entwicklungskorpus ausgewertet. Wir fanden heraus, dass Muster, die aus vier oder fünf Tokens bestehen, den besten F-Score lieferten, beide 37,6, was 14% besser als die Baseline ist, während lange Muster deutlich schlechter abschneiden (siehe Zusätzliche Datei 3 und Zusätzliche Datei 4).

Ce contenu a été publié dans Non classé par admin. Mettez-le en favori avec son permalien.