Automatische Zusammenfassung - Automatic summarization

Bei der automatischen Zusammenfassung wird ein Datensatz rechnerisch gekürzt, um eine Teilmenge (eine Zusammenfassung ) zu erstellen , die die wichtigsten oder relevantesten Informationen innerhalb des ursprünglichen Inhalts darstellt.

Neben Text können auch Bilder und Videos zusammengefasst werden. Die Textzusammenfassung findet die informativsten Sätze in einem Dokument; verschiedene Methoden der Bildzusammenfassung sind Gegenstand laufender Forschung, wobei einige versuchen, die repräsentativsten Bilder aus einer bestimmten Sammlung anzuzeigen oder ein Video zu erstellen; Die Videozusammenfassung extrahiert die wichtigsten Frames aus dem Videoinhalt.

Ansätze

Es gibt zwei allgemeine Ansätze für die automatische Zusammenfassung: Extraktion und Abstraktion .

Extraktionsbasierte Zusammenfassung

Hier wird der Inhalt aus den Originaldaten extrahiert, aber der extrahierte Inhalt wird in keiner Weise modifiziert. Beispiele für extrahierten Inhalt umfassen Schlüsselphrasen, die verwendet werden können, um ein Textdokument zu "kennzeichnen" oder zu indizieren, oder Schlüsselsätze (einschließlich Überschriften), die zusammen eine Zusammenfassung umfassen, und repräsentative Bilder oder Videosegmente, wie oben erwähnt. Bei Text ist die Extraktion analog zum Prozess des Skimming, bei dem die Zusammenfassung (sofern vorhanden), Überschriften und Zwischenüberschriften, Abbildungen, der erste und letzte Absatz eines Abschnitts und optional der erste und letzte Satz eines Absatzes gelesen werden, bevor eine Auswahl getroffen wird um das gesamte Dokument im Detail zu lesen. Andere Beispiele für Extraktion, die Schlüsselsequenzen von Texten in Bezug auf klinische Relevanz enthalten (einschließlich Patient/Problem, Intervention und Ergebnis).

Abstraktionsbasierte Zusammenfassung

Dies wurde hauptsächlich für Text angewendet. Abstrakte Methoden erstellen eine interne semantische Repräsentation des ursprünglichen Inhalts und verwenden diese Repräsentation dann, um eine Zusammenfassung zu erstellen, die dem, was ein Mensch ausdrücken könnte, näher kommt. Die Abstraktion kann den extrahierten Inhalt transformieren, indem Abschnitte des Quelldokuments umschrieben werden, um einen Text stärker zu verdichten als die Extraktion. Eine solche Transformation ist jedoch rechnerisch viel anspruchsvoller als die Extraktion, da sie sowohl die Verarbeitung natürlicher Sprache als auch häufig ein tiefes Verständnis der Domäne des Originaltexts in Fällen umfasst, in denen sich das Originaldokument auf ein spezielles Wissensgebiet bezieht. "Paraphrasieren" ist noch schwieriger auf Bild und Video anzuwenden, weshalb die meisten Zusammenfassungssysteme extraktiv sind.

Unterstützte Zusammenfassung sum

Ansätze, die auf eine höhere Verdichtungsqualität abzielen, beruhen auf kombinierter Software und menschlichem Aufwand. In Machine Aided Human Summarization heben extraktive Techniken Kandidatenpassagen für die Aufnahme hervor (zu denen der Mensch Text hinzufügt oder entfernt). Bei der Human Aided Machine Summarization bearbeitet ein Mensch die Softwareausgabe nach, genauso wie man die Ausgabe der automatischen Übersetzung von Google Translate bearbeitet.

Anwendungen und Systeme zur Zusammenfassung

Es gibt im Großen und Ganzen zwei Arten von extraktiven Zusammenfassungsaufgaben, je nachdem, worauf sich das Zusammenfassungsprogramm konzentriert. Die erste ist die generische Zusammenfassung , die sich darauf konzentriert, eine generische Zusammenfassung oder Zusammenfassung der Sammlung zu erhalten (sei es Dokumente oder Bildgruppen oder Videos, Nachrichten usw.). Die zweite ist die abfragerelevante Zusammenfassung , manchmal auch als abfragebasierte Zusammenfassung bezeichnet , die für eine Abfrage spezifische Objekte zusammenfasst. Zusammenfassungssysteme sind in der Lage, sowohl abfragerelevante Textzusammenfassungen als auch generische maschinengenerierte Zusammenfassungen zu erstellen, je nach Bedarf des Benutzers.

Ein Beispiel für ein Zusammenfassungsproblem ist die Dokumentenzusammenfassung, bei der versucht wird, automatisch eine Zusammenfassung aus einem gegebenen Dokument zu erstellen. Manchmal ist man daran interessiert, eine Zusammenfassung aus einem einzigen Quelldokument zu erstellen, während andere mehrere Quelldokumente verwenden können (z. B. eine Gruppe von Artikeln zum gleichen Thema). Dieses Problem wird als Zusammenfassung mehrerer Dokumente bezeichnet . Eine verwandte Anwendung ist das Zusammenfassen von Nachrichtenartikeln. Stellen Sie sich ein System vor, das automatisch Nachrichtenartikel zu einem bestimmten Thema (aus dem Web) zusammenstellt und die neuesten Nachrichten prägnant als Zusammenfassung darstellt.

Die Zusammenfassung von Bildsammlungen ist ein weiteres Anwendungsbeispiel für die automatische Zusammenfassung. Es besteht darin, einen repräsentativen Satz von Bildern aus einem größeren Satz von Bildern auszuwählen. Eine Zusammenfassung in diesem Zusammenhang ist nützlich, um die repräsentativsten Bilder der Ergebnisse in einem Bildsammlungs-Explorationssystem anzuzeigen. Die Videozusammenfassung ist eine verwandte Domäne, in der das System automatisch einen Trailer eines langen Videos erstellt. Dies hat auch Anwendungen in Verbraucher- oder persönlichen Videos, bei denen man die langweiligen oder sich wiederholenden Aktionen überspringen möchte. In ähnlicher Weise möchte man in Überwachungsvideos wichtige und verdächtige Aktivitäten extrahieren, während alle langweiligen und überflüssigen Frames ignoriert werden.

Auf einer sehr hohen Ebene versuchen Zusammenfassungsalgorithmen, Teilmengen von Objekten (wie eine Menge von Sätzen oder eine Menge von Bildern) zu finden, die Informationen der gesamten Menge abdecken. Dies wird auch als Kernsatz bezeichnet . Diese Algorithmen modellieren Begriffe wie Diversität, Abdeckung, Information und Repräsentativität der Zusammenfassung. Abfragebasierte Zusammenfassungstechniken, zusätzlich Modell für die Relevanz der Zusammenfassung mit der Abfrage. Einige Techniken und Algorithmen, die Zusammenfassungsprobleme natürlich modellieren, sind TextRank und PageRank, Submodular Set Function , Determinantal Point Process , Maximum Marginal Relevance (MMR) usw.

Schlüsselwortextraktion

Die Aufgabe ist die folgende. Sie erhalten einen Text, beispielsweise einen Zeitschriftenartikel, und Sie müssen eine Liste mit Schlüsselwörtern oder Schlüsselwörtern erstellen, die die im Text behandelten Hauptthemen erfassen. Im Fall von Forschungsartikeln geben viele Autoren manuell zugewiesene Schlüsselwörter an, aber den meisten Texten fehlen bereits vorhandene Schlüsselwörter. Beispielsweise sind Nachrichtenartikeln selten Schlüsselphrasen angehängt, aber es wäre nützlich, dies für eine Reihe der unten beschriebenen Anwendungen automatisch tun zu können. Betrachten Sie den Beispieltext aus einem Nachrichtenartikel:

"Das Army Corps of Engineers beeilte sich, das Versprechen von Präsident Bush zum Schutz von New Orleans bis zum Beginn der Hurrikansaison 2006 zu erfüllen, und installierte letztes Jahr trotz Warnungen seines eigenen Experten, dass die Ausrüstung während eines Sturms ausfallen würde, defekte Hochwasserschutzpumpen auf von The Associated Press erhaltene Dokumente".

Ein Schlüsselphrasen-Extraktor könnte "Army Corps of Engineers", "President Bush", "New Orleans" und "defekte Hochwasserschutzpumpen" als Schlüsselphrasen auswählen. Diese werden direkt aus dem Text gezogen. Im Gegensatz dazu würde ein abstraktes Schlüsselphrasensystem den Inhalt irgendwie verinnerlichen und Schlüsselphrasen generieren, die nicht im Text auftauchen, aber eher dem ähneln, was ein Mensch produzieren könnte, wie etwa "politische Fahrlässigkeit" oder "unzureichender Schutz vor Überschwemmungen". Abstraktion erfordert ein tiefes Verständnis des Textes , was es für ein Computersystem schwierig macht. Schlüsselwörter haben viele Anwendungen. Sie können das Durchsuchen von Dokumenten ermöglichen, indem sie eine kurze Zusammenfassung bereitstellen, die Informationssuche verbessern (wenn Dokumenten Schlüsselwörter zugewiesen sind, könnte ein Benutzer nach Schlüsselwörtern suchen, um zuverlässigere Treffer als bei einer Volltextsuche zu erzielen ) und zum Generieren von Indexeinträgen für eine große Textkorpus.

Abhängig von der unterschiedlichen Literatur und der Definition von Schlüsselbegriffen, Wörtern oder Phrasen ist die Keyword-Extraktion ein stark verwandtes Thema.

Betreute Lernansätze

Beginnend mit der Arbeit von Turney haben sich viele Forscher der Schlüsselphrasenextraktion als überwachtes maschinelles Lernproblem nähert . Bei einem gegebenen Dokument konstruieren wir ein Beispiel für jedes im Text gefundene Unigramm , Bigramm und Trigramm (obwohl auch andere Texteinheiten möglich sind, wie unten beschrieben). Wir berechnen dann verschiedene Merkmale, die jedes Beispiel beschreiben (zB beginnt die Phrase mit einem Großbuchstaben?). Wir gehen davon aus, dass für eine Reihe von Schulungsdokumenten bekannte Schlüsselphrasen verfügbar sind. Mit den bekannten Keyphrasen können wir den Beispielen positive oder negative Labels zuordnen. Dann lernen wir einen Klassifikator, der in Abhängigkeit von den Merkmalen zwischen positiven und negativen Beispielen unterscheiden kann. Einige Klassifikatoren führen eine binäre Klassifizierung für ein Testbeispiel durch, während andere eine Wahrscheinlichkeit zuweisen, eine Schlüsselphrase zu sein. Im obigen Text könnten wir zum Beispiel eine Regel lernen, die besagt, dass Phrasen mit Anfangsbuchstaben wahrscheinlich Schlüsselphrasen sind. Nach dem Training eines Lernenden können wir Schlüsselphrasen für Testdokumente auf folgende Weise auswählen. Wir wenden dieselbe Strategie zur Beispielgenerierung auf die Testdokumente an und führen dann jedes Beispiel durch den Lernenden. Wir können die Schlüsselphrasen bestimmen, indem wir binäre Klassifizierungsentscheidungen oder Wahrscheinlichkeiten betrachten, die von unserem gelernten Modell zurückgegeben werden. Wenn Wahrscheinlichkeiten angegeben sind, wird ein Schwellenwert verwendet, um die Schlüsselphrasen auszuwählen. Keyphrase-Extraktoren werden im Allgemeinen anhand von Präzision und Rückruf bewertet. Präzision misst, wie viele der vorgeschlagenen Schlüsselwörter tatsächlich richtig sind. Recall misst, wie viele der wahren Schlüsselphrasen Ihr System vorgeschlagen hat. Die beiden Maße können in einem F-Score kombiniert werden, der das harmonische Mittel der beiden ist ( F  = 2 PR /( P  +  R ) ). Übereinstimmungen zwischen den vorgeschlagenen Schlüsselphrasen und den bekannten Schlüsselphrasen können nach dem Wortstammen oder einer anderen Textnormalisierung überprüft werden.

Beim Entwerfen eines überwachten Schlüsselwortextraktionssystems müssen Sie sich für mehrere Optionen entscheiden (einige davon gelten auch für unbeaufsichtigte Benutzer). Die erste Wahl ist genau, wie man Beispiele generiert. Turney und andere haben alle möglichen Unigramme, Bigramme und Trigramme ohne Interpunktionszeichen und nach Entfernen von Stoppwörtern verwendet. Hulth hat gezeigt, dass Sie einige Verbesserungen erzielen können, indem Sie Beispiele als Sequenzen von Tokens auswählen, die bestimmten Mustern von Wortart-Tags entsprechen. Idealerweise erzeugt der Mechanismus zum Generieren von Beispielen alle bekannten markierten Schlüsselphrasen als Kandidaten, obwohl dies oft nicht der Fall ist. Wenn wir beispielsweise nur Unigramme, Bigramme und Trigramme verwenden, werden wir nie in der Lage sein, eine bekannte Schlüsselphrase mit vier Wörtern zu extrahieren. Daher kann der Rückruf leiden. Die Generierung zu vieler Beispiele kann jedoch auch zu einer geringen Genauigkeit führen.

Wir müssen auch Funktionen erstellen, die die Beispiele beschreiben und informativ genug sind, um es einem Lernalgorithmus zu ermöglichen, Keyphrasen von Nicht-Keyphrasen zu unterscheiden. Typische Merkmale umfassen verschiedene Begriffshäufigkeiten (wie oft eine Phrase im aktuellen Text oder in einem größeren Korpus vorkommt), die Länge des Beispiels, die relative Position des ersten Vorkommens, verschiedene boolesche syntaktische Merkmale (z. B. enthält alle Großbuchstaben) usw Das Turney-Papier verwendet etwa 12 solcher Merkmale. Hulth verwendet einen reduzierten Satz von Funktionen, die sich am erfolgreichsten in der KEA-Arbeit (Keyphrase Extraction Algorithm) erwiesen haben, die aus Turneys bahnbrechender Arbeit abgeleitet wurde.

Am Ende muss das System eine Liste von Schlüsselphrasen für ein Testdokument zurückgeben, daher müssen wir die Anzahl begrenzen. Ensemble-Methoden (dh die Verwendung von Stimmen von mehreren Klassifikatoren) wurden verwendet, um numerische Bewertungen zu erzeugen, die mit einem Schwellenwert versehen werden können, um eine vom Benutzer bereitgestellte Anzahl von Schlüsselphrasen bereitzustellen. Dies ist die Technik, die Turney mit C4.5-Entscheidungsbäumen verwendet. Hulth verwendet einen einzelnen binären Klassifikator, sodass der Lernalgorithmus implizit die entsprechende Zahl bestimmt.

Sobald Beispiele und Funktionen erstellt sind, müssen wir lernen, Schlüsselphrasen vorherzusagen. Praktisch jeder überwachte Lernalgorithmus könnte verwendet werden, wie etwa Entscheidungsbäume, Naive Bayes und Regelinduktion. Im Fall des GenEx-Algorithmus von Turney wird ein genetischer Algorithmus verwendet, um Parameter für einen domänenspezifischen Schlüsselphrasen-Extraktionsalgorithmus zu lernen. Der Extraktor folgt einer Reihe von Heuristiken, um Schlüsselphrasen zu identifizieren. Der genetische Algorithmus optimiert Parameter für diese Heuristiken hinsichtlich der Leistung auf Trainingsdokumenten mit bekannten Schlüsselphrasen.

Unbeaufsichtigter Ansatz: TextRank

Ein weiterer Algorithmus zur Schlüsselwortextraktion ist TextRank. Während überwachte Methoden einige nette Eigenschaften haben, wie die Möglichkeit, interpretierbare Regeln dafür zu erstellen, welche Merkmale eine Schlüsselphrase charakterisieren, benötigen sie auch eine große Menge an Trainingsdaten . Es werden viele Dokumente mit bekannten Schlüsselwörtern benötigt. Darüber hinaus neigt das Training auf einer bestimmten Domäne dazu, den Extraktionsprozess an diese Domäne anzupassen, sodass der resultierende Klassifikator nicht unbedingt portabel ist, wie einige der Ergebnisse von Turney zeigen. Die unüberwachte Schlüsselphrasenextraktion macht Trainingsdaten überflüssig. Sie nähert sich dem Problem aus einem anderen Blickwinkel. Anstatt zu versuchen, explizite Merkmale zu lernen, die Schlüsselphrasen charakterisieren, nutzt der TextRank-Algorithmus die Struktur des Textes selbst, um Schlüsselphrasen zu bestimmen, die "zentral" für den Text erscheinen, genauso wie PageRank wichtige Webseiten auswählt. Denken Sie daran, dass dies auf dem Begriff "Prestige" oder "Empfehlung" aus sozialen Netzwerken basiert . Auf diese Weise verlässt sich TextRank überhaupt nicht auf vorherige Trainingsdaten, sondern kann auf jedem beliebigen Textstück ausgeführt werden und kann eine Ausgabe einfach basierend auf den intrinsischen Eigenschaften des Textes erzeugen. Somit ist der Algorithmus leicht auf neue Domänen und Sprachen übertragbar.

TextRank ist ein Allzweck- Graph- basierter Ranking-Algorithmus für NLP . Im Wesentlichen führt es PageRank auf einem Diagramm aus, das speziell für eine bestimmte NLP-Aufgabe entwickelt wurde. Für die Schlüsselphrasenextraktion wird ein Diagramm erstellt, das eine Reihe von Texteinheiten als Scheitelpunkte verwendet. Kanten basieren auf einem gewissen Maß an semantischer oder lexikalischer Ähnlichkeit zwischen den Eckpunkten der Texteinheit. Im Gegensatz zu PageRank sind die Kanten in der Regel ungerichtet und können gewichtet werden, um ein gewisses Maß an Ähnlichkeit widerzuspiegeln. Sobald der Graph konstruiert ist, wird er verwendet, um eine stochastische Matrix zu bilden, kombiniert mit einem Dämpfungsfaktor (wie im "Random-Surfer-Modell"), und die Rangfolge über Vertices wird durch Auffinden des Eigenvektors entsprechend dem Eigenwert 1 (dh der stationäre Verteilung des Random Walk auf dem Graphen).

Die Scheitelpunkte sollten dem entsprechen, was wir einordnen möchten. Möglicherweise könnten wir etwas Ähnliches wie bei den überwachten Methoden machen und für jedes Unigramm, Bigramm, Trigramm usw. einen Scheitelpunkt erstellen. Um den Graphen jedoch klein zu halten, entscheiden sich die Autoren, einzelne Unigramme in einem ersten Schritt zu ordnen und dann einen zweiten hinzuzufügen Schritt, der hochrangige benachbarte Unigramme zusammenführt, um Mehrwort-Phrasen zu bilden. Dies hat den netten Nebeneffekt, dass wir Keyphrasen beliebiger Länge erzeugen können. Wenn wir zum Beispiel Unigramme einstufen und feststellen, dass "fortgeschritten", "natürlich", "Sprache" und "Verarbeitung" alle hohe Ränge erhalten, dann würden wir uns den Originaltext ansehen und sehen, dass diese Wörter nacheinander erscheinen, und ein Finale erstellen Schlüsselphrase mit allen vier zusammen. Beachten Sie, dass die im Diagramm platzierten Unigramme nach Wortarten gefiltert werden können. Die Autoren fanden, dass Adjektive und Substantive am besten einzuschließen waren. Daher kommt in diesem Schritt ein gewisses sprachliches Wissen ins Spiel.

Bei dieser Anwendung von TextRank werden Kanten auf der Grundlage des gemeinsamen Vorkommens von Wörtern erstellt. Zwei Eckpunkte werden durch eine Kante verbunden, wenn die Unigramme im Originaltext innerhalb eines Fensters der Größe N erscheinen. N beträgt typischerweise etwa 2–10. So könnten „natürlich“ und „Sprache“ in einem Text über NLP verknüpft werden. "Natürlich" und "Verarbeitung" würden auch verknüpft, weil sie beide in derselben Folge von N Wörtern erscheinen würden. Diese Kanten bauen auf dem Konzept der " Textkohäsion " und der Idee auf, dass Wörter, die nahe beieinander erscheinen, wahrscheinlich in sinnvoller Weise miteinander verbunden sind und sich dem Leser gegenseitig "empfehlen".

Da diese Methode die einzelnen Scheitelpunkte einfach einordnet, benötigen wir eine Möglichkeit, Schwellenwerte zu setzen oder eine begrenzte Anzahl von Schlüsselphrasen zu erzeugen. Die gewählte Technik besteht darin, eine Zählung T als einen benutzerdefinierten Bruchteil der Gesamtzahl von Scheitelpunkten im Graphen zu setzen. Dann werden die Top-T-Scheitelpunkte/Unigramme basierend auf ihren stationären Wahrscheinlichkeiten ausgewählt. Ein Nachbearbeitungsschritt wird dann angewendet, um benachbarte Instanzen dieser T-Unigramme zusammenzuführen. Als Ergebnis werden möglicherweise mehr oder weniger als T endgültige Schlüsselphrasen erzeugt, aber die Anzahl sollte ungefähr proportional zur Länge des Originaltexts sein.

Es ist zunächst nicht klar, warum die Anwendung von PageRank auf einen K-Auftritts-Graphen nützliche Schlüsselphrasen hervorbringen würde. Eine Möglichkeit, darüber nachzudenken, ist die folgende. Ein Wort, das mehrmals in einem Text vorkommt, kann viele verschiedene gleichzeitig vorkommende Nachbarn haben. In einem Text über maschinelles Lernen kann beispielsweise das Unigramm „Lernen“ zusammen mit „Maschine“, „überwacht“, „unüberwacht“ und „semi-überwacht“ in vier verschiedenen Sätzen vorkommen. Somit wäre der "lernende" Vertex ein zentraler "Hub", der sich mit diesen anderen modifizierenden Wörtern verbindet. Das Ausführen von PageRank/TextRank in der Grafik wird dem "Lernen" wahrscheinlich einen hohen Rang einräumen. Wenn der Text den Ausdruck "überwachte Klassifikation" enthält, würde es in ähnlicher Weise eine Grenze zwischen "überwacht" und "Klassifizierung" geben. Wenn "Klassifizierung" an mehreren anderen Orten auftaucht und somit viele Nachbarn hat, würde seine Bedeutung zur Bedeutung von "beaufsichtigt" beitragen. Wenn es einen hohen Rang erreicht, wird es zusammen mit "Lernen" und wahrscheinlich "Klassifizierung" als eines der Top-T-Unigramme ausgewählt. Im letzten Nachbearbeitungsschritt würden wir dann bei den Schlüsselwörtern „überwachtes Lernen“ und „überwachte Klassifikation“ landen.

Kurz gesagt enthält der Kookkurrenzgraph dicht verbundene Regionen für Begriffe, die häufig und in unterschiedlichen Kontexten vorkommen. Ein Random Walk auf diesem Graphen hat eine stationäre Verteilung, die den Termen in den Mittelpunkten der Cluster große Wahrscheinlichkeiten zuweist. Dies ist vergleichbar mit dicht verbundenen Webseiten, die nach PageRank hoch eingestuft werden. Dieser Ansatz wurde auch bei der Dokumentenzusammenfassung verwendet, die unten betrachtet wird.

Dokumentenzusammenfassung

Wie die Extraktion von Schlüsselwörtern zielt die Dokumentenzusammenfassung darauf ab, die Essenz eines Textes zu identifizieren. Der einzige wirkliche Unterschied besteht darin, dass wir es jetzt mit größeren Texteinheiten zu tun haben – ganzen Sätzen anstelle von Wörtern und Phrasen.

Bevor wir auf die Details einiger Verdichtungsmethoden eingehen, werden wir erwähnen, wie Verdichtungssysteme typischerweise bewertet werden. Am gebräuchlichsten ist die sogenannte ROUGE -Maßnahme (Recall-Oriented Understudy for Gisting Evaluation). Hierbei handelt es sich um ein auf Rückrufen basierendes Maß, das bestimmt, wie gut eine vom System generierte Zusammenfassung den Inhalt abdeckt, der in einer oder mehreren von Menschen erstellten Modellzusammenfassungen, den sogenannten Referenzen, vorhanden ist. Es ist erinnerungsbasiert, um Systeme zu ermutigen, alle wichtigen Themen in den Text aufzunehmen. Recall kann in Bezug auf Unigramm-, Bigramm-, Trigramm- oder 4-Gramm-Matching berechnet werden. ROUGE-1 wird beispielsweise als Teilung der Anzahl der Unigramme in der Referenz, die im System erscheinen, und der Anzahl der Unigramme in der Referenzzusammenfassung berechnet.

Bei mehreren Referenzen werden die ROUGE-1-Werte gemittelt. Da ROUGE nur auf inhaltlichen Überschneidungen basiert, kann es feststellen, ob zwischen einer automatischen Zusammenfassung und einer Referenzzusammenfassung dieselben allgemeinen Konzepte diskutiert werden, aber nicht, ob das Ergebnis kohärent ist oder die Sätze sinnvoll zusammenfließen. N-Gramm-ROUGE-Maßnahmen höherer Ordnung versuchen, die Geläufigkeit bis zu einem gewissen Grad zu beurteilen. Beachten Sie, dass ROUGE dem BLEU-Maß für maschinelle Übersetzung ähnelt, BLEU jedoch präzisionsbasiert ist, da Übersetzungssysteme Genauigkeit bevorzugen.

Eine vielversprechende Linie bei der Dokumentenzusammenfassung ist die adaptive Dokumenten-/Textzusammenfassung. Die Idee der adaptiven Zusammenfassung beinhaltet die vorläufige Erkennung des Dokument-/Text-Genres und die anschließende Anwendung von für dieses Genre optimierten Zusammenfassungsalgorithmen. Es wurden erste Zusammenfassungen erstellt, die eine adaptive Zusammenfassung durchführen.

Betreute Lernansätze

Die überwachte Textzusammenfassung ist der überwachten Schlüsselphrasenextraktion sehr ähnlich. Grundsätzlich können Sie, wenn Sie eine Sammlung von Dokumenten und von Menschen erstellten Zusammenfassungen dafür haben, Merkmale von Sätzen lernen, die sie zu guten Kandidaten für die Aufnahme in die Zusammenfassung machen. Zu den Merkmalen können die Position im Dokument (dh die ersten paar Sätze sind wahrscheinlich wichtig), die Anzahl der Wörter im Satz usw. gehören. Die Hauptschwierigkeit bei der überwachten extraktiven Zusammenfassung besteht darin, dass die bekannten Zusammenfassungen manuell durch Extrahieren von Sätzen erstellt werden müssen die Sätze in einem Original-Trainingsdokument können als "zusammenfassend" oder "nicht zusammenfassend" gekennzeichnet werden. Dies ist normalerweise nicht die Art und Weise, wie Menschen Zusammenfassungen erstellen, daher reicht es normalerweise nicht aus, Zeitschriften-Abstracts oder vorhandene Zusammenfassungen zu verwenden. Die Sätze in diesen Zusammenfassungen stimmen nicht unbedingt mit den Sätzen im Originaltext überein, daher wäre es schwierig, Beispielen für das Training Labels zuzuordnen. Beachten Sie jedoch, dass diese natürlichen Zusammenfassungen weiterhin für Auswertungszwecke verwendet werden können, da ROUGE-1 nur auf Unigramme Wert legt.

Maximale entropiebasierte Zusammenfassung

Während der DUC-Bewertungsworkshops 2001 und 2002 entwickelte TNO ein Satzextraktionssystem für die Zusammenfassung mehrerer Dokumente im Nachrichtenbereich. Das System basierte auf einem Hybridsystem mit einem naiven Bayes- Klassifikator und statistischen Sprachmodellen zur Modellierung von Salienz. Obwohl das System gute Ergebnisse zeigte, wollten die Forscher die Wirksamkeit eines Maximum-Entropie- Klassifikators (ME) für die Besprechungszusammenfassungsaufgabe untersuchen, da ME bekanntermaßen robust gegenüber Merkmalsabhängigkeiten ist. Die maximale Entropie wurde auch erfolgreich für die Zusammenfassung im Bereich der Rundfunknachrichten angewendet.

TextRank und LexRank

Der unüberwachte Ansatz der Zusammenfassung ist auch im Geiste der unüberwachten Schlüsselphrasenextraktion ziemlich ähnlich und umgeht das Problem kostspieliger Trainingsdaten. Einige unüberwachte Zusammenfassungsansätze basieren darauf, einen " Schwerpunkt "-Satz zu finden, der der mittlere Wortvektor aller Sätze in dem Dokument ist. Dann können die Sätze hinsichtlich ihrer Ähnlichkeit zu diesem Schwerpunktsatz geordnet werden.

Ein prinzipiellerer Weg, die Bedeutung von Sätzen zu schätzen, ist die Verwendung von Random Walks und Eigenvektorzentralität. LexRank ist ein Algorithmus, der im Wesentlichen mit TextRank identisch ist, und beide verwenden diesen Ansatz für die Dokumentenzusammenfassung. Die beiden Methoden wurden von verschiedenen Gruppen gleichzeitig entwickelt, und LexRank konzentrierte sich einfach auf die Zusammenfassung, könnte aber genauso gut für die Extraktion von Schlüsselwörtern oder jede andere NLP-Ranking-Aufgabe verwendet werden.

Sowohl in LexRank als auch in TextRank wird ein Diagramm erstellt, indem für jeden Satz im Dokument ein Scheitelpunkt erstellt wird.

Die Kanten zwischen den Sätzen basieren auf irgendeiner Form von semantischer Ähnlichkeit oder inhaltlicher Überlappung. Während LexRank verwendet Kosinusähnlichkeit von TF-IDF - Vektoren verwendet TextRank eine sehr ähnliche Maßnahme basiert auf der Anzahl der Wörter zwei Sätze gemeinsam haben ( normiert die Sätze Längen). Das LexRank-Papier untersuchte die Verwendung ungewichteter Kanten nach der Anwendung eines Schwellenwerts auf die Kosinuswerte, experimentierte jedoch auch mit der Verwendung von Kanten mit Gewichten gleich dem Ähnlichkeitswert. TextRank verwendet kontinuierliche Ähnlichkeitsbewertungen als Gewichte.

In beiden Algorithmen werden die Sätze durch Anwenden von PageRank auf den resultierenden Graphen geordnet. Eine Zusammenfassung wird gebildet, indem die Sätze mit dem höchsten Rang kombiniert werden, wobei ein Schwellenwert oder eine Längenbegrenzung verwendet wird, um die Größe der Zusammenfassung zu begrenzen.

Es ist erwähnenswert, dass TextRank genau wie hier beschrieben auf die Zusammenfassung angewendet wurde, während LexRank als Teil eines größeren Zusammenfassungssystems ( MEAD ) verwendet wurde, das den LexRank-Score (stationäre Wahrscheinlichkeit) mit anderen Merkmalen wie Satzposition und -länge unter Verwendung einer Linearkombination kombiniert mit benutzerspezifischen oder automatisch abgestimmten Gewichten. In diesem Fall werden möglicherweise einige Schulungsunterlagen benötigt, obwohl die TextRank-Ergebnisse zeigen, dass die zusätzlichen Funktionen nicht unbedingt erforderlich sind.

Ein weiterer wichtiger Unterschied besteht darin, dass TextRank für die Zusammenfassung einzelner Dokumente verwendet wurde, während LexRank für die Zusammenfassung mehrerer Dokumente verwendet wurde. Die Aufgabenstellung bleibt in beiden Fällen dieselbe – nur die Zahl der zur Auswahl stehenden Sätze ist gewachsen. Beim Zusammenfassen mehrerer Dokumente besteht jedoch ein größeres Risiko, doppelte oder stark redundante Sätze auszuwählen, die in derselben Zusammenfassung platziert werden sollen. Stellen Sie sich vor, Sie haben eine Ansammlung von Nachrichtenartikeln zu einem bestimmten Ereignis und möchten eine Zusammenfassung erstellen. Jeder Artikel hat wahrscheinlich viele ähnliche Sätze, und Sie möchten nur unterschiedliche Ideen in die Zusammenfassung aufnehmen. Um dieses Problem zu beheben, wendet LexRank einen heuristischen Nachbearbeitungsschritt an, der eine Zusammenfassung erstellt, indem Sätze in der Rangfolge hinzugefügt werden, jedoch alle Sätze verwirft, die den bereits in der Zusammenfassung platzierten zu ähnlich sind. Die verwendete Methode heißt Cross-Sentence Information Subsumption (CSIS).

Diese Methoden basieren auf der Idee, dass Sätze dem Leser andere ähnliche Sätze "empfehlen". Wenn also ein Satz vielen anderen sehr ähnlich ist, wird es wahrscheinlich ein Satz von großer Bedeutung sein. Die Bedeutung dieses Satzes ergibt sich auch aus der Bedeutung der Sätze, die ihn "empfehlen". Um also hoch eingestuft und in einer Zusammenfassung platziert zu werden, muss ein Satz vielen Sätzen ähnlich sein, die wiederum vielen anderen Sätzen ähnlich sind. Dies ist intuitiv sinnvoll und ermöglicht die Anwendung der Algorithmen auf jeden beliebigen neuen Text. Die Methoden sind domänenunabhängig und leicht portierbar. Man könnte sich vorstellen, dass die Merkmale, die auf wichtige Sätze im Nachrichtenbereich hinweisen, erheblich vom biomedizinischen Bereich abweichen. Der unbeaufsichtigte, auf "Empfehlungen" basierende Ansatz gilt jedoch für jede Domäne.

Zusammenfassung mehrerer Dokumente

Die Zusammenfassung mehrerer Dokumente ist ein automatisches Verfahren, das darauf abzielt, Informationen aus mehreren Texten zu demselben Thema zu extrahieren. Der resultierende zusammenfassende Bericht ermöglicht es einzelnen Benutzern, z. B. professionellen Informationskonsumenten, sich schnell mit den Informationen vertraut zu machen, die in einer großen Gruppe von Dokumenten enthalten sind. Auf diese Weise ergänzen Systeme zur Zusammenfassung mehrerer Dokumente die Nachrichtenaggregatoren, die den nächsten Schritt auf dem Weg zur Bewältigung der Informationsflut vollziehen . Die Zusammenfassung mehrerer Dokumente kann auch als Antwort auf eine Frage erfolgen.

Die Zusammenfassung mehrerer Dokumente erstellt Informationsberichte, die sowohl prägnant als auch umfassend sind. Da unterschiedliche Meinungen zusammengestellt und skizziert werden, wird jedes Thema aus mehreren Perspektiven in einem einzigen Dokument beschrieben. Während das Ziel einer kurzen Zusammenfassung darin besteht, die Informationssuche zu vereinfachen und die Zeit zu verkürzen, indem auf die relevantesten Quelldokumente verwiesen wird, sollte eine umfassende Zusammenfassung mehrerer Dokumente selbst die erforderlichen Informationen enthalten, sodass der Zugriff auf Originaldateien auf Fälle beschränkt ist, in denen eine Verfeinerung erforderlich ist erforderlich. Automatische Zusammenfassungen präsentieren Informationen, die algorithmisch aus mehreren Quellen extrahiert wurden, ohne redaktionelle Berührung oder subjektive menschliche Eingriffe, wodurch sie völlig unvoreingenommen sind.

Vielfalt einbeziehen

Bei der extraktiven Zusammenfassung mehrerer Dokumente besteht das Problem potenzieller Redundanz. Idealerweise möchten wir Sätze extrahieren, die sowohl „zentral“ (dh die Hauptgedanken enthalten) als auch „divers“ (dh sie unterscheiden sich voneinander) sind. LexRank behandelt Diversität als heuristische Endstufe unter Verwendung von CSIS, und andere Systeme haben ähnliche Methoden verwendet, wie z. B. Maximal Marginal Relevance (MMR), um Redundanz in den Ergebnissen des Informationsabrufs zu eliminieren. Es gibt einen grafikbasierten Allzweck-Ranking-Algorithmus wie Page/Lex/TextRank, der sowohl "Zentralität" als auch "Diversität" in einem einheitlichen mathematischen Rahmen handhabt, der auf der Absorption von Random Walks der Markov-Kette basiert . (Ein absorbierender Random Walk ist wie ein normaler Random Walk, außer dass einige Zustände jetzt Zustände absorbieren, die als "schwarze Löcher" fungieren, die bewirken, dass der Spaziergang in diesem Zustand abrupt endet.) Der Algorithmus heißt GRASSHOPPER. Neben der expliziten Förderung von Diversität im Rankingprozess bezieht GRASSHOPPER ein vorheriges Ranking (bei Zusammenfassung auf Satzposition) ein.

Die Ergebnisse des Standes der Technik für die Zusammenfassung mehrerer Dokumente werden jedoch unter Verwendung von Mischungen von submodularen Funktionen erhalten. Diese Verfahren haben die Ergebnisse des Standes der Technik für Document Summarization Corpora, DUC 04 - 07 erreicht. Ähnliche Ergebnisse wurden auch mit der Verwendung von determinanten Punktprozessen (die ein Spezialfall von submodularen Funktionen sind) für DUC-04 erzielt.

Kürzlich wurde eine neue Methode zur mehrsprachigen Zusammenfassung mehrerer Dokumente entwickelt, die Redundanzarbeiten vermeidet, indem sie Ideogramme vereinfacht und generiert, die die Bedeutung jedes Satzes in jedem Dokument darstellen und dann die Ähnlichkeit "qualitativ" durch Vergleich der Form und Position der Ideogramme bewertet. . Dieses Tool verwendet keine Worthäufigkeit, erfordert kein Training oder Vorverarbeitung jeglicher Art und funktioniert durch die Generierung von Ideogrammen, die die Bedeutung jedes Satzes darstellen, und fasst dann mit zwei vom Benutzer angegebenen Parametern zusammen: Äquivalenz (wann sind zwei Sätze als gleichwertig anzusehen) und Relevanz (wie lang ist die gewünschte Zusammenfassung).


Submodulare Funktionen als generische Werkzeuge für die Zusammenfassung

Die Idee einer submodularen Mengenfunktion ist in letzter Zeit als leistungsfähiges Modellierungswerkzeug für verschiedene Zusammenfassungsprobleme aufgetaucht. Submodulare Funktionen modellieren auf natürliche Weise Vorstellungen von Abdeckung , Information , Repräsentation und Diversität . Darüber hinaus treten einige wichtige kombinatorische Optimierungsprobleme als spezielle Fälle der submodularen Optimierung auf. Das Set-Cover-Problem ist beispielsweise ein Spezialfall der submodularen Optimierung, da die Set-Cover-Funktion submodular ist. Die Set-Cover-Funktion versucht, eine Teilmenge von Objekten zu finden, die eine gegebene Menge von Konzepten abdecken . Bei der Dokumentenzusammenfassung möchte man beispielsweise, dass die Zusammenfassung alle wichtigen und relevanten Konzepte im Dokument abdeckt. Dies ist ein Fall von Set-Cover. Ähnlich ist das Facility-Location-Problem ein Spezialfall von submodularen Funktionen. Die Funktion Facility Location modelliert natürlich auch Abdeckung und Diversität. Ein weiteres Beispiel für ein submodulares Optimierungsproblem ist die Verwendung eines Determinantenpunktprozesses zum Modellieren der Diversität. In ähnlicher Weise kann auch das Maximum-Marginal-Relevance-Verfahren als eine Instanz der submodularen Optimierung angesehen werden. Alle diese wichtigen Modelle, die Abdeckung, Vielfalt und Information fördern, sind alle submodular. Darüber hinaus können submodulare Funktionen effizient miteinander kombiniert werden, und die resultierende Funktion ist immer noch submodular. Daher könnte man eine submodulare Funktion, die Diversität modelliert, mit einer anderen kombinieren, die die Abdeckung modelliert, und menschliche Überwachung verwenden, um ein richtiges Modell einer submodularen Funktion für das Problem zu lernen.

Submodulare Funktionen sind zwar Anpassungsprobleme für die Zusammenfassung, erlauben aber auch sehr effiziente Algorithmen zur Optimierung. Zum Beispiel lässt ein einfacher gieriger Algorithmus eine konstante Faktorgarantie zu. Darüber hinaus ist der Greedy-Algorithmus extrem einfach zu implementieren und kann auf große Datensätze skaliert werden, was für Zusammenfassungsprobleme sehr wichtig ist.

Submodulare Funktionen haben für fast alle Verdichtungsprobleme den Stand der Technik erreicht. Beispielsweise zeigt die Arbeit von Lin und Bilmes, 2012, dass submodulare Funktionen auf den Systemen DUC-04, DUC-05, DUC-06 und DUC-07 zur Dokumentenzusammenfassung die bisher besten Ergebnisse erzielen. In ähnlicher Weise zeigt die Arbeit von Lin und Bilmes, 2011, dass viele existierende Systeme zur automatischen Zusammenfassung Instanzen von submodularen Funktionen sind. Dies war ein bahnbrechendes Ergebnis, das submodulare Funktionen als die richtigen Modelle für Zusammenfassungsprobleme etablierte.

Submodulare Funktionen wurden auch für andere Zusammenfassungsaufgaben verwendet. Tschiatschek et al., 2014 zeigen, dass Mischungen submodularer Funktionen State-of-the-Art-Ergebnisse für die Zusammenfassung von Bildsammlungen erzielen. In ähnlicher Weise zeigen Bairi et al., 2015 die Nützlichkeit submodularer Funktionen zum Zusammenfassen von Themenhierarchien mit mehreren Dokumenten. Submodulare Funktionen wurden auch erfolgreich zum Zusammenfassen von Machine Learning-Datensätzen verwendet.

Anwendungen

Zu den spezifischen Anwendungen der automatischen Zusammenfassung gehören:

  • Der 2011 erstellte Reddit- Bot "autotldr" fasst Nachrichtenartikel im Kommentarbereich von Reddit-Posts zusammen. Es wurde von der Reddit-Community als sehr nützlich befunden, die ihre Zusammenfassungen Hunderttausende Male hochgestimmt hat. Der Name bezieht sich auf TL;DRInternet-Slang für "zu lang; nicht gelesen".

Bewertungstechniken

Die gängigste Methode zur Bewertung der Aussagekraft automatischer Zusammenfassungen besteht darin, sie mit von Menschen erstellten Modellzusammenfassungen zu vergleichen.

Evaluationstechniken lassen sich in intrinsische und extrinsische, intertextuelle und intratextuelle einteilen.

Intrinsische und extrinsische Bewertung

Eine intrinsische Bewertung testet das Zusammenfassungssystem an sich, während eine extrinsische Bewertung die Zusammenfassung basierend darauf testet, wie sie die Ausführung einer anderen Aufgabe beeinflusst. Intrinsische Evaluierungen haben hauptsächlich die Kohärenz und Aussagekraft von Zusammenfassungen bewertet. Extrinsische Evaluationen hingegen haben den Einfluss der Zusammenfassung auf Aufgaben wie Relevanzbewertung, Leseverständnis usw. getestet.

Intertextuell und intratextuell

Intratextuelle Methoden bewerten die Ausgabe eines bestimmten Zusammenfassungssystems, und die intertextuellen Methoden konzentrieren sich auf die kontrastive Analyse der Ausgaben mehrerer Zusammenfassungssysteme.

Das menschliche Urteilsvermögen weicht oft stark von dem ab, was als "gut" angesehen wird, was bedeutet, dass es besonders schwierig ist, den Bewertungsprozess zu automatisieren. Eine manuelle Auswertung kann verwendet werden, aber dies ist sowohl zeit- als auch arbeitsintensiv, da Menschen nicht nur die Zusammenfassungen, sondern auch die Quelldokumente lesen müssen. Andere Fragen betreffen Kohärenz und Abdeckung.

Eine der Metriken, die in den jährlichen Document Understanding Conferences des NIST verwendet werden , bei denen Forschungsgruppen ihre Systeme sowohl für Zusammenfassungs- als auch für Übersetzungsaufgaben einreichen, ist die ROUGE-Metrik (Recall-Oriented Understudy for Gisting Evaluation [2] ). Es berechnet im Wesentlichen N-Gramm- Überlappungen zwischen automatisch generierten Zusammenfassungen und zuvor geschriebenen menschlichen Zusammenfassungen. Ein hohes Maß an Überschneidung sollte auf ein hohes Maß an gemeinsamen Konzepten zwischen den beiden Zusammenfassungen hinweisen. Beachten Sie, dass solche Überschneidungsmesswerte kein Feedback zur Kohärenz einer Zusammenfassung geben können. Die Anaphor-Auflösung bleibt ein weiteres Problem, das noch vollständig gelöst werden muss. In ähnlicher Weise haben Tschiatschek et al. für die Bildzusammenfassung einen Visual-ROUGE-Score entwickelt, der die Leistung von Algorithmen zur Bildzusammenfassung beurteilt.

Domänenspezifische versus domänenunabhängige Zusammenfassungstechniken

Domänenunabhängige Zusammenfassungstechniken wenden im Allgemeinen Sätze von allgemeinen Merkmalen an, die verwendet werden können, um informationsreiche Textsegmente zu identifizieren. Neuere Forschungsschwerpunkte haben sich auf domänenspezifische Zusammenfassungstechniken verlagert, die das verfügbare Wissen spezifisch für die Textdomäne nutzen. Beispielsweise versucht die Forschung zur automatischen Zusammenfassung medizinischer Texte im Allgemeinen, die verschiedenen Quellen kodifizierten medizinischen Wissens und Ontologien zu nutzen.

Zusammenfassungen qualitativ auswerten

Der Hauptnachteil der bisher existierenden Bewertungssysteme besteht darin, dass wir mindestens eine Referenzzusammenfassung benötigen und bei einigen Methoden mehr als eine, um automatische Zusammenfassungen mit Modellen vergleichen zu können. Dies ist eine harte und teure Aufgabe. Es muss viel Aufwand betrieben werden, um einen Korpus von Texten und die entsprechenden Zusammenfassungen zu haben. Darüber hinaus müssen für einige Methoden nicht nur von Menschen erstellte Zusammenfassungen zum Vergleich zur Verfügung stehen, sondern bei einigen von ihnen muss auch eine manuelle Annotation durchgeführt werden (zB SCU in der Pyramidenmethode). In jedem Fall benötigen die Bewertungsmethoden als Input eine Reihe von Zusammenfassungen, die als Goldstandards dienen, und eine Reihe automatischer Zusammenfassungen. Darüber hinaus führen sie alle eine quantitative Bewertung hinsichtlich unterschiedlicher Ähnlichkeitsmetriken durch.

Geschichte

Die erste Veröffentlichung in diesem Bereich stammt aus dem Jahr 1958 (Lun), beginnend mit einer statistischen Technik. Die Forschung nahm 2015 deutlich zu. Begriffshäufigkeit – inverse Dokumentenhäufigkeit wurde 2016 verwendet. Die musterbasierte Zusammenfassung war die mächtigste Option für die Zusammenfassung mehrerer Dokumente, die bis 2016 gefunden wurde. Im folgenden Jahr wurde sie von der latenten semantischen Analyse (LSA) übertroffen. kombiniert mit nicht-negativer Matrixfaktorisierung (NMF). Obwohl sie andere Ansätze nicht ersetzten und oft mit diesen kombiniert werden, dominierten ab 2019 Methoden des maschinellen Lernens die extraktive Zusammenfassung einzelner Dokumente, die als kurz vor der Reife gehalten wurde. Bis 2020 war das Feld noch sehr aktiv und die Forschung verlagert sich in Richtung abstrakter Summation und Echtzeit-Zusammenfassung.

Siehe auch

Verweise

Weiterlesen