Unter der Motorhaube bei Grammary: Erkennen des unorganisierten Schreibens mit KI
Veröffentlicht: 2018-07-10Immer wenn Sie etwas länger als ein Satz schreiben, müssen Sie Entscheidungen darüber treffen, wie Sie Ihre Gedanken organisieren und präsentieren können. Gutes Schreiben ist leicht zu verstehen, da sich jeder Satz auf denjenigen baut, die davor gekommen sind. Wenn sich das Thema ändert, verwenden starke Autoren Übergangssätze und Absatzbrüche als Wegweiser, um den Lesern zu sagen, was sie als nächstes erwarten können.
Linguisten nennen diesen Aspekt des Schreibens von Diskurskohärenz und ist Gegenstand einiger cooler neuer Forschungen des Grammatik -Forschungsteams, das diese Woche auf der Sigdial Conference in Melbourne, Australien, erscheinen wird.
Was ist Diskurskohärenz und warum kümmert sich darum?
Wenn wir sagen, dass ein Text ein hohes Maß an Diskurskohärenz hat, meinen wir, dass alle Sätze logisch miteinander verbunden sind. Der Schriftsteller weicht nicht vom Thema ab. Verschiedene Punkte sind durch Übergänge verbunden. Der Text ist von Anfang bis Ende leicht zu verfolgen.

Diese Art von Organisation kommt nicht immer natürlich. Nur wenige von uns denken in perfekt linearen Ideen. Ein System, das Ihnen automatisch sagen könnte, wann Sie etwas geschrieben haben, das andere Menschen befolgen werden - und schließlich vorschlagen, wie Sie dies beheben können, wäre enorm hilfreich, um zu kommunizieren, was Sie meinen.
Was wurde getan
Es ist eine Herausforderung, einen Computer zu unterrichten, um die Kohärenzstufe genau zu beurteilen. Bisher basiert die häufigste Methode zur Bewertung, wie gut ein Computer -Diskurs -Kohärenz auf einer Satzaufgabe basiert. Mit dieser Methode nehmen Forscher einen vorhandenen, gut ermittelten Textstück wie einen Nachrichtenartikel und ordnen alle Sätze nach dem Zufallsprinzip nach. Die Annahme ist, dass die zufällige Permutation als inkohärent angesehen werden kann und die ursprüngliche Ordnung als kohärent angesehen werden kann. Die Aufgabe besteht darin, einen Computeralgorithmus zu erstellen, der zwischen der inkohärenten Version und dem Original unterscheiden kann. Unter diesen Bedingungen haben einige Systeme eine Genauigkeit von 90 Prozent erreicht. Ziemlich beeindruckend.
Bei dieser Methode gibt es jedoch einen großen potenziellen Fehler. Vielleicht hast du es schon entdeckt. Nach dem Zufallsprinzipieren von Sätzen können ein Text mit niedriger Kohärenz erzeugt werden, aber es erzeugt keinen Text, der so aussieht, als würde ein Mensch natürlich schreiben.
Bei Grammatarly konzentrieren wir uns auf die Lösung realer Probleme. Wir wussten also, dass jede Arbeit, die wir in diesem Bereich geleistet haben, gegen echtes Schreiben und nicht gegen künstliche Szenarien bewertet werden müssten. Überraschenderweise gab es nur sehr wenig Arbeit, die die Bewertungsmethoden für Diskursbewertungen zu realen Text testen, die von Personen unter normalen Umständen verfasst wurden. Es ist Zeit, das zu ändern.
Reale Forschung, reale Schriftsteller
Das erste Problem, das wir lösen mussten, war das gleiche, das jeder andere Forscher, der an der Kohärenz der Diskurs arbeitete, konfrontiert war: ein Mangel an realen Daten. Es gab keinen vorhandenen Korpus des gewöhnlichen, natürlich geschriebenen Textes, auf dem wir unsere Algorithmen testen konnten.
Wir haben einen Korpus erstellt, indem wir Text aus mehreren öffentlichen Quellen gesammelt haben: Yahoo Antworten, Yelp -Bewertungen und öffentlich verfügbare staatliche und Unternehmens -E -Mails. Wir haben diese spezifischen Quellen ausgewählt, weil sie die Arten von Dingen darstellen, die Menschen an einem typischen Tag schreiben - für Beiträge, Bewertungen und E -Mails.
Um all diesen Text in einen Korpus zu verwandeln, aus dem Computeralgorithmen lernen können, mussten wir auch die Kohärenzniveaus jedes Textes bewerten. Dieser Prozess wird als Annotation bezeichnet. Egal wie gut Ihr Algorithmus ist, schlampige Annotation wird Ihre Ergebnisse drastisch verzerren. In unserem Artikel geben wir Details zu den vielen Annotationsansätzen an, die wir getestet haben, einschließlich einiger, die Crowdsourcing betrafen. Wir haben letztendlich beschlossen, Expertenannotatoren das Kohärenzniveau jedes Textstücks auf einer Drei-Punkte-Skala (niedrig, mittel- oder hoher Kohärenz) zu bewerten. Jeder Text wurde von drei Annotatoren beurteilt.
Setzen Sie Algorithmen auf den Test
Sobald wir den Korpus hatten, war es an der Zeit zu testen, wie genau verschiedene Computersysteme die Kohärenzstufe eines bestimmten Textstücks identifizieren konnten. Wir haben drei Arten von Systemen getestet:
In der ersten Kategorie befinden sich Entitätsmodelle. Diese Systeme verfolgen, wo und wie oft die gleichen Einheiten in einem Text erwähnt werden. Wenn das System beispielsweise das Wort „Transport“ in mehreren Sätzen findet, nimmt es ein Zeichen dafür, dass diese Sätze logischerweise miteinander verbunden sind.
In der zweiten Kategorie haben wir ein Modell getestet, das auf einem lexikalischen Kohärenzdiagramm basiert. Dies ist eine Möglichkeit, Sätze als Knoten in einem Diagramm darzustellen und Sätze zu verbinden, die Paare ähnlicher Wörter enthalten. Beispielsweise würde dieser Modelltyp einen Satz mit „Auto“ und einen Satz mit „LKW“ verbinden, da sich beider Sätze wahrscheinlich um Fahrzeuge oder Transportmittel befassen.

In der dritten Kategorie befinden sich das neuronale Netz oder Deep Learning Models. Wir haben einige davon getestet, darunter zwei brandneue Modelle, die vom Grammatik-Team aufgebaut wurden. Dies sind AI-basierte Systeme, die eine Darstellung jedes Satzes lernen, der seine Bedeutung erfasst, und sie können die allgemeine Bedeutung eines Dokuments durch Kombination dieser Satzdarstellungen lernen. Sie können nach Mustern suchen, die nicht auf Entitätsvorkommen oder ähnliche Wortpaare beschränkt sind.
Die Satzaufgabeaufgabe
Wir haben die Texte mit hoher Kohärenz von unserem neuen Korpus verwendet, um eine Satzaufgabe für alle drei Modelle Arten von Modellen zu erstellen. Wir fanden heraus, dass Modelle, die bei anderen Satz Datensätzen gut abschnitten, auch in unserem Datensatz eine gute Leistung erzielten, wobei die Leistungen bis zu 89 Prozent Genauigkeit waren. Die entitätsbasierten Modelle und lexikalischen Kohärenzdiagramme zeigten eine anständige Genauigkeit (im Allgemeinen 60 bis 70 Prozent Genauigkeit), aber es waren die Neuralmodelle, die die anderen Modelle um mindestens zehn Prozentpunkte für drei der vier Domänen übertroffen haben.
Der echte Schreibtest
Was wir wirklich wissen wollten, war, ob eines dieser Modelle auf der gleichen Genauigkeit in realem, natürlich geschriebenem Text abschneiden konnte. Wir haben die Beschriftungen der Annotatoren in numerische Werte (niedrig = 1, Medium = 2, hoch = 3) umgewandelt und die Zahlen zusammengefasst, um eine Kohärenzbewertung für jedes Textstück zu erhalten.
In jeder Domäne übertraf mindestens eines der neuronalen netzwerkbasierten Systeme alle anderen. Tatsächlich war eines der Modelle von Grammarly, das Absatz berücksichtigt, der Top -Performer in Text von Yahoo Antworten, wie in der folgenden Tabelle gezeigt. Das von Forschern in Stanford entwickelte neuronale Clique -Modell war ebenfalls ein starker Performer.

Aber unsere ursprüngliche Hypothese war korrekt: Alle Modelle wurden bei der realen Aufgabe schlechter als bei der Satzaufgabe-einige waren viel schlechter. Beispielsweise war die methodische Methode der lexikalischen Grafik für Unternehmens -E -Mails im neuesten Szenario für künstliche Satz nach 78 Prozent genau, aber es gelang es jedoch nur, in dieser realistischeren Bewertung 45 Prozent zu erreichen.
Was wir gefunden haben
Es stellt sich heraus, dass frühere Arbeiten zur Kohärenz der Diskurs das Falsche getestet haben. Die Satzaufgabe ist definitiv kein guter Proxy für die Messung der Diskurskohärenz. Unsere Ergebnisse sind klar: Systeme, die im künstlichen Szenario gut abschneiden, ärgern sich im realen Text viel schlechter.
Es ist wichtig zu beachten, dass dieser Befund kein Rückschlag ist. Weit davon entfernt. Ein Teil des Wachstums eines Feldes besteht darin, zu bewerten, wie Sie bewertet werden - und hin und wieder, um sich anzutreten, was Sie wirklich gemessen haben. Aufgrund dieser Arbeit haben Forscher, die an der Kohärenz der Diskurs arbeiten, jetzt zwei wichtige Informationen. Einer ist der Einblick, dass die Satzaufgabe nicht mehr die Art und Weise sein sollte, wie wir die Genauigkeit messen. Der zweite ist ein öffentlich verfügbarer, kommentierter Korpus realer Text und neue Benchmarks (unsere neuronalen Modelle), die in zukünftigen Forschungen verwendet werden können.
Ich freue mich auf
Es gibt mehr Arbeit und viele aufregende Anwendungen für ein System, das die Kohärenz der Diskurs in einem Text zuverlässig beurteilen kann. Eines Tages kann Ihnen ein System wie dieses nicht nur sagen, wie kohärent Ihre Gesamtnachricht ist, sondern auch auf die spezifischen Passagen hinweisen, denen möglicherweise schwer zu folgen ist. Eines Tages hoffen wir, Ihnen zu helfen, diese Passagen zu verstehen, damit das, was Sie sagen, Ihrem Empfänger klar ist.
Schließlich geht es Grammarlys Weg, ein umfassender Kommunikationsassistent zu werden, nur darum, sicherzustellen, dass Ihr Schreiben grammatikalisch und stilistisch korrekt ist. Es geht darum, sicherzustellen, dass Sie genau wie beabsichtigt verstanden werden.
---
Joel Tetreault ist Forschungsdirektor bei Grammary. Alice Lai ist Doktorand an der Universität von Illinois in Urbana-Champaign und war Forschungspraktikant bei Grammatary. Diese Forschung wird auf der Sigdial 2018-Jahreskonferenz in Melbourne, Australien, vom 12. bis 14. Juli 2018 vorgestellt. Das begleitende Forschungsarbeit mit dem Titel „Diskurskohärenz in freier Wildbahn: Ein Datensatz, eine Bewertung und Methoden“ wird in den Verfahren des 19. jährlichen Treffens der Spezialinteressensgruppe auf Discourse und Dialogverfahren veröffentlicht. Der in diesem Blog -Beitrag beschriebene Datensatz heißt Grammarly Corpus of Discourse Cohärenz und kann hier für Forschungszwecke heruntergeladen werden.
