Sub capota de la gramatică: detectarea scrisului dezorganizat cu AI

Publicat: 2018-07-10

Ori de câte ori scrieți ceva mai lung decât o propoziție, trebuie să luați decizii despre cum să vă organizați și să vă prezentați gândurile. O scriere bună este ușor de înțeles, deoarece fiecare propoziție se bazează pe cele care au venit înainte. Când subiectul se schimbă, scriitorii puternici folosesc propoziții de tranziție și paragrafele se rupe ca indicatoare pentru a spune cititorilor la ce să se aștepte în continuare.

Linguiștii numesc acest aspect al coerenței discursului scrierii și este subiectul unor noi cercetări noi din partea echipei de cercetare gramaticală care va apărea la conferința sigdială din Melbourne, Australia, săptămâna aceasta.

Ce este coerența discursului și de ce să -i pese de asta?

Când spunem că un text are un nivel ridicat de coerență a discursului, înseamnă că toate propozițiile sunt legate împreună logic. Scriitorul nu se desprinde de subiect. Diferite puncte sunt conectate prin tranziții. Textul este ușor de urmat de la început până la sfârșit.

Acest tip de organizare nu vine întotdeauna în mod natural. Puțini dintre noi ne gândim în progrese perfect liniare ale ideilor. Un sistem care ți -ar putea spune automat când ai scris ceva ce se vor lupta alți oameni - și, în cele din urmă, să sugereze cum să remediezi acest lucru - ar fi enorm de util pentru a comunica ceea ce vrei să spui.

Ce s -a făcut

Predarea unui computer pentru a judeca cu exactitate nivelul de coerență al textului este dificilă. Până în prezent, cea mai frecventă metodă de evaluare a cât de bine se bazează coerența discursului cu ratele computerului pe o sarcină de comandă a propoziției. Cu această metodă, cercetătorii iau un text existent, bine editat, cum ar fi un articol de știri și reordonează la întâmplare toate propozițiile. Presupunerea este că permutarea aleatorie poate fi privită ca incoerentă, iar ordonarea inițială poate fi privită ca coerentă. Sarcina este de a construi un algoritm de computer care poate distinge între versiunea incoerentă și originalul. În aceste condiții, unele sisteme au ajuns la o precizie de 90 la sută. Destul de impresionant.

Dar există un defect potențial mare cu această metodă. Poate că l -ai observat deja. Recomandarea la întâmplare a propozițiilor ar putea produce un text cu coerență scăzută, dar nu produce text care să arate ca orice ar scrie în mod natural.

La Grammarly, suntem concentrați pe rezolvarea problemelor din lumea reală, așa că știam că orice lucrare pe care am făcut-o în acest domeniu ar trebui să fie evaluată împotriva scrierii reale, nu a scenariilor artificiale. În mod surprinzător, au existat foarte puține lucrări care testează metodele de evaluare a discursului pe textul real scris de oameni în circumstanțe obișnuite. Este timpul să schimbi asta.

Cercetări din lumea reală, scriitori din lumea reală

Prima problemă pe care a trebuit să o rezolvăm a fost aceeași cu care s-a confruntat orice alt cercetător care lucrează la coerența discursului: lipsa datelor din lumea reală. Nu am existat un corpus existent de text obișnuit, scris în mod natural, pe care ne-am putea testa algoritmii noștri.

Am creat un corpus colectând text din mai multe surse publice: Yahoo Answers, Yelp Review și e -mailuri guvernamentale și corporative disponibile public. Am ales aceste surse specifice, deoarece reprezintă tipurile de lucruri pe care oamenii le scriu într -o zi obișnuită - postări în forță, recenzii și e -mailuri.

Pentru a transforma tot acest text într -un corpus pe care îl pot învăța algoritmii computerului, a trebuit, de asemenea, să evaluăm nivelurile de coerență ale fiecărui text. Acest proces se numește adnotare. Oricât de bun este algoritmul tău, adnotarea sloppy vă va smulge drastic rezultatele. În lucrarea noastră, oferim detalii despre numeroasele abordări de adnotare pe care le -am testat, inclusiv unele care au implicat crowdsourcing. În cele din urmă, am decis ca adnotatorii experți să evalueze nivelul de coerență al fiecărui text pe o scară de trei puncte (coerență scăzută, medie sau ridicată). Fiecare text a fost judecat de trei adnotatori.

Punerea algoritmilor la test

Odată ce am avut corpul, a venit momentul să testăm cât de exact diferite sisteme informatice ar putea identifica nivelul de coerență al unui text dat. Am testat trei tipuri de sisteme:

În prima categorie sunt modele bazate pe entități. Aceste sisteme urmăresc unde și cât de des sunt menționate aceleași entități într -un text. De exemplu, dacă sistemul găsește cuvântul „transport” în mai multe propoziții, este considerat ca un semn că acele propoziții sunt legate logic între ele.

În a doua categorie, am testat un model bazat pe un grafic de coerență lexicală. Acesta este un mod de a reprezenta propoziții ca noduri dintr -un grafic și de a conecta propoziții care conțin perechi de cuvinte similare. De exemplu, acest tip de model ar conecta o propoziție care conține „mașină” și o propoziție care conține „camion”, deoarece ambele propoziții sunt probabil despre vehicule sau transport.

În a treia categorie sunt modele de rețea neuronală sau de învățare profundă. Am testat mai multe dintre acestea, inclusiv două modele noi, construite de echipa gramaticală. Acestea sunt sisteme bazate pe AI care învață o reprezentare a fiecărei propoziții care să-și surprindă sensul și pot învăța sensul general al unui document combinând aceste reprezentări ale propoziției. Ei pot căuta modele care nu sunt limitate la aparițiile entității sau la perechi de cuvinte similare.

Sarcina de ordonare a propoziției

Am folosit textele de înaltă coerență din noul nostru corpus pentru a crea o sarcină de comandă a propoziției pentru toate cele trei tipuri de modele. Am constatat că modelele care s -au comportat bine pe alte seturi de date de ordonare a propoziției, de asemenea, s -au comportat bine pe setul nostru de date, cu performanțe de până la 89 la sută o precizie. Modelele bazate pe entități și graficele de coerență lexicală au arătat o precizie decentă (în general, o precizie de 60 până la 70 la sută), dar au fost modelele neuronale care au depășit celelalte modele cu cel puțin zece puncte procentuale pe trei din cele patru domenii.

Adevăratul test de scriere

Ceea ce am vrut cu adevărat să știm a fost dacă vreunul dintre aceste modele ar putea performa la același nivel de precizie pe un text real, scris în mod natural. Am transformat etichetele adnotatorilor în valori numerice (scăzut = 1, mediu = 2, ridicat = 3) și am înregistrat o medie a numerelor împreună pentru a obține un scor de coerență pentru fiecare text.

În fiecare domeniu, cel puțin unul dintre sistemele bazate pe rețele neuronale a depășit toate celelalte. De fapt, unul dintre modelele Grammarly care ia în considerare pauzele de paragrafe a fost cel mai performant pe textul de la Yahoo Answers, așa cum se arată în tabelul de mai jos. Modelul de clique neural, care a fost dezvoltat de cercetătorii de la Stanford, a fost, de asemenea, un interpret puternic.

Dar ipoteza noastră inițială a fost corectă: toate modelele s-au mai efectuat mai rău în sarcina din lumea reală decât au făcut-o în sarcina de ordine a propoziției-unele au fost mult mai rele. De exemplu, metoda graficului lexical a fost de 78 la sută exactă pentru e -mailurile corporative în scenariul de reordonare a propozițiilor artificiale, dar a reușit doar să obțină 45 % în această evaluare mai realistă.

Ce am găsit

Se dovedește că lucrările anterioare privind coerența discursului a testat un lucru greșit. Sarcina ordinii de propoziție nu este cu siguranță un bun proxy pentru măsurarea coerenței discursului. Rezultatele noastre sunt clare: sistemele care funcționează bine în scenariul artificial fac mult mai rău în textul din lumea reală.

Este important de menționat că această constatare nu este o întârziere. De fapt, de fapt. O parte din creșterea oricărui domeniu este evaluarea modului în care evaluați - stopând din când în când pentru a arunca o privire asupra a ceea ce ați măsurat cu adevărat. Din cauza acestei lucrări, cercetătorii care lucrează la coerența discursului au acum două informații importante. Unul este ideea că sarcina de ordonare a propoziției nu ar trebui să mai fie modul în care măsurăm precizia. Al doilea este un corpus disponibil public, adnotat de text din lumea reală și noi repere (modelele noastre neuronale) pe care să le folosească în cercetările viitoare.

Abia aştept

Există mai multe lucrări de făcut și o mulțime de cereri interesante pentru un sistem care poate judeca în mod fiabil coerența discursului într -o bucată de text. Într -o zi, un sistem de genul acesta nu poate doar să vă spună cât de coerent este mesajul dvs. general, dar, de asemenea, subliniază pasajele specifice care ar putea fi greu de urmat. Într -o zi sperăm să vă ajutăm să faceți aceste pasaje mai ușor de înțeles, astfel încât ceea ce încercați să spuneți să fie clar pentru destinatarul dvs.

La urma urmei, calea lui Grammarly de a deveni un asistent de comunicare cuprinzător nu se referă doar la asigurarea faptului că scrierea dvs. este exactă din punct de vedere gramatical și stilistic - este vorba să vă asigurați că sunteți înțeles așa cum este intenționat.

—-

Joel Tetrereault este director de cercetare la Gramaticly. Alice Lai este doctorand la Universitatea din Illinois din Urbana-Champaign și a fost intern de cercetare la Grammarly. Această cercetare va fi prezentată la Conferința anuală Sigdial 2018 de la Melbourne, Australia, în perioada 12-14 iulie 2018. Lucrarea de cercetare însoțitoare, intitulată „Coerența discursului în sălbăticie: un set de date, evaluare și metode” va fi publicată în procedurile celei de-a 19-a reuniuni anuale a grupului de interes special privind discursul și dialogul. Setul de date descris în această postare pe blog se numește Grammarly Corpus of Discurs Coerență și este gratuit de descărcat în scopuri de cercetare aici.