Under the Hood at Grammarly: Detecting Writing Disorganized with AI

Pubblicato: 2018-07-10

Ogni volta che scrivi qualcosa di più lungo di una frase, devi prendere decisioni su come organizzare e presentare i tuoi pensieri. Una buona scrittura è facile da capire perché ogni frase si basa su quelle che l'hanno preceduta. Quando l'argomento cambia, gli scrittori forti usano frasi di transizione e interruzioni di paragrafo come indicazioni per dire ai lettori cosa aspettarsi dopo.

I linguisti chiamano questo aspetto della coerenza del discorso di scrittura, ed è oggetto di alcune nuove interessanti ricerche del team di Grammarly Research che appariranno alla conferenza SIGDIAL a Melbourne, in Australia, questa settimana.

Che cos'è la coerenza del discorso e perché preoccuparsene?

Quando diciamo che un testo ha un alto livello di coerenza del discorso, intendiamo che tutte le frasi sono collegate tra loro logicamente. Lo scrittore non va fuori tema. Punti diversi sono collegati da transizioni. Il testo è facile da seguire dall'inizio alla fine.

Questo tipo di organizzazione non viene sempre naturale. Pochi di noi pensano in progressioni di idee perfettamente lineari. Un sistema che potrebbe dirti automaticamente quando hai scritto qualcosa che altre persone faranno fatica a seguire e, alla fine, suggerire come risolvere questo problema, sarebbe estremamente utile per comunicare cosa intendi.

Cosa è stato fatto

Insegnare a un computer a giudicare accuratamente il livello di coerenza del testo è impegnativo. Ad oggi, il metodo più comune per valutare quanto bene un computer valuta la coerenza del discorso si basa su un compito di ordinamento delle frasi. Con questo metodo, i ricercatori prendono un pezzo di testo esistente e ben modificato, come un articolo di notizie, e riordinano casualmente tutte le frasi. Il presupposto è che la permutazione casuale può essere vista come incoerente e l'ordinamento originale può essere visto come coerente. Il compito è costruire un algoritmo informatico in grado di distinguere tra la versione incoerente e l'originale. In queste condizioni, alcuni sistemi hanno raggiunto una precisione del 90%. Molto impressionante.

Ma c'è un grosso potenziale difetto con questo metodo. Forse l'hai già notato. Il riordino casuale delle frasi potrebbe produrre un testo a bassa coerenza, ma non produce un testo che assomigli a qualcosa che un essere umano scriverebbe naturalmente.

In Grammarly, ci concentriamo sulla risoluzione dei problemi del mondo reale, quindi sapevamo che qualsiasi lavoro svolto in quest'area avrebbe dovuto essere confrontato con la scrittura reale, non con scenari artificiali. Sorprendentemente, c'è stato pochissimo lavoro che testa i metodi di valutazione del discorso su testo reale scritto da persone in circostanze normali. È tempo di cambiarlo.

Ricerca nel mondo reale, scrittori nel mondo reale

Il primo problema che abbiamo dovuto risolvere è stato lo stesso che ha dovuto affrontare ogni altro ricercatore che lavora sulla coerenza del discorso: la mancanza di dati del mondo reale. Non esisteva un corpus di testo ordinario scritto in modo naturale su cui poter testare i nostri algoritmi.

Abbiamo creato un corpus raccogliendo testo da diverse fonti pubbliche: Yahoo Answers, Yelp Reviews ed e-mail pubbliche e aziendali. Abbiamo scelto queste fonti specifiche perché rappresentano il tipo di cose che le persone scrivono in una giornata tipo: post sul forum, recensioni ed e-mail.

Per trasformare tutto questo testo in un corpus da cui gli algoritmi informatici possono imparare, dovevamo anche valutare i livelli di coerenza di ciascun testo. Questo processo è chiamato annotazione. Non importa quanto sia buono il tuo algoritmo, l'annotazione sciatta distorcerà drasticamente i tuoi risultati. Nel nostro articolo, forniamo dettagli sui numerosi approcci di annotazione che abbiamo testato, inclusi alcuni che prevedevano il crowdsourcing. Alla fine abbiamo deciso di fare in modo che annotatori esperti valutino il livello di coerenza di ogni parte di testo su una scala a tre punti (coerenza bassa, media o alta). Ogni pezzo di testo è stato giudicato da tre annotatori.

Mettere alla prova gli algoritmi

Una volta ottenuto il corpus, è arrivato il momento di testare con quanta precisione i vari sistemi informatici potessero identificare il livello di coerenza di un dato pezzo di testo. Abbiamo testato tre tipi di sistemi:

Nella prima categoria ci sono i modelli basati su entità. Questi sistemi tengono traccia di dove e con quale frequenza le stesse entità sono menzionate in un testo. Ad esempio, se il sistema trova la parola "trasporto" in più frasi, la considera come un segno che tali frasi sono collegate logicamente tra loro.

Nella seconda categoria, abbiamo testato un modello basato su un grafico di coerenza lessicale. Questo è un modo per rappresentare le frasi come nodi in un grafico e collegare frasi che contengono coppie di parole simili. Ad esempio, questo tipo di modello collegherebbe una frase contenente "auto" e una frase contenente "camion" perché entrambe le frasi riguardano probabilmente veicoli o mezzi di trasporto.

Nella terza categoria ci sono i modelli di rete neurale, o deep learning. Ne abbiamo testati molti, inclusi due nuovissimi modelli costruiti dal team di Grammarly. Si tratta di sistemi basati sull'intelligenza artificiale che apprendono una rappresentazione di ogni frase che ne cattura il significato e possono apprendere il significato generale di un documento combinando queste rappresentazioni di frasi. Possono cercare modelli che non sono limitati a occorrenze di entità o coppie di parole simili.

Il compito di ordinare le frasi

Abbiamo utilizzato i testi ad alta coerenza del nostro nuovo corpus per creare un'attività di ordinamento delle frasi per tutti e tre i tipi di modelli. Abbiamo scoperto che i modelli che hanno ottenuto buoni risultati su altri set di dati di ordinamento delle frasi hanno ottenuto buoni risultati anche sul nostro set di dati, con prestazioni fino all'89% di precisione. I modelli basati su entità e i grafici di coerenza lessicale hanno mostrato una discreta accuratezza (generalmente dal 60 al 70 percento di precisione), ma sono stati i modelli neurali a sovraperformare gli altri modelli di almeno dieci punti percentuali su tre dei quattro domini.

Il vero test di scrittura

Quello che volevamo davvero sapere era se qualcuno di questi modelli potesse funzionare allo stesso livello di accuratezza su testo reale, scritto in modo naturale. Abbiamo convertito le etichette degli annotatori in valori numerici (basso=1, medio=2, alto=3) e abbiamo calcolato la media dei numeri per ottenere un punteggio di coerenza per ogni parte di testo.

In ogni dominio, almeno uno dei sistemi basati sulla rete neurale ha superato tutti gli altri. In effetti, uno dei modelli di Grammarly che tiene conto delle interruzioni di paragrafo è stato il miglior risultato sul testo di Yahoo Answers, come mostrato nella tabella seguente. Anche il modello Neural Clique, che è stato sviluppato dai ricercatori di Stanford, è stato un ottimo esecutore.

Ma la nostra ipotesi originale era corretta: tutti i modelli hanno ottenuto risultati peggiori nel compito del mondo reale rispetto al compito dell'ordine delle frasi, alcuni erano molto peggio. Ad esempio, il metodo del grafico lessicale era accurato al 78% per le e-mail aziendali nello scenario di riordino artificiale delle frasi, ma è riuscito a ottenere solo il 45% in questa valutazione più realistica.

Cosa abbiamo trovato

Si scopre che il lavoro precedente sulla coerenza del discorso ha messo alla prova la cosa sbagliata. Il compito dell'ordine delle frasi non è sicuramente un buon proxy per misurare la coerenza del discorso. I nostri risultati sono chiari: i sistemi che funzionano bene nello scenario artificiale fanno molto peggio sul testo del mondo reale.

È importante notare che questa scoperta non è una battuta d'arresto. Tutt'altro, in effetti. Parte della crescita di qualsiasi campo è valutare come stai valutando, fermandoti ogni tanto per dare un'occhiata a ciò che stai veramente misurando. Grazie a questo lavoro, i ricercatori che lavorano sulla coerenza del discorso hanno ora due importanti informazioni. Uno è l'intuizione che il compito di ordinare le frasi non dovrebbe più essere il modo in cui misuriamo l'accuratezza. Il secondo è un corpus annotato pubblicamente disponibile di testo reale e nuovi benchmark (i nostri modelli neurali) da utilizzare nella ricerca futura.

In attesa

C'è ancora molto lavoro da fare e molte applicazioni interessanti per un sistema in grado di giudicare in modo affidabile la coerenza del discorso in un pezzo di testo. Un giorno, un sistema come questo potrebbe non solo dirti quanto sia coerente il tuo messaggio generale, ma anche indicare i passaggi specifici che potrebbero essere difficili da seguire. Un giorno speriamo di aiutarti a rendere questi passaggi più facili da capire in modo che ciò che stai cercando di dire sia chiaro al tuo destinatario.

Dopotutto, il percorso di Grammarly per diventare un assistente di comunicazione completo non consiste solo nel assicurarsi che la tua scrittura sia grammaticalmente e stilisticamente accurata, ma nel garantire che tu sia compreso esattamente come previsto.

—-

Joel Tetreault è Direttore della Ricerca presso Grammarly. Alice Lai è una studentessa di dottorato presso l'Università dell'Illinois a Urbana-Champaign ed è stata una stagista di ricerca presso Grammarly. Questa ricerca sarà presentata alla conferenza annuale SIGDIAL 2018 a Melbourne, Australia, dal 12 al 14 luglio 2018. Il documento di ricerca di accompagnamento, intitolato "Discourse Coherence in the Wild: A Dataset, Evaluation and Methods" sarà pubblicato negli atti di la 19a Riunione Annuale del Gruppo di Interesse Speciale sul Discorso e il Dialogo. Il set di dati descritto in questo post del blog è chiamato Grammarly Corpus of Discourse Coherence ed è scaricabile gratuitamente per scopi di ricerca qui.