Sob o capô em Grammarly: Detectando a escrita desorganizada com a IA
Publicados: 2018-07-10Sempre que você escreve algo mais longo que uma frase, precisa tomar decisões sobre como organizar e apresentar seus pensamentos. Boa escrita é fácil de entender, porque cada frase se baseia naqueles que vieram antes dela. Quando o tópico muda, os escritores fortes usam frases de transição e quebra de parágrafos como sinalizadores para dizer aos leitores o que esperar a seguir.
Os linguistas chamam esse aspecto da coerência do discurso por escrito, e é o assunto de uma nova pesquisa legal da equipe de pesquisa gramatical que aparecerá na conferência sigdial em Melbourne, na Austrália, nesta semana.
O que é coerência do discurso e por que se preocupar com isso?
Quando dizemos que um texto tem um alto nível de coerência do discurso, queremos dizer que todas as frases estão ligadas logicamente. O escritor não se desviará do tópico. Pontos diferentes são conectados por transições. O texto é fácil de seguir do começo ao fim.

Esse tipo de organização nem sempre vem naturalmente. Poucos de nós pensam em progressões perfeitamente lineares das idéias. Um sistema que poderia dizer automaticamente quando você escreveu algo que outras pessoas terão dificuldades para seguir - e, eventualmente, sugerir como consertar isso - seria muito útil comunicar o que você quer dizer.
O que foi feito
Ensinar um computador a julgar com precisão o nível de coerência do texto é desafiador. Até o momento, o método mais comum de avaliar o quão bem a coerência do discurso das taxas de computador é baseada em uma tarefa de ordem de frase. Com esse método, os pesquisadores tomam um texto existente e bem editado, como um artigo de notícias, e reordenam aleatoriamente todas as frases. A suposição é que a permutação aleatória pode ser vista como incoerente e a ordem original pode ser vista como coerente. A tarefa é criar um algoritmo de computador que possa distinguir entre a versão incoerente e o original. Nessas condições, alguns sistemas atingiram até 90 % de precisão. Muito impressionante.
Mas há uma grande falha em potencial nesse método. Talvez você já tenha visto. Reordenar aleatoriamente frases pode produzir um texto de baixa coerência, mas não produz texto que parece algo que um humano escreveria naturalmente.
Na Grammarly, estamos focados em resolver problemas do mundo real, por isso sabíamos que qualquer trabalho que fizemos nessa área precisaria ser comparado com a escrita real, não os cenários artificiais. Surpreendentemente, houve muito pouco trabalho que testa os métodos de avaliação do discurso no texto real escrito por pessoas em circunstâncias comuns. É hora de mudar isso.
Pesquisa do mundo real, escritores do mundo real
O primeiro problema que tivemos que resolver foi o mesmo que todos os outros pesquisadores que trabalham na coerência do discurso enfrentaram: falta de dados do mundo real. Não havia corpus existente de texto comum e natural escrito em que pudéssemos testar nossos algoritmos.
Criamos um corpus coletando texto de várias fontes públicas: Yahoo Answers, resenhas do Yelp e e -mails governamentais e corporativos disponíveis ao público. Escolhemos essas fontes específicas porque elas representam os tipos de coisas que as pessoas escrevem em um dia típico - postagens, críticas e e -mails.
Para transformar todo esse texto em um corpus com o qual os algoritmos de computador podem aprender, também precisávamos avaliar os níveis de coerência de cada texto. Esse processo é chamado de anotação. Não importa o quão bom seja o seu algoritmo, a anotação desleixada distorcerá drasticamente seus resultados. Em nosso artigo, fornecemos detalhes sobre as muitas abordagens de anotação que testamos, incluindo algumas que envolviam crowdsourcing. Por fim, decidimos que os anotadores especializados classificam o nível de coerência de cada peça de texto em uma escala de três pontos (baixa, média ou alta coerência). Cada pedaço de texto foi julgado por três anotadores.
Colocando algoritmos à prova
Depois que tivemos o corpus, chegou a hora de testar com que precisão vários sistemas de computador poderiam identificar o nível de coerência de uma determinada peça de texto. Testamos três tipos de sistemas:
Na primeira categoria são modelos baseados em entidades. Esses sistemas rastreiam onde e com que frequência as mesmas entidades são mencionadas em um texto. Por exemplo, se o sistema encontrar a palavra "transporte" em várias frases, é necessário um sinal de que essas frases estão logicamente relacionadas uma à outra.
Na segunda categoria, testamos um modelo baseado em um gráfico de coerência lexical. Essa é uma maneira de representar frases como nós em um gráfico e conectar frases que contêm pares de palavras semelhantes. Por exemplo, esse tipo de modelo conectaria uma frase contendo "carro" e uma frase contendo "caminhão" porque ambas as sentenças provavelmente são sobre veículos ou transporte.

Na terceira categoria estão os modelos de rede neural, ou aprendizado profundo. Testamos vários deles, incluindo dois novos modelos construídos pela equipe da Grammarly. Esses são sistemas baseados em IA que aprendem uma representação de cada frase que captura seu significado e podem aprender o significado geral de um documento combinando essas representações de sentenças. Eles podem procurar padrões que não sejam restritos a ocorrências de entidades ou pares de palavras semelhantes.
A tarefa de ordem da frase
Utilizamos os textos de alta coerência do nosso novo corpus para criar uma tarefa de ordem de frase para todos os três tipos de modelos. Descobrimos que os modelos que tiveram um bom desempenho em outros conjuntos de dados de pedidos de frases também tiveram um bom desempenho em nosso conjunto de dados, com performances de até 89 % de precisão. Os modelos baseados em entidades e os gráficos de coerência lexical mostraram precisão decente (geralmente 60 a 70 % de precisão), mas foram os modelos neurais que superaram os outros modelos em pelo menos dez pontos percentuais em três dos quatro domínios.
O verdadeiro teste de escrita
O que realmente queríamos saber era se algum desses modelos poderia ter o mesmo nível de precisão no texto real e naturalmente escrito. Convertemos os rótulos dos anotadores em valores numéricos (baixa = 1, média = 2, alta = 3) e calculamos a média dos números para obter uma pontuação de coerência para cada peça de texto.
Em todos os domínios, pelo menos um dos sistemas baseados em rede neural superou todos os outros. De fato, um dos modelos da Grammarly que leva em consideração o parágrafo foi o melhor desempenho no texto do Yahoo Answers, conforme mostrado na tabela abaixo. O modelo de camarilha neural, desenvolvido por pesquisadores de Stanford, também foi um artista forte.

Mas nossa hipótese original estava correta: todos os modelos tiveram um desempenho pior na tarefa do mundo real do que na tarefa da ordem da frase-alguns eram muito piores. Por exemplo, o método do gráfico lexical era 78 % preciso para e -mails corporativos no cenário de reordenação de sentenças artificiais, mas conseguiu apenas 45 % nessa avaliação mais realista.
O que encontramos
Acontece que o trabalho anterior sobre a coerência do discurso tem testado a coisa errada. A tarefa de ordem da frase definitivamente não é uma boa proxy para medir a coerência do discurso. Nossos resultados são claros: os sistemas que têm um bom desempenho no cenário artificial fazem muito pior no texto do mundo real.
É importante observar que essa descoberta não é um revés. Longe disso, de fato. Parte do crescimento de qualquer campo está avaliando como você está avaliando - parando de vez em quando para dar uma olhada no que você realmente está medindo. Por causa deste trabalho, os pesquisadores que trabalham na coerência do discurso agora têm duas informações importantes. Uma é a visão de que a tarefa de ordenação da frase não deve mais ser a maneira como medimos a precisão. O segundo é um corpus anotado e disponível ao público, de texto do mundo real e novos parâmetros de referência (nossos modelos neurais) para usar em pesquisas futuras.
Esperando ansiosamente
Há mais trabalho a ser feito e muitas aplicações interessantes para um sistema que pode julgar de maneira confiável a coerência do discurso em um texto. Um dia, um sistema como esse não só poderia dizer o quão coerente é sua mensagem geral, mas também aponta as passagens específicas que podem ser difíceis de seguir. Algum dia, esperamos ajudá -lo a facilitar a compreensão dessas passagens, para que o que você esteja tentando dizer seja claro para o seu destinatário.
Afinal, o caminho da Grammarly de se tornar um assistente de comunicação abrangente não é apenas garantir que sua escrita seja gramaticalmente e estilisticamente precisa - é garantir que você seja entendido da mesma forma que.
---
Joel Tetrault é diretor de pesquisa da Grammarly. Alice Lai é uma estudante de doutorado na Universidade de Illinois em Urbana-Champaign e foi estagiária de pesquisa da Grammarly. Esta pesquisa será apresentada na Conferência Anual Sigdial 2018 em Melbourne, Austrália, de 12 a 14 de julho de 2018. O documento de pesquisa que o acompanha, intitulado “Coerência do discurso na natureza: um conjunto de dados, avaliação e métodos” será publicado nos procedimentos da 19ª reunião anual do grupo de juros especiais sobre disciplinar e diálogo. O conjunto de dados descrito nesta postagem do blog é chamado de corpus gramatical de coerência do discurso e é gratuito para download para fins de pesquisa aqui.
