Debajo del capó en Grammarly: Detección de escritura desorganizada con AI

Publicado: 2018-07-10

Cada vez que escribe algo más tiempo que una oración, debe tomar decisiones sobre cómo organizar y presentar sus pensamientos. La buena escritura es fácil de entender porque cada oración se basa en las que vinieron antes. Cuando cambia el tema, los escritores fuertes usan oraciones de transición y saltos de párrafo como señalizaciones para decirles a los lectores qué esperar a continuación.

Los lingüistas llaman a este aspecto de la escritura de la coherencia del discurso, y es el tema de una nueva investigación nueva del equipo de investigación gramaticalmente que aparecerá en la Conferencia Sigdial en Melbourne, Australia, esta semana.

¿Qué es la coherencia del discurso y por qué preocuparse por ello?

Cuando decimos que un texto tiene un alto nivel de coherencia del discurso, queremos decir que todas las oraciones están vinculadas lógicamente juntas. El escritor no se desvía del tema. Diferentes puntos están conectados por transiciones. El texto es fácil de seguir de principio a fin.

Este tipo de organización no siempre es natural. Pocos de nosotros pensamos en progresiones perfectamente lineales de ideas. Un sistema que podría decirle automáticamente cuándo ha escrito algo que otras personas tendrán dificultades para seguir, y eventualmente, sugerir cómo solucionar esto, sería enormemente útil para comunicar lo que quiere decir.

Que se ha hecho

Enseñar una computadora para juzgar con precisión el nivel de coherencia del texto es un desafío. Hasta la fecha, el método más común para evaluar qué tan bien la coherencia del discurso de las tasas informáticas se basa en una tarea de ordenamiento de oraciones. Con este método, los investigadores toman un texto existente y bien editado, como un artículo de noticias, y reordenan al azar todas las oraciones. La suposición es que la permutación aleatoria puede verse como incoherente y el orden original puede verse como coherente. La tarea es construir un algoritmo de computadora que pueda distinguir entre la versión incoherente y el original. En estas condiciones, algunos sistemas han alcanzado una precisión de hasta un 90 por ciento. Bastante impresionante.

Pero hay un gran defecto potencial con este método. Tal vez ya lo hayas visto. Reordenar al azar las oraciones pueden producir un texto de baja coherencia, pero no produce un texto que parezca cualquier cosa que un humano escriba naturalmente.

En Grammarly, estamos enfocados en resolver problemas del mundo real, por lo que sabíamos que cualquier trabajo que hiciéramos en esta área necesitaría ser comparado contra la escritura real, no los escenarios artificiales. Sorprendentemente, ha habido muy poco trabajo que pruebe los métodos de evaluación del discurso sobre texto real escritos por personas en circunstancias ordinarias. Es hora de cambiar eso.

Investigación del mundo real, escritores del mundo real

El primer problema que tuvimos que resolver fue el mismo que todos los demás investigadores que trabajan en la coherencia del discurso han enfrentado: la falta de datos del mundo real. No hubo un corpus existente de texto ordinario y escrito naturalmente en el que pudiéramos probar nuestros algoritmos.

Creamos un corpus recopilando texto de varias fuentes públicas: Yahoo Answers, Yelp Reviews y correos electrónicos gubernamentales y corporativos disponibles públicamente. Elegimos estas fuentes específicas porque representan el tipo de cosas que las personas escriben en un día típico: publicaciones, reseñas y correos electrónicos.

Para convertir todo este texto en un corpus del que los algoritmos de computadora puedan aprender, también necesitamos calificar los niveles de coherencia de cada texto. Este proceso se llama anotación. No importa cuán bueno sea su algoritmo, la anotación descuidada sesgará drásticamente sus resultados. En nuestro artículo, proporcionamos detalles sobre los muchos enfoques de anotación que probamos, incluidos algunos que involucraron crowdsourcing. En última instancia, decidimos que los anotadores expertos califiquen el nivel de coherencia de cada pieza de texto en una escala de tres puntos (baja, media o alta coherencia). Cada pieza de texto fue juzgado por tres anotadores.

Poner algoritmos a la prueba

Una vez que tuvimos el corpus, era hora de probar cuán exactamente varios sistemas informáticos podían identificar el nivel de coherencia de un texto determinado. Probamos tres tipos de sistemas:

En la primera categoría hay modelos basados ​​en entidades. Estos sistemas rastrean dónde y con qué frecuencia se mencionan las mismas entidades en un texto. Por ejemplo, si el sistema encuentra la palabra "transporte" en varias oraciones, se toma como una señal de que esas oraciones están lógicamente relacionadas entre sí.

En la segunda categoría, probamos un modelo basado en un gráfico de coherencia léxico. Esta es una forma de representar oraciones como nodos en un gráfico y conectar oraciones que contienen pares de palabras similares. Por ejemplo, este tipo de modelo conectaría una oración que contiene "automóvil" y una oración que contiene "camión" porque ambas oraciones probablemente sean sobre vehículos o transporte.

En la tercera categoría se encuentran modelos de redes neuronales, o aprendizaje profundo. Probamos varios de estos, incluidos dos modelos nuevos construidos por el equipo de Grammarly. Estos son sistemas basados ​​en IA que aprenden una representación de cada oración que captura su significado, y pueden aprender el significado general de un documento combinando estas representaciones de oraciones. Pueden buscar patrones que no estén restringidos a ocurrencias de entidades o pares de palabras similares.

La tarea de pedido de oraciones

Utilizamos los textos de alta coherencia de nuestro nuevo corpus para crear una tarea de pedido de oraciones para los tres tipos de modelos. Descubrimos que los modelos que funcionaban bien en otros conjuntos de datos de pedidos de oraciones también funcionaban bien en nuestro conjunto de datos, con actuaciones de hasta el 89 por ciento de precisión. Los modelos basados ​​en entidades y los gráficos de coherencia léxico mostraron una precisión decente (generalmente de 60 a 70 por ciento de precisión), pero fueron los modelos neurales los que superaron a los otros modelos en al menos diez puntos porcentuales en tres de los cuatro dominios.

La prueba de escritura real

Lo que realmente queríamos saber era si alguno de estos modelos podría funcionar al mismo nivel de precisión en el texto real y escritos naturalmente. Convertimos las etiquetas de los annotadores en valores numéricos (bajo = 1, medio = 2, alto = 3) y promediamos los números juntos para obtener una puntuación de coherencia para cada pieza de texto.

En cada dominio, al menos uno de los sistemas de redes neuronales superó a todos los demás. De hecho, uno de los modelos de Grammarly que tiene en cuenta el párrafo en cuenta fue el mejor desempeño en el texto de Yahoo Respuestas, como se muestra en la tabla a continuación. El modelo neural de camarilla, desarrollado por investigadores de Stanford, también fue un gran desempeño.

Pero nuestra hipótesis original era correcta: todos los modelos se desempeñaron peor en la tarea del mundo real que en la tarea de orden de oraciones, algunos fueron mucho peores. Por ejemplo, el método de gráfico léxico fue un 78 por ciento preciso para los correos electrónicos corporativos en el escenario de reordenamiento de oraciones artificiales, pero solo logró alcanzar el 45 por ciento en esta evaluación más realista.

Lo que encontramos

Resulta que el trabajo previo sobre la coherencia del discurso ha estado probando lo incorrecto. La tarea de orden de oración definitivamente no es un buen proxy para medir la coherencia del discurso. Nuestros resultados son claros: los sistemas que funcionan bien en el escenario artificial empeoran mucho en el texto del mundo real.

Es importante tener en cuenta que este hallazgo no es un revés. Lejos de eso, de hecho. Parte del cultivo de cualquier campo es evaluar cómo está evaluando, lo que está de vez en cuando para echar un vistazo a lo que realmente ha estado midiendo. Debido a este trabajo, los investigadores que trabajan en la coherencia del discurso ahora tienen dos información importante. Una es la idea de que la tarea de ordenamiento de oraciones ya no debería ser la forma en que medimos la precisión. El segundo es un corpus anotado y disponible públicamente de texto del mundo real y nuevos puntos de referencia (nuestros modelos neuronales) para usar en futuras investigaciones.

Pensando en el futuro

Hay más trabajo por hacer y muchas aplicaciones emocionantes para un sistema que puede juzgar de manera confiable la coherencia del discurso en un texto. Un día, un sistema como este no solo podría decirle cuán coherente es su mensaje general, sino que también señala los pasajes específicos que podrían ser difíciles de seguir. Algún día esperamos ayudarlo a hacer que esos pasajes sean más fáciles de entender para que lo que está tratando de decir sea claro para su destinatario.

Después de todo, el camino de Grammarly para convertirse en un asistente de comunicación integral no se trata solo de asegurarse de que su escritura sea gramatical y estilísticamente precisa, se trata de garantizar que se entienda igual de previsto.

—-

Joel Tetreault es Director de Investigación en Grammarly. Alice Lai es estudiante de doctorado en la Universidad de Illinois en Urbana-Champaign y fue pasante de investigación en Grammarly. Esta investigación se presentará en la Conferencia Anual Sigdial 2018 en Melbourne, Australia, del 12 al 14 de julio de 2018. El documento de investigación que lo acompaña, titulado "La coherencia del discurso en la naturaleza: un conjunto de datos, evaluación y métodos" se publicará en las actas de la 19ª Reunión Anual del Grupo de Interior Especial sobre el Discurso y el Diálogo. El conjunto de datos descrito en esta publicación de blog se llama Grammarly Corpus of Discutse Coherence y es gratuito para descargar para fines de investigación aquí.