Debajo del capó en Grammarly: Transformando estilo de escritura con AI

Publicado: 2018-05-31

Cuando necesitas causar una buena impresión en alguien a quien estás escribiendo, lo que dices no es lo único que debes pensar. Cómo dices que a menudo es igual de importante. Elegir el nivel correcto de formalidad puede ser un desafío particular: es altamente dependiente del contexto, y a menudo tiene que hacer conjeturas sobre cómo su destinatario interpretará su tono.

Imagina que estás escribiendo una carta de presentación. ¿Cuánto de un cambio de juego sería si tuvieras una herramienta que pudiera detectar cuando tu escritura es demasiado informal (o, a veces, aún peor, demasiado formal)? De repente, tus decisiones sobre cómo decir lo que estás tratando de decir se vuelven mucho menos turbios. No solo confía en las conjeturas sobre cómo su destinatario percibirá su mensaje: tiene un algoritmo que se basa en muchos datos que no tiene personalmente. Dando un paso más allá, ¿qué pasaría si esta herramienta no solo pudiera decirle cuándo algo está apagado, sino que realmente le ofrece frases alternativas que su destinatario le gustaría mejor?

El proceso de obtener una computadora para transformar automáticamente una escritura de un estilo a otro se llama Transferencia de estilo, y es el tema de un próximo artículo que escribí con mi colega Sudha Rao. Es un área de particular interés para nosotros aquí en Grammarly porque sabemos lo importante que es comunicar de la manera correcta.

Si alguna vez se ha preguntado cómo los ingenieros de investigación de Grammarly construyen los sistemas que le brindan sugerencias de escritura, siga leyendo.

Un fondo informal sobre formalidad

Antes de sumergirnos en los detalles de nuestros algoritmos, echemos un vistazo a un ejemplo de lenguaje informal versus formal.

Informal: tengo que ver ambos lados de la historia

Formal: tienes que ver ambos lados de la historia.

Hay un par de diferencias obvias entre estas oraciones. El uso de la jerga ("gotta") y la falta de puntuación al final de la primera señal de informalidad de la señal de oración. Hay un tiempo y un lugar para este tipo de oración: un intercambio de mensajes de texto entre amigos, por ejemplo.

Cuando observamos cómo los humanos reescribimos oraciones informales en un estilo más formal, descubrimos que los cambios más frecuentes que hicieron implicaban capitalización, puntuación y coloquialismos. También notamos que los humanos a veces tienen que hacer reescrituras más drásticas de una oración para mejorar la formalidad:

Informal: ¿Cuándo vienes a la reunión?

Formal: hágamelo saber cuándo asistirá a la reunión.

Pero, ¿cómo enseñamos a las computadoras a hacer ediciones como las anteriores? Hay varias formas de abordar el problema.

El que usamos reconoce que enseñar una computadora a traducir entre los estilos de escritura es similar a enseñarla a traducir los idiomas. Este enfoque se llama traducción automática, donde una computadora se traduce automáticamente de un idioma (como el francés) a otro (alemán). Entonces, al abordar el problema de la transferencia de estilo, tiene sentido comenzar con un modelo de traducción, o en nuestro caso, múltiples modelos.

¿Qué es un modelo de traducción?

Uno de los avances recientes en IA es el uso de técnicas de aprendizaje profundo o redes neuronales para construir modelos de traducción automática.

Los modelos de traducción del automóvil neural (NMT) pueden aprender representaciones del significado subyacente de las oraciones. Esto ayuda al modelo a aprender patrones de oraciones complejos para que la traducción sea fluida y su significado sea fiel a la oración original.

Enfoques más antiguos para la traducción automática, como modelos basados ​​en reglas o en frases (PBMT), dividen oraciones en unidades más pequeñas, como palabras o frases, y las traducen de forma independiente. Esto puede conducir a errores gramaticales o resultados sin sentido en la traducción. Sin embargo, estos modelos son más fáciles de ajustar y tienden a ser más conservadores, lo que puede ser una ventaja. Por ejemplo, podemos incorporar fácilmente reglas que cambien la jerga a palabras estándar.

Observamos varios enfoques diferentes para la traducción automática para ver cuál es mejor en la transferencia de estilo.

Construir un modelo

NMT y PBMT están llenos de desafíos, entre los cuales es encontrar un buen conjunto de datos con el que capacitar a sus modelos. En este caso, estimamos que necesitaríamos un conjunto de datos de cientos de miles de pares de oraciones informales y formales. Idealmente, capacitaría a su modelo con millones de pares de oraciones, pero dado que la transferencia de estilo es una área bastante nueva en el campo del procesamiento del lenguaje natural, realmente no había un conjunto de datos existente que pudiéramos usar. Entonces, creamos uno.

Comenzamos recolectando oraciones informales. Obtuvimos nuestras oraciones de preguntas y respuestas publicadas públicamente en Yahoo! Respuestas. Seleccionamos automáticamente más de cien mil oraciones informales de este set y hicimos que un equipo reescribiera a cada uno con un lenguaje formal, nuevamente utilizando criterios predefinidos. (Consulte nuestro artículo para obtener detalles sobre este proceso).

Una vez que tenga un conjunto de datos, puede comenzar a capacitar a su modelo. Entrenar el modelo significa darle muchas oraciones "fuente", en nuestro caso, oraciones informales, junto con muchas oraciones "objetivo", para nosotros, estas son las reescrituras formales. El algoritmo del modelo luego busca patrones para descubrir cómo llegar de la fuente al objetivo. Cuantos más datos tenga, mejor aprende.

En nuestro caso, el modelo tiene cien mil oraciones fuente informales y sus reescrituras formales de las que aprender. También experimentamos con diferentes formas de crear datos formales artificiales para aumentar el tamaño de nuestro conjunto de datos de entrenamiento, ya que los modelos NMT y PBMT a menudo requieren muchos más datos para funcionar bien.

Pero también necesita una forma de evaluar qué tan bien su modelo está cumpliendo su tarea. ¿Cambió el significado de la oración? ¿Es la nueva oración gramaticalmente correcta? ¿Es realmente más formal? Existen clasificadores, programas que pueden evaluar automáticamente las oraciones para el tono y el estilo de escritura, y probamos algunos de los más utilizados en la academia. Sin embargo, ninguno de ellos es muy preciso. Entonces, terminamos haciendo que los humanos compararon los resultados de los diversos modelos que probamos y los clasificamos por formalidad, precisión y fluidez.

Mostramos a nuestro equipo la oración informal original, los resultados de varios modelos diferentes y la reescritura humana. No les dijimos quién, o qué, generó cada oración. Luego, clasificaron las reescrituras, permitiendo lazos. Idealmente, el mejor modelo estaría vinculado o incluso mejor que las reescrituras humanas. En total, el equipo anotó las reescrituras de 500 oraciones informales.

Lo que encontramos

En total, probamos docenas de modelos, pero nos centraremos en los principales: basadas en reglas, basadas en frases (PBMT), neurales basadas en redes (NMT) y una pareja que combinaba varios enfoques.

Las reescrituras humanas obtuvieron puntajes más altos en general, pero los modelos PBMT y NMT no estaban tan atrasados. De hecho, hubo varios casos en los que los humanos prefirieron los resultados del modelo a los humanos. Estos dos modelos hicieron reescrituras más extensas, pero tendieron a cambiar el significado de la oración original.

Los modelos basados ​​en reglas, por otro lado, hicieron cambios más pequeños. Esto significaba que eran mejores para preservar el significado, pero las oraciones que produjeron eran menos formales. A todos los modelos tuvieron más capacidad para manejar oraciones más cortas que las más largas.

El siguiente es un ejemplo de una oración informal con sus reescrituras humanas y modelo. En este caso particular, fue el último modelo (NMT con traducción de PBMT) que logró el mejor equilibrio entre formalidad, significado y fraseo de sonido natural.

Informal original: apenas lo veo en la escuela, por lo general, veo que los juegos de baloncesto de mis hermanos.

Reescritura humana: casi nunca lo veo en la escuela. Normalmente lo veo con mis hermanos jugando baloncesto.

Modelo basado en reglas: apenas lo veo en la escuela, por lo general, veo que los juegos de baloncesto de mis hermanos.

Modelo PBMT: Apenas lo veo en la escuela, pero los juegos de baloncesto de mis hermanos.

Modelo NMT: Raramente lo veo en la escuela, o lo veo en los juegos de baloncesto de mi hermano.

NMT (entrenado en datos generados por PBMT adicionales): rara vez lo veo en la escuela, por lo general, lo veo en los juegos de baloncesto de mis hermanos.

La transferencia de estilo es una nueva área emocionante de procesamiento del lenguaje natural, con el potencial de aplicaciones generalizadas. Esa herramienta que supera al principio, ¿la que te ayuda a descubrir cómo decir lo que necesitas decir? Todavía hay mucho trabajo por hacer, pero esa herramienta es posible, y será invaluable para los solicitantes de empleo, los estudiantes de idiomas y cualquier persona que necesite una buena impresión en alguien a través de su escritura. Esperamos que al hacer que nuestros datos sean públicos, nosotros y otros en el campo tengamos una forma de comparar mutuamente y avanzar en esta área de investigación.

En cuanto a Grammarly, este trabajo es otro paso hacia nuestra visión de crear un asistente de comunicación integral que ayude a que su mensaje se entienda tal como se pretendía.

Joel Tetreault es Director de Investigación en Grammarly. Sudha Rao es estudiante de doctorado en la Universidad de Maryland y fue pasante de investigación en Grammarly. Joel y Sudha presentarán esta investigación en la 16ª Conferencia Anual del Capítulo de América del Norte de la Asociación para la Lingüística Computacional: Tecnologías de lenguaje humano en Nueva Orleans, del 1 al 6 de junio de 2018. El trabajo de investigación que lo acompaña, titulado "Estimado señor o señora, puedo presentar el DataSet de GYAFC: Corpus, Benchmars y MetRics para la transferencia de estilo formal", se publicará en el proceso de datos de los productos de Aa de los Actas.