¿Cómo se corrigen oraciones corridas?

Publicado: 2018-11-08

En algún momento de su vida, es posible que haya tenido un maestro que criticó un error particular en la escritura en inglés: las oraciones corridas.

Run-ons son un tipo común de error. Entre los estudiantes universitarios de los Estados Unidos, las oraciones corridas son el decimoctavo error más frecuente cometido por hablantes nativos de inglés y el octavo error más frecuente cometido por estudiantes que no son hablantes nativos de inglés.

¿Confundido acerca de las oraciones corridas?
Grammarly puede ayudar.
Escribir con Grammarly

La capacidad de detectar y corregir automáticamente este tipo de error obviamente sería útil para los escritores. Pero hay aplicaciones aún más amplias. Cuando dicta un mensaje de texto, por ejemplo, debe decir "punto" al final de la oración antes de comenzar una nueva, o de lo contrario su transcripción se convierte en una larga ejecución. Un sistema de inteligencia artificial que puede averiguar automáticamente dónde debe comenzar y terminar una oración podría insertar automáticamente la puntuación adecuada, liberando su cerebro para que se concentre en la información que está tratando de comunicar.

El trabajo de Grammarly sobre oraciones corridas es el tema de un nuevo artículo que presentamos en el 4.° taller sobre texto ruidoso generado por el usuario la semana pasada en la conferencia EMNLP en Bruselas. ¡Nos enorgullece decir que ganó uno de los dos mejores premios en papel en el taller! Siga leyendo para ver cómo Grammarly está abordando el desafío de corregir oraciones corridas.

¿Qué es una oración corrida?

La definición de una oración corrida varía un poco de persona a persona. Algunas personas consideran que los empalmes de coma son un tipo de oración corrida. Para otros, una oración corrida es simplemente una oración muy larga. Sin embargo, la longitud por sí sola no convierte a una oración en un verdadero corrido.

Esencialmente, una oración corrida es solo dos o más oraciones completas que se han juntado incorrectamente. Aquí hay un ejemplo de una corrida:

Vive la vida al máximo, no des nada por sentado.

Aquí hay dos cláusulas independientes: vive la vida al máximo y no des nada por sentado . Tradicionalmente, cuando desea unir dos cláusulas independientes, debe vincularlas de alguna manera. Una opción es usar una coma y una conjunción:

Vive la vida al máximo y no des nada por sentado.

Otra opción es usar un punto y coma:

Vivir la vida al máximo; no des nada por sentado.

La tercera opción es dividir las cláusulas en oraciones separadas:

Vivir la vida al máximo. No des nada por sentado.

El problema con las oraciones corridas es que son difíciles de entender. Las conjunciones, los puntos y comas y los puntos actúan como señales dentro de una oración para ayudar a los lectores a seguir lo que dice el escritor. Cuando estas señales están ausentes, es probable que los lectores necesiten retroceder y volver a leer para dar sentido a la oración.

Por qué es difícil corregir automáticamente los corrimientos

Grammarly ya corrige errores de puntuación y errores gramaticales. Entonces, ¿qué tiene de diferente enseñar a un sistema de IA a corregir oraciones corridas? Porqué es tan dificil?

Muchos errores de puntuación o gramaticales afectan solo a una parte aislada de una oración. Eso significa que su sistema de IA solo necesita procesar una parte particular de la oración para identificar y solucionar el problema. Sin embargo, un corrido es un problema a nivel de oración. Requiere que su IA procese una cadena de texto mucho más larga y compleja.

Corregir automáticamente los corrimientos también es difícil porque hay varias formas de hacerlo. Como en el ejemplo anterior, puede agregar puntuación, una conjunción o dividir el corrido en varias oraciones. Su IA deberá aprender a identificar la mejor manera de solucionar un corrimiento en una situación particular.

Además de eso, simplemente no hay muchos datos existentes para entrenar los sistemas de IA para este propósito. Aunque las oraciones corridas son errores comunes, no había un corpus existente que incluyera suficientes oraciones corridas etiquetadas para usar como datos de entrenamiento. (Un corpus es una gran colección de texto que se ha etiquetado de manera que los algoritmos informáticos puedan aprender).

Lo que hicimos

La primera orden del día fue crear una colección de oraciones corridas. Generamos oraciones corridas artificialmente eliminando la puntuación entre pares de oraciones de un corpus de artículos de noticias. (Consulte nuestro documento para obtener una explicación completa de nuestro proceso y cómo seleccionamos las oraciones candidatas).

Luego usamos nuestras oraciones corridas recién creadas para entrenar los dos modelos de aprendizaje automático que construimos para identificar y corregir las corridas. El aprendizaje automático es un área de la IA que consiste en enseñar un algoritmo para realizar tareas automáticamente mostrándole muchos ejemplos en lugar de proporcionar una serie de pasos rígidamente predefinidos.

Corrección de oraciones corridas: Lo que encontramos

Una vez que se entrenaron los modelos, los probamos en un nuevo conjunto de oraciones continuas creadas artificialmente, así como en un pequeño conjunto de oraciones continuas que ocurren naturalmente de un corpus de investigación existente.

Descubrimos que ambos superaron a los modelos líderes para la restauración de puntuación y la corrección de errores gramaticales en esta tarea. También hubo otro hallazgo emocionante: nuestros modelos, que fueron entrenados en oraciones generadas artificialmente, pudieron identificar oraciones corridas escritas por escritores reales tan bien como identificaron oraciones corridas artificiales.

Hay, por supuesto, más trabajo por hacer aquí. Nuestros datos de entrenamiento se generaron utilizando texto "limpio", lo que significa que el texto no contenía errores gramaticales además de los que insertamos. En el mundo real, las oraciones corridas pueden contener problemas gramaticales adicionales que dificultan que los algoritmos identifiquen y corrijan la corrida. Sin embargo, este es un paso emocionante hacia nuestra visión de crear un asistente de comunicación completo que lo ayude a escribir mensajes que se entenderán exactamente como usted lo desea.

Cómo corregir oraciones continuas no es tan fácil como parece es un nuevo artículo de Junchao Zheng, Courtney Napoles, Joel Tetreault y Kostiantyn Omelianchuk. Se presentó en el Cuarto taller sobre texto ruidoso generado por el usuario que se llevó a cabo junto con EMNLP 2018. El documento aparece en las Actas del taller W-NUT de EMNLP de 2018: El cuarto taller sobre texto ruidoso generado por el usuario.

Más de nuestra serie Under the Hood at Grammarly:

  • Detección de escritura desorganizada con IA
  • Transformando el estilo de escritura con IA