Sous le capot à Grammarly: détecter une écriture désorganisée avec l'IA

Publié: 2018-07-10

Chaque fois que vous écrivez quelque chose de plus d'une phrase, vous devez prendre des décisions sur la façon d'organiser et de présenter vos pensées. Une bonne écriture est facile à comprendre car chaque phrase s'appuie sur celles qui l'ont précédé. Lorsque le sujet change, les écrivains forts utilisent des phrases de transition et des ruptures de paragraphe comme panneaux pour dire aux lecteurs à quoi s'attendre ensuite.

Les linguistes appellent cet aspect de la cohérence du discours d'écriture, et c'est l'objet de nouvelles recherches sympas de l'équipe de recherche grammaire qui apparaîtra à la conférence Sigdial à Melbourne, en Australie, cette semaine.

Qu'est-ce que la cohérence du discours et pourquoi s'en soucier?

Lorsque nous disons qu'un texte a un niveau élevé de cohérence du discours, nous voulons dire que toutes les phrases sont liées logiquement ensemble. L'écrivain ne s'écarte pas du sujet. Différents points sont connectés par les transitions. Le texte est facile à suivre du début à la fin.

Ce type d'organisation ne vient pas toujours naturellement. Peu d'entre nous pensent dans des progressions parfaitement linéaires d'idées. Un système qui pourrait vous dire automatiquement quand vous avez écrit quelque chose que d'autres personnes auront du mal à suivre - et, finalement, suggérer comment résoudre ce problème - serait extrêmement utile pour communiquer ce que vous voulez dire.

Qu'est-ce qui a été fait

L'enseignement d'un ordinateur à juger avec précision le niveau de cohérence du texte est difficile. À ce jour, la méthode la plus courante pour évaluer la façon dont un ordinateur évalue la cohérence du discours est basé sur une tâche de commande de phrases. Avec cette méthode, les chercheurs prennent un texte bien édité existant, comme un article de presse, et réorganisent au hasard toutes les phrases. L'hypothèse est que la permutation aléatoire peut être considérée comme incohérente et que l'ordre d'origine peut être considéré comme cohérent. La tâche consiste à créer un algorithme informatique qui peut distinguer la version incohérente et l'original. Dans ces conditions, certains systèmes ont atteint une précision de 90%. Assez impressionnant.

Mais il y a un grand défaut potentiel avec cette méthode. Peut-être que vous l'avez déjà repéré. La réorganisation de phrases au hasard peut produire un texte à faible cohérence, mais il ne produit pas de texte qui ressemble à tout ce qu'un humain écrirait naturellement.

Chez Grammarly, nous nous concentrons sur la résolution des problèmes du monde réel, nous savions donc que tout travail que nous avons fait dans ce domaine devrait être comparé à l'écriture réelle, pas à des scénarios artificiels. Étonnamment, il y a eu très peu de travail qui teste les méthodes d'évaluation du discours sur le texte réel écrit par des personnes dans des circonstances ordinaires. Il est temps de changer cela.

Recherche du monde réel, écrivains du monde réel

Le premier problème que nous avons dû résoudre était le même que tous les autres chercheurs travaillant sur la cohérence du discours ont été confrontés: un manque de données réelles. Il n'y avait pas de corpus existant de texte ordinaire et naturellement écrit sur lequel nous pouvions tester nos algorithmes.

Nous avons créé un corpus en collectant du texte à partir de plusieurs sources publiques: Yahoo Answers, Yelp Reviews et Courriels du gouvernement et de l'entreprise accessibles au public. Nous avons choisi ces sources spécifiques parce qu'elles représentent le genre de choses que les gens écrivent dans une journée typique - des publications, des critiques et des e-mails pour.

Pour transformer tout ce texte en un corpus dont les algorithmes informatiques peuvent apprendre, nous devions également évaluer les niveaux de cohérence de chaque texte. Ce processus est appelé annotation. Peu importe la qualité de votre algorithme, l'annotation bâclée faussera considérablement vos résultats. Dans notre article, nous fournissons des détails sur les nombreuses approches d'annotation que nous avons testées, y compris certains impliquant le crowdsourcing. Nous avons finalement décidé de faire évaluer les annotateurs d'experts le niveau de cohérence de chaque pièce de texte sur une échelle à trois points (cohérence faible, moyenne ou élevée). Chaque morceau de texte a été jugé par trois annotateurs.

Mettre des algorithmes à l'épreuve

Une fois que nous avons eu le corpus, il était temps de tester à quel point divers systèmes informatiques pouvaient identifier avec précision le niveau de cohérence d'un texte donné. Nous avons testé trois types de systèmes:

Dans la première catégorie se trouvent des modèles basés sur des entités. Ces systèmes suivent où et à quelle fréquence les mêmes entités sont mentionnées dans un texte. Par exemple, si le système trouve le mot «transport» dans plusieurs phrases, il le prend en signe que ces phrases sont logiquement liées les unes aux autres.

Dans la deuxième catégorie, nous avons testé un modèle basé sur un graphique de cohérence lexical. C'est une façon de représenter les phrases comme des nœuds dans un graphique et de connecter des phrases qui contiennent des paires de mots similaires. Par exemple, ce type de modèle relierait une phrase contenant une «voiture» et une phrase contenant un «camion» car les deux phrases concernent probablement les véhicules ou le transport.

Dans la troisième catégorie se trouvent des modèles de réseau neuronal ou de profondeur. Nous en avons testé plusieurs, dont deux nouveaux modèles construits par l'équipe grammaire. Ce sont des systèmes basés sur l'IA qui apprennent une représentation de chaque phrase qui capture sa signification, et ils peuvent apprendre le sens général d'un document en combinant ces représentations de phrases. Ils peuvent rechercher des modèles qui ne sont pas limités aux occurrences d'entité ou à des paires de mots similaires.

La tâche d'ordre de phrase

Nous avons utilisé les textes de cohérence à haute cohérence de notre nouveau corpus pour créer une tâche d'ordre de phrase pour les trois types de modèles. Nous avons constaté que les modèles qui fonctionnaient bien sur d'autres ensembles de données de commande de phrases fonctionnaient également bien sur notre ensemble de données, avec des performances pouvant atteindre 89% de précision. Les modèles basés sur des entités et les graphiques de cohérence lexicale ont montré une précision décente (généralement une précision de 60 à 70%), mais ce sont les modèles neuronaux qui ont surpassé les autres modèles d'au moins dix points de pourcentage sur trois des quatre domaines.

Le vrai test d'écriture

Ce que nous voulions vraiment savoir, c'est si l'un de ces modèles pouvait fonctionner au même niveau de précision sur un texte réel et naturellement écrit. Nous avons converti les étiquettes des annotateurs en valeurs numériques (bas = 1, moyen = 2, élevé = 3) et avons en moyenne les nombres ensemble pour obtenir un score de cohérence pour chaque morceau de texte.

Dans tous les domaines, au moins l'un des systèmes basés sur les réseaux neuronaux a surpassé tous les autres. En fait, l'un des modèles de Grammarly qui prend en compte les ruptures de paragraphe était le plus performant du texte de Yahoo Answers, comme le montre le tableau ci-dessous. Le modèle de clique neurale, qui a été développé par des chercheurs de Stanford, était également un artiste solide.

Mais notre hypothèse originale était correcte: tous les modèles ont permis de faire moins de tâches sur le monde réel que sur la tâche de l'ordre des phrases - certains étaient bien pires. Par exemple, la méthode du graphique lexical était précise à 78% pour les e-mails d'entreprise dans le scénario de réorganisation des phrases artificielles, mais il n'a réussi à atteindre 45% dans cette évaluation plus réaliste.

Ce que nous avons trouvé

Il s'avère que les travaux antérieurs sur la cohérence du discours ont testé la mauvaise chose. La tâche de l'ordre des phrases n'est certainement pas un bon indicateur indirect pour mesurer la cohérence du discours. Nos résultats sont clairs: les systèmes qui fonctionnent bien dans le scénario artificiel font bien pire sur le texte du monde réel.

Il est important de noter que cette constatation n'est pas un revers. Loin de là, en fait. Une partie de la croissance de n'importe quel domaine consiste à évaluer la façon dont vous évaluez, de temps en temps pour jeter un œil à ce que vous avez vraiment mesuré. En raison de ce travail, les chercheurs travaillant sur la cohérence du discours ont désormais deux informations importantes. L'une est la perspicacité que la tâche d'ordre des phrases ne devrait plus être la façon dont nous mesurons la précision. Le second est un corpus annoté accessible au public de texte réel et de nouvelles références (nos modèles neuronaux) à utiliser dans de futures recherches.

Avoir hâte de

Il y a plus de travail à faire et de nombreuses applications passionnantes pour un système qui peut juger de manière fiable la cohérence du discours dans un texte. Un jour, un système comme celui-ci pourrait non seulement vous dire à quel point votre message global est cohérent, mais également souligner les passages spécifiques qui pourraient être difficiles à suivre. Un jour, nous espérons vous aider à rendre ces passages plus faciles à comprendre afin que ce que vous essayez de dire soit clair pour votre destinataire.

Après tout, le chemin de Grammarly pour devenir un assistant de communication complet ne consiste pas seulement à vous assurer que votre écriture est grammaticalement et stylistiquement exacte - il s'agit de vous assurer que vous êtes compris comme prévu.

—-

Joel Tetreault est directeur de la recherche chez Grammarly. Alice Lai est doctorante à l'Université de l'Illinois à Urbana-Champaign et a été stagiaire de recherche chez Grammarly. Cette recherche sera présentée lors de la conférence annuelle de Sigdial 2018 à Melbourne, en Australie, du 12 au 14 juillet 2018. Le document de recherche qui l'accompagne, intitulé «Discours Coherence in the Wild: A Dataset, Evaluation and Methods» sera publié dans les débats de la 19e réunion annuelle du groupe d'intérêts spéciaux sur le discours et le dialogue. L'ensemble de données décrit dans cet article de blog s'appelle le grammaire Corpus de cohérence du discours et est gratuit à des fins de recherche ici.