Grammarlyのフードの下:AIで混乱した文章を検出する

公開: 2018-07-10

文よりも長く何かを書くときはいつでも、自分の考えを整理して提示する方法について決定する必要があります。良い文章は、それぞれの文がその前に来たものに基づいているため、理解しやすいです。トピックが変わると、強力な作家は移行文と段落の断片を使用して、読者に次に期待することを伝えます。

言語学者は、談話の一貫性を書くことのこの側面を呼び出します。これは、今週、オーストラリアのメルボルンで開催されたSigdial Conferenceに出演する文法研究チームのクールな新しい研究の主題です。

談話の一貫性とは何ですか、そしてなぜそれを気にするのですか?

テキストには高いレベルの談話の一貫性があると言うとき、すべての文が論理的にリンクされていることを意味します。作家は話題から外れません。さまざまなポイントが遷移によって接続されます。テキストは、最初から最後まで簡単に従うことができます。

このタイプの組織は常に自然に来るとは限りません。アイデアの完全に直線的な進行について考えている私たちはほとんどいません。他の人が従うのに苦労するものを書いたときに自動的にあなたに伝えることができるシステムは、最終的に、これを修正する方法を提案することで、あなたが意味することを伝えるのに非常に役立つでしょう。

何が行われましたか

テキストのコヒーレンスレベルを正確に判断するためにコンピューターに教えることは困難です。これまで、コンピューターの談話の一貫性をどの程度十分に評価しているかを評価する最も一般的な方法は、文の順序付けタスクに基づいています。この方法により、研究者はニュース記事などの既存の編集されたテキストを取り、すべての文をランダムに並べ替えます。仮定は、ランダムな順列は一貫性のないものと見なすことができ、元の順序はコヒーレントと見なすことができるということです。タスクは、一貫性のないバージョンとオリジナルを区別できるコンピューターアルゴリズムを構築することです。これらの条件下では、一部のシステムは90%の精度に達しています。かなり印象的です。

しかし、この方法には大きな潜在的な欠陥があります。たぶんあなたはすでにそれを見つけました。ランダムに並べ替える文章は、低コヒーレンステキストを作成する可能性がありますが、人間が自然に書くもののように見えるテキストは作成されません。

Grammarlyでは、実際の問題の解決に焦点を当てているため、この分野で行った作業は、人工シナリオではなく、実際の執筆に対してベンチマークされる必要があることを知っていました。驚くべきことに、通常の状況下で人々によって書かれた実際のテキストで談話評価方法をテストする作業はほとんどありませんでした。それを変える時が来ました。

実世界の研究、実世界の作家

私たちが解決しなければならなかった最初の問題は、談話の一貫性に取り組んでいる他のすべての研究者が直面しているのと同じでした:実際のデータの欠如。アルゴリズムをテストできる普通の自然に書かれたテキストの既存のコーパスはありませんでした。

Yahoo Answers、Yelp Reviews、および公開されている政府および企業の電子メールなど、いくつかの公開源からテキストを収集してコーパスを作成しました。これらの特定の情報源を選びました。なぜなら、それらは、典型的な日に人々が書くものの種類を表しているからです。

このすべてのテキストを、コンピューターアルゴリズムが学習できるコーパスに変えるには、各テキストのコヒーレンスレベルを評価する必要がありました。このプロセスは注釈と呼ばれます。あなたのアルゴリズムがどれほど優れていても、ずさんな注釈はあなたの結果を劇的に歪めます。私たちの論文では、クラウドソーシングを含むいくつかを含め、テストした多くの注釈アプローチの詳細を提供します。最終的に、専門家のアノテーターに、各テキストのコヒーレンスレベルを3点スケール(低、中、または高いコヒーレンス)で評価させることにしました。各テキストは、3つのアノテーターによって審査されました。

アルゴリズムをテストに配置します

コーパスを取得したら、さまざまなコンピューターシステムが特定のテキストのコヒーレンスレベルをどの程度正確に識別できるかをテストする時が来ました。 3種類のシステムをテストしました。

最初のカテゴリには、エンティティベースのモデルがあります。これらのシステムは、同じエンティティがテキストのどこでどの頻度で言及されているかを追跡します。たとえば、システムがいくつかの文で「輸送」という言葉を見つけた場合、それらの文が互いに論理的に関連していることの兆候としてそれを受け取ります。

2番目のカテゴリでは、語彙コヒーレンスグラフに基づいてモデルをテストしました。これは、グラフ内のノードとして文を表す方法と、同様の単語のペアを含む文を接続する方法です。たとえば、このタイプのモデルは、両方の文がおそらく車両または輸送に関するものであるため、「車」を含む文と「トラック」を含む文を接続します。

3番目のカテゴリには、ニューラルネットワーク、または深い学習モデルがあります。 Grammarlyチームによって構築された2つの真新しいモデルを含む、これらのいくつかをテストしました。これらは、その意味をキャプチャする各文の表現を学習するAIベースのシステムであり、これらの文の表現を組み合わせることにより、ドキュメントの一般的な意味を学ぶことができます。彼らは、エンティティの発生または同様の単​​語ペアに制限されていないパターンを探すことができます。

文の順序付けタスク

新しいコーパスの高コヒーレンステキストを使用して、3つのタイプのモデルすべてに対して文順序付けタスクを作成しました。他の文の順序付けデータセットでうまく機能したモデルも、データセットでうまく機能し、パフォーマンスは89%の精度でパフォーマンスを発揮することがわかりました。エンティティベースのモデルと語彙コヒーレンスグラフは、適切な精度(一般に60〜70%の精度)を示しましたが、4つのドメインのうち3つで他のモデルを少なくとも10パーセントポイント上回るのはニューラルモデルでした。

実際のライティングテスト

私たちが本当に知りたかったのは、これらのモデルのいずれかが、実際の、自然に書かれたテキストで同じレベルの精度で実行できるかどうかでした。アノテーターのラベルを数値値(low = 1、medium = 2、high = 3)に変換し、各テキストのコヒーレンススコアを取得するために数値を平均しました。

すべてのドメインで、ニューラルネットワークベースのシステムの少なくとも1つが他のすべてのものよりも優れていました。実際、以下の表に示すように、段落を考慮に入れたGrammarlyのモデルの1つは、Yahoo Answersのテキストのトップパフォーマーでした。スタンフォード大学の研究者によって開発されたニューラルクリークモデルも強力なパフォーマンスでした。

しかし、私たちの元の仮説は正しいものでした。すべてのモデルは、現実世界のタスクで、文の順序タスクよりも悪化しました。たとえば、字句グラフ法は、人工文の並べ替えシナリオの企業電子メールで78%正確でしたが、このより現実的な評価では45%しか達成できませんでした。

私たちが見つけたもの

談話の一貫性に関する以前の研究が間違ったことをテストしていることがわかりました。文の順序タスクは、談話の一貫性を測定するための適切なプロキシではありません。私たちの結果は明らかです。人工シナリオでうまく機能するシステムは、実際のテキストではるかに悪化します。

この発見は後退ではないことに注意することが重要です。実際、それから遠く離れています。フィールドを成長させることの一部は、あなたが評価方法を評価することです。たまに止めて、あなたが本当に測定しているものを見てみましょう。この作業により、談話の一貫性に取り組んでいる研究者は、2つの重要な情報を持っています。 1つは、文の順序付けタスクが精度を測定する方法ではなくなってはならないという洞察です。 2つ目は、将来の研究で使用する公開された現実世界のテキストと新しいベンチマーク(当社のニューラルモデル)の注釈付きコーパスです。

楽しみにしている

やるべきことがあり、テキストの中で談話の一貫性を確実に判断できるシステムのエキサイティングなアプリケーションがたくさんあります。ある日、このようなシステムは、あなたのメッセージ全体がどれほど首尾一貫しているかを伝えるだけでなく、従うのが難しいかもしれない特定の文章を指摘することもできました。いつか私たちはあなたがあなたが言おうとしていることがあなたの受信者に明確になるように、あなたがそれらの文章を理解しやすくするのを手伝いたいと思っています。

結局のところ、包括的なコミュニケーションアシスタントになるためのGrammarlyの道は、文章が文法的かつスタイル的に正確であることを確認することだけではありません。それは、意図したとおりに理解されるようにすることです。

- -

Joel Tetreaultは、Grammarlyの研究ディレクターです。アリス・ライは、イリノイ大学アーバナシャンペーン校の博士課程の学生であり、グラマリーの研究インターンでした。この研究は、2018年7月12〜14日、オーストラリアのメルボルンで開催されたSigdial 2018年次会議で発表されます。「野生の談話コヒーレンス:データセット、評価、方法」と題された研究論文は、談話と対話に関する特別利益団体の第19回年次会議の議事録に掲載されます。このブログ投稿で説明されているデータセットは、談話の一貫性の文法コーパスと呼ばれ、ここで研究目的で無料でダウンロードできます。