Под капюшоном в грамматике: обнаружение неорганизованного письма с ИИ
Опубликовано: 2018-07-10Всякий раз, когда вы пишете что -то дольше, чем предложение, вам нужно принимать решения о том, как организовать и представить свои мысли. Хорошее письмо легко понять, потому что каждое предложение основывается на тех, которые были до него. Когда тема меняется, сильные писатели используют переходные предложения и разрывы абзаца в качестве указателей, чтобы рассказать читателям, чего ожидать дальше.
Лингвисты называют этот аспект письменного дискурса, и он является предметом некоторых крутых новых исследований из исследовательской группы по грамматике, которая появится на Сигдиальной конференции в Мельбурне, Австралия, на этой неделе.
Что такое дискурс когерентность и зачем заботиться об этом?
Когда мы говорим, что текст имеет высокий уровень дискурсной когерентности, мы имеем в виду, что все предложения связаны логически. Автор не отклоняется от темы. Различные точки связаны переходами. Текст легко следовать от начала до конца.

Этот тип организации не всегда приходит естественно. Мало кто из нас думает в совершенно линейных прогрессиях идей. Система, которая могла бы автоматически сказать вам, когда вы написали что -то, что другие люди будут бороться, - и, в конечном итоге, предложить, как это исправить, - будет чрезвычайно полезно передать то, что вы имеете в виду.
Что было сделано
Обучение компьютеру для точного суждения о уровне текста последовательна является сложной задачей. На сегодняшний день наиболее распространенный метод оценки того, насколько хорошо когерентность дискурса компьютера основан на задаче заказа предложения. С помощью этого метода исследователи принимают существующую, хорошо отредактированную часть текста, такую как новостная статья, и случайным образом переупорядочивает все предложения. Предполагается, что случайная перестановка может рассматриваться как некословная, а исходный порядок можно рассматривать как когерентный. Задача состоит в том, чтобы создать компьютерный алгоритм, который может различить некосвятную версию и оригинал. В этих условиях некоторые системы достигли до 90 процентов точности. Довольно впечатляюще.
Но есть большой потенциальный недостаток с этим методом. Может быть, вы уже заметили это. Случайно переупорядочивающие предложения могут создать текст с низким содержанием покрытия, но он не производит текст, который выглядит так, как человек, естественно, пишет.
В грамматике мы сосредоточены на решении реальных проблем, поэтому мы знали, что любая работа, которую мы выполняли в этой области, должны быть сравнены с реальным письмом, а не искусственными сценариями. Удивительно, но было очень мало работы, которая проверяет методы оценки дискурса на реальном тексте, написанный людьми при обычных обстоятельствах. Пришло время изменить это.
Реальные исследования, писатели реального мира
Первая проблема, которую мы должны были решить, была той же той же, с которой столкнулся любой другой исследователь, работающий над последовательностью дискурса: отсутствие реальных данных. Не было никакого существующего корпуса обычного, естественно написанного текста, на котором мы могли бы проверить наши алгоритмы.
Мы создали корпус, собрав текст из нескольких общественных источников: Yahoo отвечает, отзывы Yelp и общедоступные правительственные и корпоративные электронные письма. Мы выбрали эти конкретные источники, потому что они представляют то, что люди пишут в типичный день - посты, обзоры и электронные письма.
Чтобы превратить весь этот текст в корпус, у которого могут учиться компьютерные алгоритмы, нам также нужно было оценить уровни когерентности каждого текста. Этот процесс называется аннотацией. Независимо от того, насколько хорош ваш алгоритм, неаккуратная аннотация резко исказит ваши результаты. В нашей статье мы предоставляем подробную информацию о многих подходах к аннотации, которые мы протестировали, в том числе некоторые, которые включали краудсорсинг. В конечном итоге мы решили, что экспертные аннотаторы оценили уровень когерентности каждого части текста по трехбалльной шкале (низкая, средняя или высокая когерентность). Каждый фрагмент текста был оценен тремя аннотаторами.
Проведение алгоритмов на проверку
Как только у нас появился корпус, пришло время проверить, насколько точно различные компьютерные системы могут определить уровень когерентности данного фрагмента текста. Мы протестировали три типа систем:
В первой категории есть модели, основанные на объектах. Эти системы отслеживают, где и как часто те же сущности упоминаются в тексте. Например, если система находит слово «транспорт» в нескольких предложениях, она считает, что эти предложения логически связаны друг с другом.
Во второй категории мы протестировали модель, основанную на графике лексической когерентности. Это способ представлять предложения в виде узлов на графике и соединения предложений, которые содержат пары похожих слов. Например, этот тип модели соединит предложение, содержащее «автомобиль», и предложение, содержащее «грузовик», потому что оба предложения, вероятно, касаются транспортных средств или транспорта.

В третьей категории - нейронная сеть или глубокое обучение, модели. Мы протестировали несколько из них, в том числе две совершенно новые модели, построенные командой грамматики. Это системы, основанные на ИИ, которые изучают представление каждого предложения, которое отражает его значение, и они могут изучить общее значение документа, объединив эти представления предложения. Они могут искать шаблоны, которые не ограничены событиями сущностей или аналогичными парами слов.
Задача заказа приговора
Мы использовали тексты с высоким содержанием из нашего нового корпуса, чтобы создать задачу заказа предложения для всех трех типов моделей. Мы обнаружили, что модели, которые хорошо работали в других наборах данных о заказе предложений, также хорошо выполнялись в нашем наборе данных, с точностью до 89 процентов. Модели на основе сущностей и графики лексической когерентности показали достойную точность (как правило, точность от 60 до 70 процентов), но это были нейронные модели, которые превзошли другие модели как минимум на десять процентных точек на трех из четырех доменов.
Настоящий тест письма
Мы действительно хотели знать, может ли кто -нибудь из этих моделей работать на том же уровне точности в реальном, естественном написанном тексте. Мы преобразовали метки аннотаторов в числовые значения (low = 1, medium = 2, высокий = 3) и усредняли числа вместе, чтобы получить оценку когерентности для каждого куска текста.
В каждом домене, по крайней мере, одна из систем на основе нейронной сети превзошла все остальные. Фактически, одной из моделей Grammarly, которая учитывает разрывы в абзаце, был главным исполнителем в тексте от ответов Yahoo, как показано в таблице ниже. Модель нейронной клики, которая была разработана исследователями в Стэнфорде, также была сильной исполнителем.

Но наша первоначальная гипотеза была правильной: все модели работали хуже в реальной задаче, чем в задаче приказа-некоторые были намного хуже. Например, метод лексического графика был точным 78 процентов для корпоративных электронных писем в сценарии переупорядочения искусственного предложения, но ему удалось достичь только 45 процентов в этой более реалистичной оценке.
Что мы нашли
Оказывается, что предыдущая работа по когерентности дискурса проверяла неправильную вещь. Задача заказа в предложении определенно не является хорошим прокси для измерения последовательности дискурса. Наши результаты ясны: системы, которые хорошо работают в искусственном сценарии намного хуже в реальном мире.
Важно отметить, что этот вывод не является неудачей. На самом деле далеко не это. Частью выращивания любой области является оценка того, как вы оцениваете, - время от времени задерживаясь, чтобы взглянуть на то, что вы на самом деле измеряли. Из -за этой работы исследователи, работающие над последовательностью дискурса, теперь имеют два важных фрагмента информации. Одним из них является понимание того, что задача заказа предложения больше не должна быть тем, как мы измеряем точность. Второй-это общедоступный, аннотированный корпус реального текста и новые тесты (наши нейронные модели) для использования в будущих исследованиях.
С нетерпением жду
Существует еще больше работы и много интересных приложений для системы, которая может надежно судить о последовательности дискурса в части текста. Однажды такая система может не только сказать вам, насколько согласованным является ваше общее сообщение, но и указать на конкретные отрывки, за которыми может быть трудно следовать. Когда -нибудь мы надеемся помочь вам облегчить понимание этих отрывков, чтобы то, что вы пытаетесь сказать, ясно для вашего получателя.
В конце концов, путь Grammarly к тому, чтобы стать всеобъемлющим помощником по общению - это не просто убедиться, что ваше письмо грамматически и стилистически точное - это о том, чтобы убедиться, что вы понимаете столь же задумано.
---
Джоэл Тетро - директор по исследованиям в Grammarly. Алиса Лай-аспирант в Университете Иллинойса в Урбана-Шампейн и стала исследовательским стажером в грамматике. Это исследование будет представлено на ежегодной конференции Sigdial 2018 в Мельбурне, Австралия, 12-14 июля 2018 года. Сопровождающий исследовательский документ, озаглавленный «Связательность дискурса в дикой природе: набор данных, оценка и методы» будет опубликована в ходе разбирательства 19-го ежегодного собрания группы специальных интересов по дискурту и диалогу. Набор данных, описанный в этом сообщении в блоге, называется грамматическим корпусом дискурсной когерентности и является бесплатным для загрузки для исследовательских целей здесь.
