Под капюшоном в грамматике: преобразование стиля письма с ИИ
Опубликовано: 2018-05-31Когда вам нужно произвести хорошее впечатление на кого -то, на кого вы пишете, то, о чем вы говорите, не единственное, о чем вам нужно подумать. Как вы говорите, это часто так же важно. Выбор правильного уровня формальности может быть особой проблемой-он очень зависит от контекста, и вам часто приходится делать предположения о том, как ваш получатель будет интерпретировать ваш тон.
Представьте, что вы пишете сопроводительное письмо. Насколько это будет изменять игру, если бы у вас был инструмент, который мог бы обнаружить, когда ваше письмо слишком случайное (или, иногда даже хуже, слишком формально)? Внезапно ваши решения о том, как сказать то, что вы пытаетесь сказать, стали намного менее мутными. Вы не просто полагаетесь на догадки о том, как ваш получатель воспримет ваше сообщение - у вас есть алгоритм, который опирается на множество данных, которых у вас лично нет. Сделав еще один шаг, что, если этот инструмент может не только сказать вам, когда что -то выключено, но на самом деле предложит вам альтернативную формулировку, которую ваш получатель хотел бы лучше?
Процесс получения компьютера для автоматического преобразования написания из одного стиля в другой называется стилем передачи, и это предмет предстоящей статьи, которую я написал с моим коллегой Sudha Rao. Это область особого интереса для нас здесь, в грамматике, потому что мы знаем, как важно правильно общаться.
Если вы когда -либо задумывались о том, как инженеры -исследователи в Grammarly создают системы, которые предоставляют вам предложения по написанию, читайте дальше.

Неформальный фон по формальности
Прежде чем погрузиться в детали наших алгоритмов, давайте посмотрим на пример неформального и формального языка.
Неформальный: нужно увидеть обе стороны истории
Формально: Вы должны увидеть обе стороны истории.
Есть несколько очевидных различий между этими предложениями. Использование сленга («at attta») и отсутствие пунктуации в конце первого предложения неформальности сигнала. Есть время и место для такого рода предложения - например, обмен текстовыми сообщениями между друзьями.
Когда мы смотрели на то, как люди переписали неформальные предложения в более формальном стиле, мы обнаружили, что наиболее частые изменения, которые они внесли в капитализацию, пунктуацию и разговорные отношения. Мы также заметили, что людям иногда приходится делать более радикальные переписывания предложения, чтобы улучшить формальность:
Неформальный: когда вы приходите на встречу?
Формально: Пожалуйста, дайте мне знать, когда вы будете присутствовать на собрании.
Но как мы учим компьютеров делать практические изменения, подобные вышеуказанным? Есть несколько способов подхода к проблеме.
Тот, который мы используем, признает, что обучение компьютеру для перевода между стилями письма аналогична обучению его переводу языков. Этот подход называется машинным переводом, где компьютер автоматически переводится с одного языка (как французский) на другой (немецкий). Поэтому при решении проблемы передачи стиля имеет смысл начать с модели перевода или в нашем случае, нескольких моделей.
Что такое модель перевода?
Одним из недавних прорывов в ИИ является использование глубокого обучения или нейронной сети, методы для моделей построения машин.
Модели перевода нейронных машин (NMT) могут изучать представления основного значения предложений. Это помогает модели изучить сложные модели предложений, так что перевод свободно, а ее значение верно первоначальному предложению.
Более старые подходы к машинному переводу, такие как модели на основе правил или фразы (PBMT), разбивают предложения на более мелкие единицы, такие как слова или фразы, и переводят их независимо. Это может привести к грамматическим ошибкам или бессмысленным результатам в переводе. Тем не менее, эти модели легче настроить и, как правило, более консервативны, что может быть преимуществом. Например, мы можем легко включить правила, которые изменяют сленг в стандартные слова.
Мы рассмотрели несколько различных подходов к машинному переводу, чтобы увидеть, что лучше всего подходит для переноса стиля.
Создание модели
NMT и PBMT полны проблем, не в последнюю очередь - найти хороший набор данных для обучения ваших моделей. В этом случае мы оценили, что нам понадобится набор данных из сотен тысяч неформальных и формальных пар предложений. В идеале вы обучите свою модель с миллионами пар предложений, но, поскольку перенос стиля является довольно новой областью в области обработки естественного языка, на самом деле не было существующего набора данных, который мы могли бы использовать. Итак, мы создали один.
Мы начали с того, что собирали неформальные предложения. Мы получили наши предложения из вопросов и ответов, опубликованных публично на Yahoo! Ответы Мы автоматически выбрали из этого набора более ста тысяч неформальных предложений и переписывали команду с формальным языком, снова используя предопределенные критерии. (Проверьте нашу статью для получения подробной информации об этом процессе.)

После того, как у вас есть набор данных, вы можете начать обучение своей модели. Обучение модели означает дать ей много «исходных» предложений - в нашем случае неформальные предложения - наряду с большим количеством «целевых» предложений - для нас это формальные переписывания. Затем алгоритм модели ищет шаблоны, чтобы выяснить, как добраться от источника к цели. Чем больше данных у него есть, тем лучше он учится.
В нашем случае модель имеет сто тысяч неформальных предложений исходных предложений и их официальные переписывания, чтобы учиться. Мы также экспериментировали с различными способами создания искусственных формальных данных, чтобы увеличить размер нашего обучающего набора данных, поскольку модели NMT и PBMT часто требуют гораздо большего количества данных, чтобы показать хорошо.
Но вам также нужен способ оценить, насколько хорошо ваша модель выполняет свою задачу. Изменилось ли значение предложения? Новое предложение грамматически верно? Это на самом деле более формально? Существуют классификаторы - программы, которые могут автоматически оценивать предложения для тона и стиля письма - и мы проверили некоторые из тех, которые наиболее часто используются в научных кругах. Однако ни один из них не очень точен. Итак, мы закончили тем, что люди сравнивали результаты различных моделей, которые мы протестировали, и ранжируют их по формальности, точности и беглости.
Мы показали нашей команде первоначальное неформальное предложение, результаты нескольких разных моделей и переписывание человека. Мы не говорили им, кто - или что - генерировал каждое предложение. Затем они ранжировали переписывания, позволяя связывать. В идеале, лучшая модель была бы связана или даже лучше, чем человеческая переписывание. В целом, команда забила переписывание 500 неформальных предложений.
Что мы нашли
В общем, мы протестировали десятки моделей, но мы сосредоточимся на главных: основанных на правилах, на основе фразы (PBMT), на основе нейронной сети (NMT) и пара, которая объединила различные подходы.
Человеческие переписывания набрали наивысший в целом, но модели PBMT и NMT не так далеко позади. На самом деле, было несколько случаев, когда люди предпочитали модели вывода человеческим. Эти две модели сделали более обширные переписывания, но они, как правило, изменяли значение первоначального предложения.
Модели, основанные на правилах, с другой стороны, внесли меньшие изменения. Это означало, что они лучше сохраняли смысл, но произведенные ими предложения были менее формальными. Все модели было легче обработать более короткие предложения, чем более длинные.
Ниже приведен пример неформального предложения с его человеческим и модельным переписыванием. В этом конкретном случае это была последняя модель (NMT с переводом PBMT), которая достигла наилучшего баланса между формальностью, значением и естественной звучащей формулией.
Оригинальный неформальный: я вряд ли everrr вижу его в школе.
Человек переписывает: я почти никогда не вижу его в школе. Я обычно вижу его с моими братьями, играющими в баскетбол.
Модель, основанная на правилах: я вряд ли everrr вижу его в школе, как правило, я вижу Hima T Brothers Basketball Games.
Модель PBMT: я также не вижу его в школе, но мои баскетбольные игры моих братьев.
Модель NMT: я редко вижу его в школе, либо вижу его на баскетбольных играх моего брата.
NMT (обученный дополнительным данным, сгенерированным PBMT): я редко вижу его в школе, либо обычно вижу его на баскетбольных играх моих братьев.
Перенос стиля - это захватывающая новая область обработки естественного языка, с потенциалом для широко распространенных приложений. Этот инструмент, который я предположил в начале - тот, который помогает вам понять, как сказать, что вам нужно сказать? Есть еще много работы, но этот инструмент возможен, и он будет бесценным для соискателей, изучающих язык и любого, кому нужно произвести хорошее впечатление на кого -то через их письмо. Мы надеемся, что, обнародовавши наши данные, у нас и других в полевых условиях будут способ, чтобы они могли подчеркнуть друг друга и продвинуть эту область исследований вперед.
Что касается грамматики, эта работа стала еще одним шагом к нашему видению создания комплексного помощника по общению, который помогает вашему посланию пониматься так же, как и предполагалось.
Джоэл Тетро - директор по исследованиям в Grammarly. Судха Рао - аспирант в Университете Мэриленда и стал исследовательским стажером в грамматике. Joel and Sudha will be presenting this research at the 16th Annual Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies in New Orleans, June 1-6, 2018. The accompanying research paper, entitled “Dear Sir or Madam, May I Introduce the GYAFC Dataset: Corpus, Benchmarks and Metrics for Formality Style Transfer,” will be published in the Proceedings of the NAACL.
