Di Bawah Tudung di Grammarly: Mengubah Gaya Penulisan dengan AI

Diterbitkan: 2018-05-31

Ketika Anda perlu membuat kesan yang baik pada seseorang yang Anda tulis, apa yang Anda katakan bukan satu -satunya hal yang perlu Anda pikirkan. Bagaimana Anda mengatakan itu seringkali sama pentingnya. Memilih tingkat formalitas yang tepat dapat menjadi tantangan khusus-ini sangat tergantung pada konteks, dan Anda sering harus membuat tebakan tentang bagaimana penerima Anda akan menafsirkan nada Anda.

Bayangkan Anda sedang menulis surat pengantar. Berapa banyak pengubah permainan jika Anda memiliki alat yang dapat mendeteksi ketika tulisan Anda terlalu santai (atau, kadang-kadang bahkan lebih buruk, terlalu formal)? Tiba -tiba keputusan Anda tentang bagaimana mengatakan apa yang ingin Anda katakan menjadi jauh lebih keruh. Anda tidak hanya mengandalkan dugaan tentang bagaimana penerima Anda akan memandang pesan Anda - Anda memiliki algoritma yang menggambar pada banyak data yang tidak Anda miliki secara pribadi. Melangkah lebih jauh, bagaimana jika alat ini tidak hanya dapat memberi tahu Anda ketika ada sesuatu yang tidak aktif, tetapi sebenarnya menawarkan Anda ungkapan alternatif yang diinginkan penerima Anda dengan lebih baik?

Proses mendapatkan komputer untuk secara otomatis mengubah tulisan dari satu gaya ke gaya lain disebut transfer gaya, dan itu adalah subjek dari makalah yang akan datang yang saya tulis bersama kolega saya Sudha Rao. Ini adalah bidang yang menarik bagi kita di sini di Grammarly karena kita tahu betapa pentingnya berkomunikasi dengan cara yang benar.

Jika Anda pernah bertanya -tanya bagaimana para insinyur peneliti di Grammarly membangun sistem yang memberikan saran menulis kepada Anda, baca terus.

Latar belakang informal tentang formalitas

Sebelum menyelam ke detail algoritma kami, mari kita lihat contoh bahasa informal vs formal.

Informal: Harus melihat kedua sisi cerita

Formal: Anda harus melihat kedua sisi cerita.

Ada beberapa perbedaan yang jelas antara kalimat -kalimat ini. Penggunaan bahasa gaul ("harus") dan kurangnya tanda baca di akhir informalitas sinyal kalimat pertama. Ada waktu dan tempat untuk kalimat semacam ini - pertukaran pesan teks antara teman, misalnya.

Ketika kami melihat bagaimana manusia menulis ulang kalimat informal dengan gaya yang lebih formal, kami menemukan bahwa perubahan paling sering mereka membuat kapitalisasi, tanda baca, dan kolokialisme. Kami juga memperhatikan bahwa manusia terkadang harus membuat penulisan ulang kalimat yang lebih drastis untuk meningkatkan formalitas:

Informal: Kapan Anda akan datang ke rapat?

Formal: Tolong beri tahu saya kapan Anda akan menghadiri rapat.

Tetapi bagaimana kita mengajar komputer untuk mengedit seperti yang di atas? Ada beberapa cara untuk mendekati masalah.

Yang kami gunakan mengakui bahwa mengajarkan komputer untuk diterjemahkan di antara gaya penulisan mirip dengan mengajarkannya untuk menerjemahkan bahasa. Pendekatan ini disebut terjemahan mesin, di mana komputer secara otomatis diterjemahkan dari satu bahasa (seperti bahasa Prancis) ke yang lain (Jerman). Jadi ketika mengatasi masalah transfer gaya, masuk akal untuk memulai dengan model terjemahan - atau dalam kasus kami, beberapa model.

Apa itu model terjemahan?

Salah satu terobosan baru -baru ini di AI adalah penggunaan pembelajaran yang mendalam, atau jaringan saraf, teknik untuk membangun model terjemahan mesin.

Model Neural Machine Translation (NMT) dapat mempelajari representasi dari makna kalimat yang mendasari. Ini membantu model mempelajari pola kalimat yang kompleks sehingga terjemahannya fasih dan artinya setia pada kalimat aslinya.

Pendekatan yang lebih lama untuk terjemahan mesin, seperti model berbasis aturan atau frasa (PBMT), memecah kalimat menjadi unit yang lebih kecil, seperti kata atau frasa, dan menerjemahkannya secara mandiri. Ini dapat menyebabkan kesalahan tata bahasa atau hasil yang tidak masuk akal dalam terjemahan. Namun, model -model ini lebih mudah diubah dan cenderung lebih konservatif - yang bisa menjadi keuntungan. Misalnya, kita dapat dengan mudah memasukkan aturan yang mengubah bahasa gaul menjadi kata -kata standar.

Kami melihat beberapa pendekatan berbeda untuk terjemahan mesin untuk melihat mana yang terbaik dalam transfer gaya.

Membangun model

NMT dan PBMT penuh dengan tantangan, tidak sedikit dari yang menemukan dataset yang baik untuk melatih model Anda. Dalam hal ini, kami memperkirakan kami akan membutuhkan set data ratusan ribu pasangan kalimat informal dan formal. Idealnya, Anda akan melatih model Anda dengan jutaan pasangan kalimat, tetapi karena transfer gaya adalah area yang cukup baru di bidang pemrosesan bahasa alami, benar -benar tidak ada dataset yang ada yang bisa kami gunakan. Jadi, kami membuatnya.

Kami mulai dengan mengumpulkan kalimat informal. Kami mengambil kalimat kami dari pertanyaan dan tanggapan yang diposting di depan umum di Yahoo! Jawaban. Kami secara otomatis memilih lebih dari seratus ribu kalimat informal dari set ini dan memiliki tim menulis ulang masing -masing dengan bahasa formal, sekali lagi menggunakan kriteria yang telah ditentukan. (Lihat makalah kami untuk detail tentang proses ini.)

Setelah Anda memiliki dataset, Anda dapat mulai melatih model Anda. Melatih model berarti memberikan banyak kalimat "sumber" - dalam kasus kami, kalimat informal - bersama dengan banyak kalimat "target" - bagi kami, ini adalah penulisan ulang formal. Algoritma model kemudian mencari pola untuk mencari tahu cara mendapatkan dari sumber ke target. Semakin banyak data yang dimilikinya, semakin baik dipelajari.

Dalam kasus kami, model ini memiliki seratus ribu kalimat sumber informal dan penulisan ulang formal untuk dipelajari. Kami juga bereksperimen dengan berbagai cara untuk membuat data formal buatan untuk meningkatkan ukuran dataset pelatihan kami, karena model NMT dan PBMT sering membutuhkan lebih banyak data untuk berkinerja baik.

Tetapi Anda juga membutuhkan cara untuk mengevaluasi seberapa baik model Anda menyelesaikan tugasnya. Apakah arti kalimat berubah? Apakah kalimat baru secara tata bahasa benar? Apakah sebenarnya lebih formal? Ada pengklasifikasi di luar sana - program yang dapat secara otomatis mengevaluasi kalimat untuk nada dan gaya penulisan - dan kami menguji beberapa yang paling umum digunakan di dunia akademis. Namun, tidak satu pun dari mereka yang sangat akurat. Jadi, kami akhirnya memiliki manusia membandingkan output dari berbagai model yang kami uji dan peringkatnya dengan formalitas, akurasi, dan kelancaran.

Kami menunjukkan kepada tim kami kalimat informal asli, output dari beberapa model yang berbeda, dan penulisan ulang manusia. Kami tidak memberi tahu mereka siapa - atau apa - menghasilkan setiap kalimat. Kemudian, mereka memberi peringkat pada penulisan ulang, memungkinkan ikatan. Idealnya, model terbaik akan diikat dengan atau bahkan lebih baik daripada penulisan ulang manusia. Secara keseluruhan, tim mencetak ulang penulisan ulang 500 kalimat informal.

Apa yang kami temukan

Semua mengatakan, kami menguji lusinan model, tetapi kami akan fokus pada yang teratas: berbasis aturan, berbasis frasa (PBMT), neural network berbasis (NMT), dan pasangan yang menggabungkan berbagai pendekatan.

Penulisan ulang manusia mencetak keseluruhan tertinggi, tetapi model PBMT dan NMT tidak jauh di belakang. Faktanya, ada beberapa kasus di mana manusia lebih suka output model daripada yang manusia. Kedua model ini membuat penulisan ulang yang lebih luas, tetapi mereka cenderung mengubah arti dari kalimat asli.

Model berbasis aturan, di sisi lain, membuat perubahan yang lebih kecil. Ini berarti mereka lebih baik dalam menjaga makna, tetapi kalimat yang mereka hasilkan kurang formal. Semua model memiliki waktu yang lebih mudah menangani kalimat yang lebih pendek daripada yang lebih lama.

Berikut ini adalah contoh kalimat informal dengan penulisan ulang manusia dan modelnya. Dalam kasus khusus ini, itu adalah model terakhir (NMT dengan terjemahan PBMT) yang mencapai keseimbangan terbaik antara formalitas, makna, dan ungkapan yang terdengar alami.

Informal asli: Saya hampir tidak pernah melihatnya di sekolah biasanya saya melihat Hima t saudara basket saya.

Human RE WRITE: Saya hampir tidak pernah melihatnya di sekolah. Saya biasanya melihatnya dengan saudara laki -laki saya bermain basket.

Model Berbasis Aturan: Saya hampir tidak pernah melihatnya di sekolah biasanya saya melihat HimA t My Brothers Basketball Games.

Model PBMT: Saya hampir tidak melihatnya di sekolah juga, tetapi pertandingan basket saudara saya.

NMT Model: Saya jarang melihatnya di sekolah, baik saya melihatnya di pertandingan basket saudara saya.

NMT (dilatih dengan data tambahan yang dihasilkan PBMT): Saya jarang melihatnya di sekolah biasanya saya melihatnya di pertandingan basket saudara saya.

Transfer gaya adalah area baru yang menarik dari pemrosesan bahasa alami, dengan potensi aplikasi yang meluas. Alat yang saya hipotesis pada awalnya - yang membantu Anda mengetahui bagaimana mengatakan apa yang perlu Anda katakan? Masih ada banyak pekerjaan yang harus dilakukan, tetapi alat itu mungkin, dan itu akan sangat berharga bagi pencari kerja, pelajar bahasa, dan siapa pun yang perlu membuat kesan yang baik pada seseorang melalui tulisan mereka. Kami berharap bahwa dengan membuat data kami publik, kami dan orang lain di lapangan akan memiliki cara untuk saling membandingkan dan memajukan bidang penelitian ini.

Sedangkan untuk tata bahasa, pekerjaan ini adalah langkah lain menuju visi kami untuk menciptakan asisten komunikasi yang komprehensif yang membantu pesan Anda dipahami sebagaimana dimaksud.

Joel Tetreault adalah Direktur Penelitian di Grammarly. Sudha Rao adalah mahasiswa PhD di University of Maryland dan merupakan magang penelitian di Grammarly. Joel dan Sudha akan mempresentasikan penelitian ini pada Konferensi Tahunan ke-16 Bab Amerika Utara dari Asosiasi Linguistik Komputasi: Teknologi Bahasa Manusia di New Orleans, 1-6 Juni 2018. Makalah penelitian yang menyertainya, berjudul “Sir atau Madam, Mei.