Di bawah kap di Grammarly: Mendeteksi tulisan yang tidak terorganisir dengan AI
Diterbitkan: 2018-07-10Setiap kali Anda menulis sesuatu lebih lama dari sebuah kalimat, Anda perlu membuat keputusan tentang cara mengatur dan menyajikan pikiran Anda. Tulisan yang baik mudah dimengerti karena setiap kalimat dibangun di atas yang datang sebelumnya. Ketika topik berubah, penulis yang kuat menggunakan kalimat transisi dan patah paragraf sebagai rambu -rambu untuk memberi tahu pembaca apa yang diharapkan selanjutnya.
Ahli bahasa menyebutkan aspek penulisan koherensi wacana ini, dan itu adalah subjek dari beberapa penelitian baru yang keren dari tim peneliti tata bahasa yang akan muncul di Konferensi Sigdial di Melbourne, Australia, minggu ini.
Apa itu koherensi wacana, dan mengapa peduli?
Ketika kami mengatakan bahwa sebuah teks memiliki tingkat koherensi wacana yang tinggi, kami maksudkan bahwa semua kalimat dihubungkan bersama secara logis. Penulis tidak membelok dari topik. Poin yang berbeda dihubungkan oleh transisi. Teksnya mudah diikuti dari awal hingga akhir.

Jenis organisasi ini tidak selalu datang secara alami. Beberapa dari kita berpikir dalam perkembangan ide yang sangat linier. Suatu sistem yang dapat secara otomatis memberi tahu Anda ketika Anda telah menulis sesuatu yang orang lain akan kesulitan untuk mengikuti - dan, pada akhirnya, menyarankan bagaimana memperbaikinya - akan sangat membantu untuk mengomunikasikan apa yang Anda maksud.
Apa yang telah dilakukan
Mengajar komputer untuk secara akurat menilai tingkat koherensi teks itu menantang. Sampai saat ini, metode yang paling umum untuk mengevaluasi seberapa baik koherensi wacana tarif komputer didasarkan pada tugas pemesanan kalimat. Dengan metode ini, para peneliti mengambil teks yang ada dan diedit dengan baik, seperti artikel berita, dan secara acak menyusun ulang semua kalimat. Asumsinya adalah bahwa permutasi acak dapat dipandang tidak koheren dan pemesanan asli dapat dipandang koheren. Tugasnya adalah membangun algoritma komputer yang dapat membedakan antara versi yang tidak koheren dan aslinya. Dalam kondisi ini, beberapa sistem telah mencapai akurasi 90 persen. Cukup mengesankan.
Tapi ada potensi kelemahan besar dengan metode ini. Mungkin Anda sudah melihatnya. Kalimat pemesanan ulang secara acak mungkin menghasilkan teks koherensi rendah, tetapi tidak menghasilkan teks yang terlihat seperti apa pun yang akan ditulis manusia secara alami.
Di Grammarly, kami fokus untuk memecahkan masalah dunia nyata, jadi kami tahu bahwa pekerjaan apa pun yang kami lakukan di bidang ini perlu dibandingkan dengan penulisan nyata, bukan skenario buatan. Anehnya, ada sangat sedikit pekerjaan yang menguji metode evaluasi wacana pada teks nyata yang ditulis oleh orang -orang dalam keadaan biasa. Saatnya mengubahnya.
Penelitian dunia nyata, penulis dunia nyata
Masalah pertama yang harus kami selesaikan adalah hal yang sama dengan yang dihadapi setiap peneliti lain pada koherensi wacana: kurangnya data dunia nyata. Tidak ada kumpulan teks biasa yang ditulis secara alami yang dapat kami uji algoritma kami.
Kami membuat corpus dengan mengumpulkan teks dari beberapa sumber publik: Jawaban Yahoo, ulasan Yelp, dan email pemerintah dan perusahaan yang tersedia untuk umum. Kami memilih sumber -sumber khusus ini karena mereka mewakili hal -hal yang ditulis orang pada hari yang khas - untuk posting, ulasan, dan email.
Untuk mengubah semua teks ini menjadi corpus yang dapat dipelajari oleh algoritma komputer, kami juga perlu menilai tingkat koherensi setiap teks. Proses ini disebut anotasi. Tidak peduli seberapa bagus algoritma Anda, anotasi yang ceroboh akan secara drastis memiringkan hasil Anda. Dalam makalah kami, kami memberikan rincian tentang banyak pendekatan anotasi yang kami uji, termasuk beberapa yang melibatkan crowdsourcing. Kami akhirnya memutuskan untuk memiliki ahli annotator ahli menilai tingkat koherensi setiap bagian teks pada skala tiga poin (koherensi rendah, sedang, atau tinggi). Setiap teks dinilai oleh tiga annotator.
Menguji algoritma
Begitu kami memiliki korpus, sudah waktunya untuk menguji seberapa akurat berbagai sistem komputer dapat mengidentifikasi tingkat koherensi dari sepotong teks yang diberikan. Kami menguji tiga jenis sistem:
Dalam kategori pertama adalah model berbasis entitas. Sistem ini melacak di mana dan seberapa sering entitas yang sama disebutkan dalam teks. Misalnya, jika sistem menemukan kata "transportasi" dalam beberapa kalimat, itu menganggapnya sebagai tanda bahwa kalimat -kalimat tersebut secara logis terkait satu sama lain.
Dalam kategori kedua, kami menguji model berdasarkan grafik koherensi leksikal. Ini adalah cara mewakili kalimat sebagai node dalam grafik dan menghubungkan kalimat yang berisi pasangan kata -kata yang sama. Misalnya, jenis model ini akan menghubungkan kalimat yang berisi "mobil" dan kalimat yang berisi "truk" karena kedua kalimat mungkin tentang kendaraan atau transportasi.

Dalam kategori ketiga adalah jaringan saraf, atau pembelajaran mendalam, model. Kami menguji beberapa di antaranya, termasuk dua model baru yang dibangun oleh tim tata bahasa. Ini adalah sistem berbasis AI yang mempelajari representasi dari setiap kalimat yang menangkap maknanya, dan mereka dapat mempelajari makna umum dari dokumen dengan menggabungkan representasi kalimat ini. Mereka dapat mencari pola yang tidak terbatas pada kejadian entitas atau pasangan kata serupa.
Tugas Pemesanan Kalimat
Kami menggunakan teks koherensi tinggi dari korpus baru kami untuk membuat tugas pemesanan kalimat untuk ketiga jenis model. Kami menemukan bahwa model yang berkinerja baik pada dataset pemesanan kalimat lain juga berkinerja baik pada dataset kami, dengan kinerja setinggi akurasi 89 persen. Model berbasis entitas dan grafik koherensi leksikal menunjukkan akurasi yang layak (umumnya 60 hingga 70 persen akurasi), tetapi itu adalah model saraf yang mengungguli model lain dengan setidaknya sepuluh poin persentase pada tiga dari empat domain.
Tes Penulisan Nyata
Yang benar -benar ingin kami ketahui adalah apakah salah satu dari model ini dapat melakukan pada tingkat akurasi yang sama pada teks yang ditulis secara alami. Kami mengubah label annotator menjadi nilai numerik (rendah = 1, medium = 2, tinggi = 3) dan rata -rata angka bersama untuk mendapatkan skor koherensi untuk setiap bagian teks.
Di setiap domain, setidaknya salah satu sistem berbasis jaringan saraf mengungguli yang lainnya. Faktanya, salah satu model Grammarly yang memperhitungkan paragraf terobosan adalah pemain terbaik pada teks dari Yahoo Answers, seperti yang ditunjukkan pada tabel di bawah ini. Model klik saraf, yang dikembangkan oleh para peneliti di Stanford, juga merupakan pemain yang kuat.

Tetapi hipotesis asli kami benar: semua model berkinerja lebih buruk pada tugas dunia nyata daripada yang mereka lakukan pada tugas pesanan kalimat-beberapa jauh lebih buruk. Misalnya, metode grafik leksikal adalah 78 persen akurat untuk email perusahaan dalam skenario pemesanan ulang kalimat buatan, tetapi hanya berhasil mencapai 45 persen dalam evaluasi yang lebih realistis ini.
Apa yang kami temukan
Ternyata pekerjaan sebelumnya pada koherensi wacana telah menguji hal yang salah. Tugas pesanan kalimat jelas bukan proxy yang baik untuk mengukur koherensi wacana. Hasil kami jelas: sistem yang berkinerja baik dalam skenario buatan jauh lebih buruk pada teks dunia nyata.
Penting untuk dicatat bahwa temuan ini bukanlah kemunduran. Jauh dari itu, sebenarnya. Bagian dari menumbuhkan bidang apa pun adalah mengevaluasi bagaimana Anda mengevaluasi - berhenti sesekali untuk melihat apa yang sebenarnya Anda ukur. Karena pekerjaan ini, para peneliti yang bekerja pada koherensi wacana sekarang memiliki dua informasi penting. Salah satunya adalah wawasan bahwa tugas pemesanan kalimat seharusnya tidak lagi menjadi cara kita mengukur akurasi. Yang kedua adalah korpus teks dunia nyata yang tersedia untuk umum dan tolok ukur baru (model saraf kami) untuk digunakan dalam penelitian di masa depan.
Melihat ke depan
Ada lebih banyak pekerjaan yang harus dilakukan dan banyak aplikasi menarik untuk sistem yang dapat dengan andal menilai koherensi wacana dalam sepotong teks. Suatu hari, sistem seperti ini tidak hanya memberi tahu Anda seberapa koheren pesan Anda secara keseluruhan tetapi juga menunjukkan bagian -bagian spesifik yang mungkin sulit diikuti. Suatu hari nanti kami berharap dapat membantu Anda membuat bagian -bagian itu lebih mudah dipahami sehingga apa yang Anda coba katakan jelas bagi penerima Anda.
Lagi pula, jalan Tata Bahasa untuk menjadi asisten komunikasi yang komprehensif bukan hanya tentang memastikan tulisan Anda secara tata bahasa dan gaya akurat - ini tentang memastikan Anda dipahami sebagaimana dimaksud.
—-
Joel Tetreault adalah Direktur Penelitian di Grammarly. Alice Lai adalah mahasiswa PhD di University of Illinois di Urbana-Champaign dan merupakan magang riset di Grammarly. Penelitian ini akan dipresentasikan pada Konferensi Tahunan Sigdial 2018 di Melbourne, Australia, 12-14 Juli 2018. Makalah penelitian yang menyertainya, berjudul "Koherensi Wacana di Liar: Dataset, Evaluasi, dan Metode" akan diterbitkan dalam proses pertemuan tahunan ke-19 kelompok kepentingan khusus tentang wacana dan dialog. Dataset yang dijelaskan dalam posting blog ini disebut The Grammarly Corpus of Discourse Coherence dan gratis untuk diunduh untuk tujuan penelitian di sini.
