Dilbilgisinde kaputun altında: AI ile dağınık yazıyı tespit etmek

Yayınlanan: 2018-07-10

Ne zaman bir cümleden daha uzun bir şey yazdığınızda, düşüncelerinizi nasıl organize edeceğiniz ve sunacağınız konusunda kararlar vermeniz gerekir. İyi yazıyı anlamak kolaydır, çünkü her cümle ondan önce gelenlere dayanır. Konu değiştiğinde, güçlü yazarlar okuyuculara bir sonraki adımda ne bekleyeceklerini söylemek için tabelalar olarak geçiş cümleleri ve paragraf kırılmalarını kullanırlar.

Dilbilimciler, söylem tutarlılığını yazmanın bu yönünü söylerler ve bu hafta Avustralya'nın Melbourne kentindeki Sigdial Konferansı'nda yer alacak olan dilbilgisi araştırma ekibinden bazı harika yeni araştırmaların konusudur.

Söylem tutarlılığı nedir ve neden bunu umursasın?

Bir metnin yüksek düzeyde söylem tutarlılığına sahip olduğunu söylediğimizde, tüm cümlelerin mantıklı olarak birbirine bağlandığını kastediyoruz. Yazar konu dışı değil. Farklı noktalar geçişlerle bağlanır. Metnin başından sonuna kadar takip edilmesi kolaydır.

Bu tür bir organizasyon her zaman doğal olarak gelmez. Çok azımız fikirlerin mükemmel doğrusal ilerlemelerini düşünüyoruz. Başkalarının takip etmek için mücadele edeceği ve sonunda bunu nasıl düzelteceğini öne sürecek bir şey yazdığınızda otomatik olarak söyleyebilecek bir sistem, ne demek istediğinizi iletmek için çok yararlı olacaktır.

Ne yapıldı

Bir bilgisayara metnin tutarlılık seviyesini doğru bir şekilde değerlendirmeleri için öğretmek zordur. Bugüne kadar, bir bilgisayar oranının söylem tutarlılığının bir cümle sipariş görevine dayandığını değerlendirmenin en yaygın yöntemi. Bu yöntemle, araştırmacılar bir haber makalesi gibi mevcut, iyi düzenlenmiş bir metin parçasını alırlar ve tüm cümleleri rastgele yeniden sıralarlar. Varsayım, rastgele permütasyonun tutarsız olarak görülebileceği ve orijinal siparişin tutarlı olarak görülebileceğidir. Görev, tutarsız versiyon ile orijinal arasında ayrım yapabilen bir bilgisayar algoritması oluşturmaktır. Bu koşullar altında, bazı sistemler yüzde 90'a kadar ulaşmıştır. Oldukça etkileyici.

Ancak bu yöntemle büyük bir potansiyel kusur var. Belki zaten fark ettin. Rastgele yeniden sıralama cümleleri düşük tutarsız bir metin üretebilir, ancak bir insanın doğal olarak yazacağı herhangi bir şeye benzeyen metin üretmez.

Dilbilgisi olarak, gerçek dünya sorunlarını çözmeye odaklandık, bu yüzden bu alanda yaptığımız herhangi bir çalışmanın yapay senaryolara değil gerçek yazmaya karşı karşılaştırılması gerektiğini biliyorduk. Şaşırtıcı bir şekilde, sıradan koşullar altında insanlar tarafından yazılan gerçek metin üzerinde söylem değerlendirme yöntemlerini test eden çok az iş vardı. Bunu değiştirme zamanı.

Gerçek Dünya Araştırmaları, Gerçek Dünya Yazarları

Çözmemiz gereken ilk sorun, söylem tutarlılığı üzerinde çalışan diğer tüm araştırmacının karşılaştığı sorundu: gerçek dünya verilerinin eksikliği. Algoritmalarımızı test edebileceğimiz mevcut sıradan, doğal olarak yazılmış bir metin topluluğu yoktu.

Birkaç kamu kaynağından metin toplayarak bir corpus oluşturduk: Yahoo Cevapları, Yelp incelemeleri ve halka açık hükümet ve kurumsal e -postalar. Bu özel kaynakları seçtik çünkü insanların tipik bir günde yazdığı şeyleri temsil ediyorlar - forum yayınları, incelemeleri ve e -postalar.

Tüm bu metni bilgisayar algoritmalarının öğrenebileceği bir ceset haline getirmek için, her metnin tutarlılık seviyelerini de derecelendirmemiz gerekiyordu. Bu işleme ek açıklama denir. Algoritmanız ne kadar iyi olursa olsun, özensiz ek açıklama sonuçlarınızı büyük ölçüde eğecektir. Makalemizde, kitle kaynak kullanımı içeren bazıları da dahil olmak üzere test ettiğimiz birçok ek açıklama yaklaşımı hakkında ayrıntılar sunuyoruz. Nihayetinde uzman açıklamacılarının her bir metnin tutarlılık seviyesini üç noktalı bir ölçekte (düşük, orta veya yüksek tutarlılık) derecelendirmeye karar verdik. Her bir metin parçası üç Annotator tarafından değerlendirildi.

Algoritmaları test etmek

Corpus'a sahip olduğumuzda, çeşitli bilgisayar sistemlerinin belirli bir metnin tutarlılık seviyesini ne kadar doğru bir şekilde tanımlayabileceğini test etmenin zamanı gelmişti. Üç tür sistemi test ettik:

İlk kategoride varlık tabanlı modeller vardır. Bu sistemler, aynı varlıkların bir metinde nerede ve ne sıklıkta belirtildiğini izler. Örneğin, sistem çeşitli cümlelerde “ulaşım” kelimesini bulursa, bu cümlelerin mantıksal olarak birbiriyle ilişkili olduğuna dair bir işaret olarak alır.

İkinci kategoride, sözcüksel bir tutarlılık grafiğine dayanan bir modeli test ettik. Bu, cümleleri bir grafikte düğüm olarak temsil etmenin ve benzer kelimelerin çiftleri içeren cümleleri birbirine bağlamanın bir yoludur. Örneğin, bu tür bir model “araba” içeren bir cümleyi ve “kamyon” içeren bir cümleyi birbirine bağlayacaktır, çünkü her iki cümle de muhtemelen araçlar veya ulaşımla ilgilidir.

Üçüncü kategoride sinir ağı veya derin öğrenme modelleri vardır. Grammarly ekibi tarafından inşa edilen iki yepyeni model de dahil olmak üzere bunlardan birkaçını test ettik. Bunlar, anlamını yakalayan her cümlenin temsilini öğrenen AI tabanlı sistemlerdir ve bu cümle temsillerini birleştirerek bir belgenin genel anlamını öğrenebilirler. Varlık oluşumları veya benzeri kelime çiftleri ile sınırlı olmayan kalıpları arayabilirler.

Cümle Sipariş Görevi

Her üç model türü için bir cümle sipariş görevi oluşturmak için yeni topluluğumuzdan yüksek tutarlılık metinlerini kullandık. Diğer cümle siparişi veri kümelerinde iyi performans gösteren modellerin, veri kümemizde de iyi performans gösterdiğini ve performanslar yüzde 89'a kadar doğrulukla iyi performans gösterdiğini bulduk. Varlık tabanlı modeller ve sözcüksel tutarlılık grafikleri iyi bir doğruluk gösterdi (genellikle yüzde 60 ila 70 doğruluk), ancak diğer modelleri dört alandan üçünde en az yüzde on puan daha iyi performans gösteren nöral modellerdi.

Gerçek Yazma Testi

Gerçekten bilmek istediğimiz şey, bu modellerden herhangi birinin gerçek, doğal olarak yazılmış metin üzerinde aynı doğruluk düzeyinde olup olamayacağıydı. Annotatorların etiketlerini sayısal değerlere (düşük = 1, orta = 2, yüksek = 3) dönüştürdük ve her bir metin parçası için bir tutarlılık puanı elde etmek için sayıları ortalama olarak ortalama.

Her alanda, sinir ağı tabanlı sistemlerden en az biri diğerlerinden daha iyi performans gösterdi. Aslında, Grammarly'nin paragraf molalarını dikkate alan modellerinden biri, aşağıdaki tabloda gösterildiği gibi, Yahoo Cevaplarından metinlerin en iyi performans sergiledi. Stanford'daki araştırmacılar tarafından geliştirilen nöral klik modeli de güçlü bir sanatçıydı.

Ancak orijinal hipotezimiz doğruydu: tüm modeller gerçek dünya görevinde cümle emri görevinde olduğundan daha kötü performans gösterdi-bazıları çok daha kötüydü. Örneğin, sözcüksel grafik yöntemi, yapay cümle yeniden sıralama senaryosundaki kurumsal e -postalar için yüzde 78 doğruydu, ancak bu daha gerçekçi değerlendirmede sadece yüzde 45 elde etmeyi başardı.

Ne bulduk

Söylem tutarlılığı konusundaki önceki çalışmaların yanlış şeyi test ettiği ortaya çıkıyor. Cümle emri görevi, söylem tutarlılığını ölçmek için kesinlikle iyi bir vekil değildir. Sonuçlarımız açıktır: Yapay senaryoda iyi performans gösteren sistemler gerçek dünya metninde çok daha kötüdür.

Bu bulgunun bir aksilik olmadığını belirtmek önemlidir. Aslında ondan uzak. Herhangi bir alanı büyütmenin bir kısmı, nasıl değerlendirdiğinizi değerlendirmektir - gerçekten neyi ölçtüğünüze bir göz atmak için arada bir seçim yapmak. Bu çalışma nedeniyle, söylem tutarlılığı üzerinde çalışan araştırmacıların artık iki önemli bilgisi var. Birincisi, cümle emri görevinin artık doğruluğu ölçme şeklimizin olmaması gerektiğinin içgörüdür. İkincisi, gelecekteki araştırmalarda kullanılacak halka açık, gerçek dünya metni ve yeni ölçütler (nöral modellerimiz).

İleriye dönük

Yapılması gereken daha fazla iş ve bir metin parçasında söylem tutarlılığını güvenilir bir şekilde değerlendirebilen bir sistem için birçok heyecan verici uygulama var. Bir gün, böyle bir sistem sadece genel mesajınızın ne kadar tutarlı olduğunu da söyleyemeyecek, aynı zamanda takip edilmesi zor olabilecek belirli pasajlara da dikkat çekebilir. Bir gün, bu pasajların anlaşılmasını kolaylaştırmanıza yardımcı olmayı umuyoruz, böylece söylemeye çalıştığınız şey alıcınıza açık.

Sonuçta, Grammarly'nin kapsamlı bir iletişim asistanı olma yolu, sadece yazınızın dilbilgisi ve stilistik olarak doğru olduğundan emin olmakla ilgili değil - amaçlandığınız gibi anlaşılmanızı sağlamakla ilgilidir.

---

Joel Tetreault, Grammarly Araştırma Direktörüdür. Alice Lai, Urbana-Champaign'daki Illinois Üniversitesi'nde doktora öğrencisidir ve Grammarly'de bir araştırma stajyeridir. Bu araştırma, 12-14 Temmuz 2018 tarihli Avustralya, Melbourne, Avustralya'daki Sigdial 2018 Yıllık Konferansı'nda sunulacak. “Vahşi doğada söylem tutarlılığı: veri kümesi, değerlendirme ve yöntemler” başlıklı, özel ilgi grubunun 19. Yıllık Toplantısının Söylem ve Diyalog toplantısında yayınlanacaktır. Bu blog gönderisinde açıklanan veri kümesine, Dilbilgisi Söylem Tutarlılığının Corpus'u denir ve burada araştırma amacıyla indirmek için ücretsizdir.