在語法上的引擎蓋下:與AI一起檢測雜亂無章的寫作

已發表: 2018-07-10

每當您寫一些比句子更長的東西時,您都需要就如何組織和提出您的想法做出決定。好的寫作很容易理解,因為每個句子都建立在之前的句子上。當主題發生變化時,強大的作家使用過渡句子和段落中斷作為路標,以告訴讀者下一步會有什麼期望。

語言學家稱之為寫作話語連貫性的這一方面,這是語法研究團隊的一些很酷的新研究的主題,該研究將在本週在澳大利亞墨爾本舉行的Sigdial會議上出現。

什麼是一致性的,為什麼要關心它?

當我們說文本具有很高的話語連貫性時,我們的意思是所有句子都邏輯上鍊接在一起。作者不會偏離主題。不同點通過過渡連接。本文從頭到尾都很容易遵循。

這種類型的組織並不總是自然而然的。我們很少有人在思想的完美線性發展中思考。一個可以自動告訴您的系統何時寫一些其他人會努力遵循,並最終建議如何解決此問題,這將非常有幫助,以傳達您的意思。

做了什麼

教計算機以準確判斷文本的連貫性水平是具有挑戰性的。迄今為止,評估計算機費用話語一致性的最常見方法是基於句子訂購任務。通過這種方法,研究人員會採用現有的,經過良好編輯的文本,例如新聞文章,並隨機重新排序所有句子。假設是可以將隨機排列視為不一致的,並且可以將原始訂購視為連貫。任務是構建一個可以區分不一致版本和原始版本的計算機算法。在這些條件下,某些系統的精度高達90%。令人印象深刻。

但是這種方法存在很大的潛在缺陷。也許您已經發現了它。隨機重新排序的句子可能會產生低相連的文本,但不會產生看起來像人類自然寫的任何東西的文本。

在Grammarly,我們專注於解決現實世界中的問題,因此我們知道,我們在這一領域所做的任何工作都需要根據真實寫作而不是人工場景進行基準測試。令人驚訝的是,在普通情況下,人們對人撰寫的真實文本的話語評估方法很少。是時候改變了。

現實世界研究,現實世界作家

我們必須解決的第一個問題與其他每個從事話語連貫性的研究人員面臨的問題相同:缺乏現實世界數據。我們沒有現有的普通,自然寫的文本語料庫,我們可以測試我們的算法。

我們通過從幾個公共資源中收集文字​​​​來創建一個語料庫:雅虎答案,Yelp評論以及公開可用的政府和公司電子郵件。我們之所以選擇這些特定的來源,是因為它們代表了人們在典型的一天中寫的內容(Forum帖子,評論和電子郵件)。

為了將所有這些文本變成計算機算法可以學習的語料庫,我們還需要對每個文本的相干級別進行評分。此過程稱為註釋。無論您的算法有多好,草率的註釋都會大大偏向您的結果。在我們的論文中,我們提供了有關我們測試過的許多註釋方法的詳細信息,包括一些涉及眾包的方法。我們最終決定讓專家註釋以三分尺度(低,中或高相干性)評價每個文本的相干水平。每個文本都由三個註釋者判斷。

將算法列入測試

一旦我們擁有語料庫,就該測試各種計算機系統可以確定給定文本的連貫級別的準確程度。我們測試了三種類型的系統:

在第一類中是基於實體的模型。這些系統跟踪文本中提到相同實體的位置和頻率。例如,如果系統在幾個句子中找到“運輸”一詞,則將其視為這些句子在邏輯上相互關聯的跡象。

在第二類中,我們測試了基於詞彙相干圖的模型。這是將句子表示為圖中節點的一種方式,並連接包含一對相似單詞的句子。例如,這種類型的模型將連接包含“汽車”的句子和一個包含“卡車”的句子,因為這兩個句子都可能與車輛或運輸有關。

第三類是神經網絡或深度學習模型。我們測試了其中的幾個,包括格拉馬利團隊建立的兩種全新車型。這些是基於AI的系統,可以學習每個句子捕獲其含義的表示,並且可以通過結合這些句子表示來了解文檔的一般含義。他們可以尋找不限於實體出現或類似單詞對的模式。

句子排序任務

我們使用了新語料庫中的高穩態文本來為所有三種類型的模型創建句子訂購任務。我們發現,在其他句子訂購數據集上表現良好的模型在我們的數據集上也表現良好,其性能高達89%。基於實體的模型和詞彙相干圖顯示了體面的準確性(通常為60%至70%的精度),但正是神經模型的表現使其他模型的表現在四個域中的三個域中的三個範圍中至少高出10個百分點。

真正的寫作測試

我們真正想知道的是,這些模型中的任何一個是否都可以在真實的,自然寫的文本上以相同的準確性執行。我們將註釋者的標籤轉換為數值(低= 1,中= 2,high = 3),並將數字平均在一起以獲得每片文本的相干分數。

在每個域中,至少一個基於神經網絡的系統的表現優於其他所有系統。實際上,考慮到段落中斷的語法模型之一是Yahoo Answers的文本表現最好的,如下表所示。由斯坦福大學的研究人員開發的神經集團模型也是一個強大的表現。

但是我們最初的假設是正確的:所有模型在現實世界任務上的表現都比在句子順序任務上所做的要差 - 有些更糟糕。例如,在人工句子重新排序方案中,詞彙圖方法對於公司電子郵件的準確性為78%,但在這種更現實的評估中,它僅設法實現了45%。

我們發現的

事實證明,以前關於話語連貫性的工作一直在測試錯誤的事情。句子順序任務絕對不是衡量話語連貫性的好代理。我們的結果很明確:在人工場景中表現良好的系統在現實世界文本上會更糟。

重要的是要注意,這一發現不是挫折。實際上,遠非如此。任何領域發展的一部分是在評估您的評估方式 - 不時地漫步,以查看您真正衡量的內容。由於這項工作,從事話語一致性的研究人員現在有兩個重要的信息。一個是洞察力,即句子排序任務不再應該是我們衡量準確性的方式。第二個是現實世界文本和新基準(我們的神經模型)的公開可用的語料庫,可用於未來的研究。

期待

對於一個可以可靠地判斷文本中的話語連貫性的系統,還有許多令人興奮的應用程序還有更多的工作和許多令人興奮的應用程序。有一天,這樣的系統不僅可以告訴您您的總體信息有多連貫,而且還指出了可能很難遵循的特定段落。有一天,我們希望幫助您使這些段落更容易理解,以便您要說的話對收件人很清楚。

畢竟,Grammarly成為一名全面的交流助手的道路不僅僅是確保您的寫作在語法上和風格上是準確的,而是要確保您按預期理解。

- -

Joel Tetreault是Grammarly的研究總監。愛麗絲·萊(Alice Lai)是伊利諾伊大學Urbana-Champaign大學的博士生,並且是Grammarly的研究實習生。這項研究將在2018年7月12日至14日在澳大利亞墨爾本舉行的SIGDIAL 2018年度會議上發表。隨附的研究論文,題為“野外的話語連貫:數據集,評估和方法”將在第19屆專輯小組的年度會議論文集上發表。此博客文章中描述的數據集稱為語法語言語料庫連貫性,可以在此處免費下載。