在語法上的引擎蓋下:用AI改變寫作風格

已發表: 2018-05-31

當您需要給您寫的人留下深刻印象時,您說的不是您唯一需要考慮的事情。你說的通常同樣重要。選擇正確的形式性可能是一個特殊的挑戰 - 高度依賴上下文,您通常必須猜測收件人如何解釋您的語氣。

想像您正在寫求職信。如果您有一個可以檢測到您的寫作太隨意的工具(有時甚至更糟,太正式)的工具會改變多少?突然,您關於如何說要說的話的決定變得不那麼陰暗。您不僅要依靠收件人如何看待您的消息的猜測,而且您有一種算法,該算法正在藉鑑許多您個人沒有的數據。更進一步,如果此工具不僅可以告訴您何時關閉,而且實際上為您提供了您的收件人更喜歡的替代措辭怎麼辦?

讓計算機自動將一件寫作從一種樣式轉換為另一種樣式的過程稱為樣式轉移,這是我與同事Sudha Rao一起寫的一篇論文的主題。這是我們在語法上特別感興趣的領域,因為我們知道以正確的方式進行交流是多麼重要。

如果您想知道語法研究人員如何構建為您提供寫作建議的系統,請繼續閱讀。

形式的非正式背景

在深入了解我們的算法的細節之前,讓我們看看非正式語言與正規語言的示例。

非正式:必須看故事的兩面

正式:您必須看到故事的兩面。

這些句子之間有兩個明顯的區別。第一個句子的末尾的使用(“ gotta”)和缺乏標點符號信號非正式性。有一個時間和一個句子的地方 - 例如,朋友之間的短信交換。

當我們查看人類如何以更正式的風格重寫非正式句子時,我們發現他們最頻繁的變化涉及大寫,標點符號和口語化。我們還注意到,人類有時必須對句子進行更嚴厲的重寫以改善形式:

非正式:您什麼時候參加會議?

正式:請讓我知道您何時參加會議。

但是,我們如何教計算機像上面的計算機一樣進行編輯?有幾種解決問題的方法。

我們使用的一個承認,教授計算機在寫作樣式之間翻譯的方式類似於教給它以翻譯語言。這種方法稱為機器翻譯,其中一台計算機自動從一種語言(例如法語)轉換為另一種語言(德語)。因此,在解決樣式轉移問題時,從翻譯模型開始或在我們的情況下是多種模型是有意義的。

什麼是翻譯模型?

AI最近的突破之一是使用深度學習或神經網絡,用於構建機器翻譯模型的技術。

神經機器翻譯(NMT)模型可以學習句子基本含義的表示。這有助於模型學習複雜的句子模式,使翻譯流利,其含義忠於原始句子。

較舊的機器翻譯方法,例如基於規則或基於短語的模型(PBMT),將句子分解為較小的單元,例如單詞或短語,並獨立翻譯它們。這可能會導致翻譯中的語法錯誤或荒謬的結果。但是,這些模型更容易調整,並且傾向於更保守,這可能是一個優勢。例如,我們可以輕鬆地合併將lang語變成標准單詞的規則。

我們研究了幾種機器翻譯的方法,以查看哪種在樣式轉移方面最好。

建立模型

NMT和PBMT充滿了挑戰,其中最重要的是找到一個良好的數據集來培訓您的模型。在這種情況下,我們估計我們需要數十萬個非正式和正式句子對的數據集。理想情況下,您會用數百萬個句子對訓練模型,但是由於樣式轉移是自然語言處理領域的一個相當新的領域,因此實際上我們無法使用現有的數據集。因此,我們創建了一個。

我們首先收集非正式句子。我們從雅虎公開發布的問題和回答中獲取句子。答案。我們從該集合中自動選擇了十萬個非正式句子,並使用預定義的標準再次使用正式語言重寫每個團隊。 (請查看我們的論文以獲取有關此過程的詳細信息。)

擁有數據集後,您可以開始培訓模型。訓練該模型意味著給它很多“來源”句子(在我們的情況下,非正式句子),以及許多“目標”句子,對我們來說是正式的重寫。然後,模型的算法尋找模式,以找出如何從源到目標的方式。它擁有的數據越多,它學越好。

在我們的情況下,該模型有十萬個非正式句子及其正式改寫以供學習。我們還嘗試了創建人工形式數據以增加培訓數據集規模的不同方式,因為NMT和PBMT模型通常需要更多數據才能表現良好。

但是,您還需要一種方法來評估模型完成其任務的能力。句子的含義改變了嗎?新句子在語法上是否正確?它實際上更正式嗎?那裡有分類器 - 可以自動評估語氣和寫作風格的句子的程序 - 我們測試了一些學術界最常用的句子。但是,它們都不是非常準確的。因此,我們最終讓人類比較了我們測試的各種模型的輸出,並通過形式,準確性和流利度對其進行排名。

我們向我們的團隊展示了原始的非正式句子,來自幾種不同模型的輸出以及人類的重寫。我們沒有告訴他們誰或什麼是什麼句子。然後,他們對重寫進行了排名,允許聯繫。理想情況下,最好的模型將與人類改寫相比甚至更好。總的來說,團隊得分了500個非正式句子的重寫。

我們發現的

總而言之,我們測試了數十個模型,但我們將重點關注最高模型:基於規則的,基於短語的(PBMT),基於神經網絡(NMT)和一對結合各種方法的夫婦。

人類的重寫得分最高,但PBMT和NMT模型並沒有落後。實際上,在幾種情況下,人類更喜歡模型輸出而不是人類。這兩個模型進行了更廣泛的重寫,但它們傾向於改變原始句子的含義。

另一方面,基於規則的模型進行了較小的更改。這意味著他們更擅長保留意義,但是他們製作的句子的正式程度不那麼正式。與更長的句子相比,所有模型的處理時間都更容易。

以下是一個非正式句子的示例,其人類和模型重寫。在這種特殊情況下,這是最後一個模型(具有PBMT翻譯的NMT)在形式,含義和自然詞句之間取得了最佳平衡。

原始非正式:我幾乎看不到他在學校里通常看到他的兄弟籃球比賽。

人類改寫:我幾乎從未見過他在學校。我通常和我的兄弟一起打籃球。

基於規則的模型:我幾乎看不到他在學校里通常看到他的兄弟籃球比賽。

PBMT模特:我也幾乎看不到他在學校,但是我的兄弟籃球比賽。

NMT模特:我很少在學校見到他,要么我在哥哥的籃球比賽中見到他。

NMT(接受了其他PBMT生成的數據培訓):我很少在學校見到他,通常我在我的兄弟籃球比賽中見到他。

樣式轉移是自然語言處理的一個令人興奮的新領域,具有廣泛的應用程序。我一開始就假設的那個工具 - 可以幫助您弄清楚如何說出您需要說些什麼的工具?仍然有很多工作要做,但是這種工具是可能的,對於求職者,語言學習者以及任何需要通過寫作給某人留下良好印象的人來說,這是無價的。我們希望通過公開數據,我們和該領域的其他人將有一種方法可以相互基準並向前進。

至於語法,這項工作是我們朝著創建一個全面的溝通助手的願景的又一步,可以幫助您的信息按預期理解。

Joel Tetreault是Grammarly的研究總監。 Sudha Rao是馬里蘭大學的博士生,是Grammarly的研究實習生。 Joel and Sudha will be presenting this research at the 16th Annual Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies in New Orleans, June 1-6, 2018. The accompanying research paper, entitled “Dear Sir or Madam, May I Introduce the GYAFC Dataset: Corpus, Benchmarks and Metrics for Formality Style Transfer,” will be published in the Proceedings of the NAACL.