ภายใต้ประทุนที่ไวยากรณ์: เปลี่ยนสไตล์การเขียนด้วย AI

เผยแพร่แล้ว: 2018-05-31

เมื่อคุณต้องการสร้างความประทับใจให้กับคนที่คุณเขียนถึงสิ่งที่คุณพูดไม่ใช่สิ่งเดียวที่คุณต้องคิด คุณพูดได้อย่างไรว่ามันมักจะสำคัญพอ ๆ กับ การเลือกระดับที่เหมาะสมของพิธีการอาจเป็นความท้าทายเฉพาะ-มันขึ้นอยู่กับบริบทอย่างมากและคุณมักจะต้องคาดเดาว่าผู้รับของคุณจะตีความน้ำเสียงของคุณอย่างไร

ลองนึกภาพคุณกำลังเขียนจดหมายสมัครงาน การเปลี่ยนเกมจะเป็นอย่างไรถ้าคุณมีเครื่องมือที่สามารถตรวจจับได้ว่าเมื่องานเขียนของคุณไม่เป็นทางการ (หรือบางครั้งก็แย่กว่านั้นเป็นทางการเกินไป)? ทันใดนั้นการตัดสินใจของคุณเกี่ยวกับวิธีการพูดในสิ่งที่คุณพยายามจะพูดกลายเป็นมืดมนน้อยลง คุณไม่เพียง แต่พึ่งพาการคาดเดาเกี่ยวกับวิธีที่ผู้รับของคุณจะรับรู้ข้อความของคุณ - คุณมีอัลกอริทึมที่วาดบนข้อมูลจำนวนมากที่คุณไม่มี ก้าวไปอีกขั้นถ้าเครื่องมือนี้ไม่เพียง แต่บอกคุณได้เมื่อมีบางสิ่งออกไป แต่จริง ๆ แล้วเสนอวลีทางเลือกให้คุณที่ผู้รับของคุณต้องการดีกว่า?

กระบวนการของการรับคอมพิวเตอร์เพื่อแปลงชิ้นส่วนของการเขียนจากรูปแบบหนึ่งไปอีกสไตล์หนึ่งโดยอัตโนมัติเรียกว่าสไตล์การถ่ายโอนและเป็นเรื่องของบทความที่กำลังจะมาถึงที่ฉันเขียนกับเพื่อนร่วมงานของฉัน Sudha Rao มันเป็นพื้นที่ที่น่าสนใจเป็นพิเศษสำหรับเราที่นี่ที่ไวยากรณ์เพราะเรารู้ว่ามันสำคัญแค่ไหนในการสื่อสารวิธีที่ถูกต้อง

หากคุณเคยสงสัยว่าวิศวกรวิจัยที่สร้างระบบที่ให้คำแนะนำในการเขียนให้คุณอ่าน

พื้นหลังที่ไม่เป็นทางการเกี่ยวกับพิธีการ

ก่อนที่จะดำน้ำในรายละเอียดของอัลกอริทึมของเราลองมาดูตัวอย่างของภาษาที่ไม่เป็นทางการและเป็นทางการ

ไม่เป็นทางการ: ต้องเห็นทั้งสองด้านของเรื่องราว

เป็นทางการ: คุณต้องเห็นทั้งสองด้านของเรื่องราว

มีความแตกต่างที่ชัดเจนระหว่างประโยคเหล่านี้ การใช้คำสแลง (“ Gotta”) และการขาดเครื่องหมายวรรคตอนในตอนท้ายของประโยคแรกสัญญาณอย่างไม่เป็นทางการ มีเวลาและสถานที่สำหรับประโยคประเภทนี้ - การแลกเปลี่ยนข้อความระหว่างเพื่อนเป็นต้น

เมื่อเราดูว่ามนุษย์เขียนประโยคที่ไม่เป็นทางการในรูปแบบที่เป็นทางการมากขึ้นเราพบว่าการเปลี่ยนแปลงที่พบบ่อยที่สุดที่พวกเขาทำเกี่ยวข้องกับการใช้อักษรตัวพิมพ์ใหญ่เครื่องหมายวรรคตอนและภาษาพูด นอกจากนี้เรายังสังเกตเห็นว่าบางครั้งมนุษย์ต้องทำการเขียนประโยคใหม่อย่างรุนแรงมากขึ้นเพื่อปรับปรุงพิธีการ:

ไม่เป็นทางการ: เมื่อไหร่ที่คุณจะเข้าร่วมการประชุม?

เป็นทางการ: โปรดแจ้งให้เราทราบเมื่อคุณจะเข้าร่วมการประชุม

แต่เราจะสอนคอมพิวเตอร์ให้แก้ไขเช่นเดียวกับที่ด้านบนได้อย่างไร? มีหลายวิธีในการเข้าใกล้ปัญหา

สิ่งที่เราใช้ยอมรับว่าการสอนคอมพิวเตอร์เพื่อแปลระหว่างรูปแบบการเขียนนั้นคล้ายกับการสอนเพื่อแปลภาษา วิธีการนี้เรียกว่าการแปลของเครื่องโดยที่คอมพิวเตอร์แปลโดยอัตโนมัติจากภาษาหนึ่ง (เช่นภาษาฝรั่งเศส) ไปยังอีกภาษาหนึ่ง (เยอรมัน) ดังนั้นเมื่อจัดการกับปัญหาการถ่ายโอนสไตล์มันสมเหตุสมผลที่จะเริ่มต้นด้วยรูปแบบการแปล - หรือในกรณีของเราหลายรุ่น

รูปแบบการแปลคืออะไร?

หนึ่งในความก้าวหน้าล่าสุดใน AI คือการใช้การเรียนรู้อย่างลึกซึ้งหรือเครือข่ายประสาทซึ่งเป็นเทคนิคสำหรับการสร้างแบบจำลองการแปลเครื่องจักร

โมเดลการแปลของเครื่องประสาท (NMT) สามารถเรียนรู้การเป็นตัวแทนของความหมายพื้นฐานของประโยค สิ่งนี้จะช่วยให้แบบจำลองเรียนรู้รูปแบบประโยคที่ซับซ้อนเพื่อให้การแปลเป็นไปอย่างคล่องแคล่วและความหมายของมันนั้นซื่อสัตย์ต่อประโยคดั้งเดิม

แนวทางที่เก่ากว่าในการแปลเครื่องจักรเช่นโมเดลตามกฎหรือวลี (PBMT) แบ่งประโยคออกเป็นหน่วยเล็ก ๆ เช่นคำหรือวลีและแปลพวกเขาอย่างอิสระ สิ่งนี้สามารถนำไปสู่ข้อผิดพลาดทางไวยากรณ์หรือผลลัพธ์ที่ไร้สาระในการแปล อย่างไรก็ตามโมเดลเหล่านี้ง่ายต่อการปรับแต่งและมีแนวโน้มที่จะอนุรักษ์มากขึ้น - ซึ่งอาจเป็นข้อได้เปรียบ ตัวอย่างเช่นเราสามารถรวมกฎที่เปลี่ยนคำสแลงเป็นคำมาตรฐานได้อย่างง่ายดาย

เราดูวิธีการที่แตกต่างกันหลายวิธีในการแปลเครื่องเพื่อดูว่าการถ่ายโอนแบบไหนดีที่สุด

การสร้างแบบจำลอง

NMT และ PBMT เต็มไปด้วยความท้าทายไม่ใช่อย่างน้อยก็คือการหาชุดข้อมูลที่ดีในการฝึกอบรมโมเดลของคุณ ในกรณีนี้เราคาดว่าเราจะต้องมีชุดข้อมูลของคู่ประโยคที่ไม่เป็นทางการและเป็นทางการหลายแสนชุด เป็นการดีที่คุณจะฝึกอบรมแบบจำลองของคุณด้วยคู่ประโยคหลายล้านคู่ แต่เนื่องจากการถ่ายโอนสไตล์เป็นพื้นที่ที่ค่อนข้างใหม่ในด้านการประมวลผลภาษาธรรมชาติจึงไม่มีชุดข้อมูลที่มีอยู่เดิมที่เราสามารถใช้ได้ ดังนั้นเราจึงสร้างหนึ่ง

เราเริ่มต้นด้วยการรวบรวมประโยคที่ไม่เป็นทางการ เราจัดหาประโยคของเราจากคำถามและคำตอบที่โพสต์ต่อสาธารณะใน Yahoo! คำตอบ. เราเลือกประโยคที่ไม่เป็นทางการมากกว่าหนึ่งแสนประโยคจากชุดนี้และมีทีมเขียนแต่ละคนด้วยภาษาที่เป็นทางการอีกครั้งโดยใช้เกณฑ์ที่กำหนดไว้ล่วงหน้า (ตรวจสอบเอกสารของเราสำหรับรายละเอียดเกี่ยวกับกระบวนการนี้)

เมื่อคุณมีชุดข้อมูลคุณสามารถเริ่มฝึกอบรมแบบจำลองของคุณ การฝึกอบรมแบบจำลองหมายถึงการให้ประโยค“ แหล่งที่มา” มากมาย - ในกรณีของเราประโยคที่ไม่เป็นทางการ - พร้อมกับประโยค "เป้าหมาย" จำนวนมาก - สำหรับเราเหล่านี้คือการเขียนใหม่อย่างเป็นทางการ อัลกอริทึมของโมเดลจะมองหารูปแบบเพื่อหาวิธีที่จะได้รับจากแหล่งกำเนิดไปยังเป้าหมาย ยิ่งมีข้อมูลมากเท่าไหร่ก็ยิ่งเรียนรู้ได้ดีขึ้นเท่านั้น

ในกรณีของเราโมเดลมีประโยคแหล่งข้อมูลที่ไม่เป็นทางการหนึ่งแสนประโยคและการเขียนใหม่อย่างเป็นทางการเพื่อเรียนรู้จาก นอกจากนี้เรายังทดลองด้วยวิธีการต่าง ๆ ในการสร้างข้อมูลอย่างเป็นทางการเทียมเพื่อเพิ่มขนาดของชุดข้อมูลการฝึกอบรมของเราเนื่องจากโมเดล NMT และ PBMT มักจะต้องใช้ข้อมูลมากขึ้นในการทำงานได้ดี

แต่คุณยังต้องมีวิธีประเมินว่าโมเดลของคุณทำงานได้ดีเพียงใด ความหมายของประโยคเปลี่ยนไปหรือไม่? ประโยคใหม่ถูกต้องตามหลักไวยากรณ์หรือไม่? มันเป็นทางการมากกว่าจริงหรือ? มีตัวจําแนกอยู่ข้างนอก - โปรแกรมที่สามารถประเมินประโยคสำหรับเสียงและสไตล์การเขียนโดยอัตโนมัติ - และเราทดสอบบางส่วนที่ใช้กันมากที่สุดในสถาบันการศึกษา อย่างไรก็ตามไม่มีใครที่แม่นยำมาก ดังนั้นเราจึงลงเอยด้วยการมีมนุษย์เปรียบเทียบผลลัพธ์ของรุ่นต่าง ๆ ที่เราทดสอบและจัดอันดับตามพิธีการความแม่นยำและความคล่องแคล่ว

เราแสดงให้เห็นว่าทีมงานของเราเป็นประโยคที่ไม่เป็นทางการต้นฉบับเอาท์พุทจากโมเดลที่แตกต่างกันหลายแบบและการเขียนใหม่ของมนุษย์ เราไม่ได้บอกพวกเขาว่าใคร - หรืออะไร - สร้างแต่ละประโยค จากนั้นพวกเขาก็จัดอันดับการเขียนซ้ำเพื่อให้ความสัมพันธ์ ตามหลักการแล้วโมเดลที่ดีที่สุดจะผูกติดอยู่กับหรือดีกว่าการเขียนใหม่ของมนุษย์ ในทุกทีมทำคะแนนการเขียนประโยคที่ไม่เป็นทางการ 500 ประโยค

สิ่งที่เราพบ

ทั้งหมดบอกว่าเราทดสอบโมเดลหลายสิบรุ่น แต่เราจะมุ่งเน้นไปที่อันดับต้น ๆ : ตามกฎ, อิงวลี (PBMT), เครือข่ายประสาท (NMT) และคู่ที่รวมวิธีการต่าง ๆ เข้าด้วยกัน

การเขียนใหม่ของมนุษย์ทำคะแนนโดยรวมสูงสุด แต่โมเดล PBMT และ NMT นั้นไม่ได้อยู่ไกล ในความเป็นจริงมีหลายกรณีที่มนุษย์ต้องการรูปแบบการส่งออกให้กับมนุษย์ ทั้งสองรุ่นนี้ทำให้การเขียนซ้ำมากขึ้น แต่พวกเขามีแนวโน้มที่จะเปลี่ยนความหมายของประโยคดั้งเดิม

ในทางกลับกันโมเดลตามกฎทำให้เกิดการเปลี่ยนแปลงเล็กน้อย นี่หมายความว่าพวกเขาดีกว่าในการรักษาความหมาย แต่ประโยคที่พวกเขาผลิตนั้นเป็นทางการน้อยกว่า ทุกรุ่นมีเวลาในการจัดการประโยคที่สั้นกว่าที่ยาวกว่า

ต่อไปนี้เป็นตัวอย่างของประโยคที่ไม่เป็นทางการกับมนุษย์และแบบจำลองการเขียนใหม่ ในกรณีนี้มันเป็นรุ่นสุดท้าย (NMT ที่มีการแปล PBMT) ที่สร้างความสมดุลที่ดีที่สุดระหว่างพิธีการความหมายและการใช้ถ้อยคำตามธรรมชาติ

Original Inforeal: ฉันแทบจะไม่เห็นเขาในโรงเรียนโดยปกติฉันจะเห็นเกมบาสเก็ตบอลพี่น้องของฉัน

การเขียนใหม่ของมนุษย์: ฉันแทบจะไม่เคยเห็นเขาในโรงเรียนเลย ฉันมักจะเห็นเขากับพี่ชายของฉันเล่นบาสเก็ตบอล

แบบจำลองตามกฎ: ฉันแทบจะไม่เห็นเขาในโรงเรียนโดยปกติฉันจะเห็นเกมบาสเก็ตบอลของพี่น้องของฉัน

PBMT Model: ฉันแทบจะไม่เห็นเขาในโรงเรียนเช่นกัน แต่เกมบาสเก็ตบอลพี่น้องของฉัน

NMT Model: ฉันไม่ค่อยเห็นเขาในโรงเรียนไม่ว่าฉันจะเห็นเขาในเกมบาสเก็ตบอลของพี่ชายของฉัน

NMT (ได้รับการฝึกฝนเกี่ยวกับข้อมูลที่สร้างโดย PBMT เพิ่มเติม): ฉันไม่ค่อยเห็นเขาในโรงเรียนโดยปกติฉันมักจะเห็นเขาในเกมบาสเกตบอลพี่น้องของฉัน

Style Transfer เป็นพื้นที่ใหม่ที่น่าตื่นเต้นของการประมวลผลภาษาธรรมชาติโดยมีศักยภาพในการใช้งานที่แพร่หลาย เครื่องมือนั้นที่ฉันตั้งสมมติฐานในตอนแรก - เครื่องมือที่ช่วยให้คุณเข้าใจวิธีการพูดในสิ่งที่คุณต้องพูด? ยังมีงานอีกมากที่ต้องทำ แต่เครื่องมือนั้นเป็นไปได้และมันจะมีค่าสำหรับผู้หางานผู้เรียนภาษาและใครก็ตามที่ต้องการสร้างความประทับใจให้กับใครบางคนผ่านการเขียนของพวกเขา เราหวังว่าการทำให้ข้อมูลของเราเป็นสาธารณะเราและคนอื่น ๆ ในสาขานี้จะมีวิธีการเปรียบเทียบซึ่งกันและกันและย้ายการวิจัยในพื้นที่นี้ไปข้างหน้า

สำหรับไวยากรณ์งานนี้เป็นอีกก้าวหนึ่งสู่วิสัยทัศน์ของเราในการสร้างผู้ช่วยสื่อสารที่ครอบคลุมซึ่งช่วยให้ข้อความของคุณเข้าใจได้ตามที่ตั้งใจไว้

Joel Tetreault เป็นผู้อำนวยการฝ่ายวิจัยที่ Grammarly Sudha Rao เป็นนักศึกษาปริญญาเอกที่ University of Maryland และเป็นผู้ฝึกงานด้านการวิจัยที่ Grammarly Joel และ Sudha จะนำเสนองานวิจัยนี้ในการประชุมประจำปีครั้งที่ 16 ของบทที่อเมริกาเหนือของสมาคมเพื่อการคำนวณภาษาศาสตร์: เทคโนโลยีภาษาของมนุษย์ในนิวออร์ลีนส์, 1-6 มิถุนายน, 2018, รายงานการวิจัยประกอบ, ชื่อ“ ที่รักหรือมาดาม