ภายใต้ประทุนที่ไวยากรณ์: ตรวจจับการเขียนที่ไม่เป็นระเบียบด้วย AI

เผยแพร่แล้ว: 2018-07-10

เมื่อใดก็ตามที่คุณเขียนสิ่งที่นานกว่าประโยคคุณต้องตัดสินใจเกี่ยวกับวิธีการจัดระเบียบและนำเสนอความคิดของคุณ การเขียนที่ดีนั้นง่ายต่อการเข้าใจเพราะแต่ละประโยคสร้างขึ้นมาก่อนหน้านี้ เมื่อหัวข้อเปลี่ยนแปลงนักเขียนที่แข็งแกร่งใช้ประโยคการเปลี่ยนแปลงและย่อหน้าแบ่งเป็นป้ายบอกทางเพื่อบอกผู้อ่านว่าจะคาดหวังอะไรต่อไป

นักภาษาศาสตร์เรียกแง่มุมของการเขียนวาทกรรมที่เชื่อมโยงกันและเป็นเรื่องของการวิจัยใหม่ที่ยอดเยี่ยมจากทีมวิจัยไวยากรณ์ที่จะปรากฏในการประชุม Sigdial ในเมลเบิร์นประเทศออสเตรเลียในสัปดาห์นี้

วาทกรรมเชื่อมโยงกันคืออะไรและทำไมต้องสนใจเรื่องนี้?

เมื่อเราบอกว่าข้อความมีการเชื่อมโยงวาทกรรมระดับสูงเราหมายความว่าประโยคทั้งหมดจะเชื่อมโยงกันอย่างมีเหตุผล นักเขียนไม่ได้เปลี่ยนหัวข้อ จุดต่าง ๆ เชื่อมต่อกันด้วยการเปลี่ยน ข้อความนั้นง่ายต่อการติดตามตั้งแต่ต้นจนจบ

องค์กรประเภทนี้ไม่ได้เกิดขึ้นตามธรรมชาติเสมอไป พวกเราไม่กี่คนที่คิดในความก้าวหน้าเชิงเส้นอย่างสมบูรณ์แบบของความคิด ระบบที่สามารถบอกคุณได้โดยอัตโนมัติเมื่อคุณเขียนสิ่งที่คนอื่น ๆ จะต้องดิ้นรนเพื่อติดตาม - และในที่สุดก็แนะนำวิธีการแก้ไขปัญหานี้ - จะเป็นประโยชน์อย่างมากในการสื่อสารสิ่งที่คุณหมายถึง

สิ่งที่ทำไปแล้ว

การสอนคอมพิวเตอร์เพื่อตัดสินระดับข้อความที่เชื่อมโยงกันอย่างถูกต้องเป็นสิ่งที่ท้าทาย จนถึงปัจจุบันวิธีการที่พบบ่อยที่สุดในการประเมินว่าการเชื่อมโยงของวาทกรรมอัตราคอมพิวเตอร์นั้นขึ้นอยู่กับงานการสั่งซื้อประโยคอย่างไร ด้วยวิธีนี้นักวิจัยใช้ข้อความที่มีอยู่และได้รับการแก้ไขอย่างดีเช่นบทความข่าวและการเรียงลำดับประโยคทั้งหมดแบบสุ่ม สมมติฐานคือการเปลี่ยนแปลงแบบสุ่มสามารถดูได้ว่าไม่ต่อเนื่องกันและการสั่งซื้อดั้งเดิมสามารถดูได้ว่าสอดคล้องกัน งานคือการสร้างอัลกอริทึมคอมพิวเตอร์ที่สามารถแยกแยะความแตกต่างระหว่างรุ่นที่ไม่ต่อเนื่องกันและต้นฉบับ ภายใต้เงื่อนไขเหล่านี้บางระบบมีความแม่นยำสูงถึง 90 เปอร์เซ็นต์ ค่อนข้างน่าประทับใจ

แต่มีข้อบกพร่องที่อาจเกิดขึ้นกับวิธีนี้ บางทีคุณอาจเห็นมันอยู่แล้ว การเรียงลำดับประโยคใหม่แบบสุ่มอาจสร้างข้อความที่มีความต่อเนื่องต่ำ แต่มันไม่ได้สร้างข้อความที่ดูเหมือนว่ามนุษย์จะเขียนตามธรรมชาติ

ที่ไวยากรณ์เรามุ่งเน้นไปที่การแก้ปัญหาในโลกแห่งความเป็นจริงดังนั้นเราจึงรู้ว่างานใด ๆ ที่เราทำในพื้นที่นี้จะต้องได้รับการเปรียบเทียบกับการเขียนจริงไม่ใช่สถานการณ์เทียม น่าแปลกที่มีงานน้อยมากที่ทดสอบวิธีการประเมินวาทกรรมเกี่ยวกับข้อความจริงที่เขียนโดยคนภายใต้สถานการณ์ปกติ ถึงเวลาเปลี่ยนสิ่งนั้น

การวิจัยในโลกแห่งความเป็นจริงนักเขียนในโลกแห่งความเป็นจริง

ปัญหาแรกที่เราต้องแก้ไขคือปัญหาเดียวกับที่นักวิจัยทุกคนที่ทำงานเกี่ยวกับวาทกรรมที่เชื่อมโยงกันได้เผชิญ: การขาดข้อมูลในโลกแห่งความเป็นจริง ไม่มีคลังข้อมูลที่มีอยู่จริงของข้อความธรรมดาที่เขียนโดยธรรมชาติเราสามารถทดสอบอัลกอริทึมของเราได้

เราสร้างคลังข้อมูลโดยการรวบรวมข้อความจากแหล่งสาธารณะหลายแห่ง: คำตอบ Yahoo, รีวิว Yelp และอีเมลของรัฐบาลและอีเมลที่เปิดเผยต่อสาธารณะ เราเลือกแหล่งข้อมูลเฉพาะเหล่านี้เพราะพวกเขาเป็นตัวแทนของสิ่งที่ผู้คนเขียนในวันปกติ - โพสต์ฟอรัมบทวิจารณ์และอีเมล

ในการเปลี่ยนข้อความทั้งหมดนี้ให้เป็นคลังข้อมูลที่อัลกอริทึมคอมพิวเตอร์สามารถเรียนรู้ได้จากเรายังต้องให้คะแนนระดับการเชื่อมโยงกันของแต่ละข้อความ กระบวนการนี้เรียกว่าคำอธิบายประกอบ ไม่ว่าอัลกอริทึมของคุณจะดีแค่ไหนคำอธิบายประกอบที่เลอะเทอะจะเบี่ยงเบนผลลัพธ์ของคุณอย่างมาก ในบทความของเราเราให้รายละเอียดเกี่ยวกับวิธีการเพิ่มความคิดเห็นมากมายที่เราทดสอบรวมถึงบางอย่างที่เกี่ยวข้องกับ crowdsourcing ในที่สุดเราก็ตัดสินใจที่จะให้คำอธิบายประกอบของผู้เชี่ยวชาญให้คะแนนระดับการเชื่อมโยงกันของแต่ละชิ้นของข้อความในระดับสามจุด (ต่ำ, ปานกลางหรือสูงการเชื่อมโยงกันสูง) ข้อความแต่ละชิ้นถูกตัดสินโดยสามคำอธิบายประกอบ

การวางอัลกอริทึมในการทดสอบ

เมื่อเรามีคลังข้อมูลก็ถึงเวลาที่จะทดสอบว่าระบบคอมพิวเตอร์ต่าง ๆ สามารถระบุระดับการเชื่อมโยงของข้อความที่กำหนดได้อย่างไร เราทดสอบระบบสามประเภท:

ในหมวดหมู่แรกเป็นแบบจำลองเอนทิตี ระบบเหล่านี้ติดตามสถานที่และความถี่ที่มีการกล่าวถึงในข้อความ ตัวอย่างเช่นหากระบบค้นหาคำว่า "การขนส่ง" ในหลายประโยคมันจะเป็นสัญญาณว่าประโยคเหล่านั้นเกี่ยวข้องกันอย่างมีเหตุผล

ในหมวดที่สองเราทดสอบแบบจำลองตามกราฟการเชื่อมโยงคำศัพท์ นี่เป็นวิธีการแสดงประโยคเป็นโหนดในกราฟและการเชื่อมต่อประโยคที่มีคู่ของคำที่คล้ายกัน ตัวอย่างเช่นโมเดลประเภทนี้จะเชื่อมต่อประโยคที่มี "รถยนต์" และประโยคที่มี "รถบรรทุก" เพราะประโยคทั้งสองอาจเกี่ยวกับยานพาหนะหรือการขนส่ง

ในหมวดที่สามคือเครือข่ายประสาทหรือการเรียนรู้อย่างลึกซึ้งแบบจำลอง เราทดสอบสิ่งเหล่านี้หลายอย่างรวมถึงรุ่นใหม่สองรุ่นที่สร้างโดยทีมไวยากรณ์ เหล่านี้เป็นระบบที่ใช้ AI ที่เรียนรู้การเป็นตัวแทนของแต่ละประโยคที่รวบรวมความหมายและพวกเขาสามารถเรียนรู้ความหมายทั่วไปของเอกสารโดยรวมการเป็นตัวแทนประโยคเหล่านี้ พวกเขาสามารถมองหารูปแบบที่ไม่ จำกัด เฉพาะเหตุการณ์ที่เกิดขึ้นหรือคู่คำที่คล้ายกัน

งานสั่งซื้อประโยค

เราใช้ตำราที่มีการเชื่อมโยงกันสูงจากคลังข้อมูลใหม่ของเราเพื่อสร้างงานการสั่งซื้อประโยคสำหรับทั้งสามประเภทของโมเดล เราพบว่าโมเดลที่ทำงานได้ดีในชุดข้อมูลการสั่งซื้อประโยคอื่น ๆ ก็ทำงานได้ดีในชุดข้อมูลของเราด้วยการแสดงที่มีความแม่นยำสูงถึง 89 เปอร์เซ็นต์ โมเดลที่ใช้เอนทิตีและกราฟการเชื่อมโยงกันของคำว่ามีความแม่นยำดี (โดยทั่วไป 60 ถึง 70 เปอร์เซ็นต์) แต่มันเป็นแบบจำลองระบบประสาทซึ่งมีประสิทธิภาพสูงกว่ารุ่นอื่น ๆ อย่างน้อยสิบเปอร์เซ็นต์คะแนนในสามในสี่โดเมน

การทดสอบการเขียนจริง

สิ่งที่เราอยากรู้จริงๆคือโมเดลเหล่านี้สามารถทำงานได้ในระดับเดียวกันกับความแม่นยำในข้อความจริงและเขียนตามธรรมชาติหรือไม่ เราแปลงป้ายกำกับของ Annotators เป็นค่าตัวเลข (ต่ำ = 1, medium = 2, สูง = 3) และเฉลี่ยตัวเลขเข้าด้วยกันเพื่อให้ได้คะแนนการเชื่อมโยงกันสำหรับแต่ละชิ้นของข้อความ

ในทุกโดเมนอย่างน้อยหนึ่งระบบที่ใช้เครือข่ายประสาทมีประสิทธิภาพสูงกว่าระบบอื่น ๆ ทั้งหมด ในความเป็นจริงหนึ่งในโมเดลของไวยากรณ์ที่คำนึงถึงวรรคแบ่งเป็นนักแสดงชั้นนำในข้อความจากคำตอบ Yahoo ดังที่แสดงในตารางด้านล่าง แบบจำลองกลุ่มประสาทซึ่งพัฒนาโดยนักวิจัยที่สแตนฟอร์ดก็เป็นนักแสดงที่แข็งแกร่งเช่นกัน

แต่สมมติฐานดั้งเดิมของเรานั้นถูกต้อง: แบบจำลองทั้งหมดทำงานได้แย่ลงในงานจริงมากกว่าที่พวกเขาทำในงานสั่งประโยค-บางอย่างแย่กว่านั้นมาก ตัวอย่างเช่นวิธีกราฟคำศัพท์นั้นถูกต้อง 78 เปอร์เซ็นต์สำหรับอีเมลขององค์กรในสถานการณ์การจัดเรียงประโยคใหม่ แต่มันก็สามารถทำได้เพียง 45 เปอร์เซ็นต์ในการประเมินที่สมจริงยิ่งขึ้น

สิ่งที่เราพบ

ปรากฎว่างานก่อนหน้านี้เกี่ยวกับการเชื่อมโยงวาทกรรมได้ทดสอบสิ่งที่ผิด งานสั่งประโยคไม่ได้เป็นพร็อกซีที่ดีสำหรับการวัดการเชื่อมโยงวาทกรรม ผลลัพธ์ของเรามีความชัดเจน: ระบบที่ทำงานได้ดีในสถานการณ์เทียมนั้นแย่ลงมากในข้อความจริง

เป็นสิ่งสำคัญที่จะต้องทราบว่าการค้นพบนี้ไม่ใช่ความพ่ายแพ้ ไกลจากมันในความเป็นจริง ส่วนหนึ่งของการเติบโตในสาขาใด ๆ คือการประเมินว่าคุณกำลังประเมินอย่างไร - หยุดทุกครั้งเพื่อดูสิ่งที่คุณวัดได้ เนื่องจากงานนี้นักวิจัยที่ทำงานเกี่ยวกับวาทกรรมเชื่อมโยงกันจึงมีข้อมูลสำคัญสองชิ้น หนึ่งคือข้อมูลเชิงลึกที่ว่างานการสั่งซื้อประโยคไม่ควรเป็นวิธีที่เราวัดความแม่นยำอีกต่อไป ประการที่สองคือคลังข้อมูลที่เปิดเผยต่อสาธารณะของข้อความในโลกแห่งความเป็นจริงและเกณฑ์มาตรฐานใหม่ (โมเดลประสาทของเรา) เพื่อใช้ในการวิจัยในอนาคต

มองไปข้างหน้า

มีงานที่ต้องทำมากขึ้นและแอพพลิเคชั่นที่น่าตื่นเต้นมากมายสำหรับระบบที่สามารถตัดสินวาทกรรมได้อย่างน่าเชื่อถือในข้อความ อยู่มาวันหนึ่งระบบเช่นนี้ไม่เพียง แต่บอกคุณได้ว่าข้อความโดยรวมของคุณเชื่อมโยงกันอย่างไร แต่ยังชี้ให้เห็นข้อความเฉพาะที่อาจติดตามได้ยาก สักวันเราหวังว่าจะช่วยให้คุณเข้าใจข้อความเหล่านั้นง่ายขึ้นเพื่อให้สิ่งที่คุณพยายามพูดนั้นชัดเจนสำหรับผู้รับของคุณ

ท้ายที่สุดเส้นทางของไวยากรณ์ในการเป็นผู้ช่วยการสื่อสารที่ครอบคลุมไม่เพียง แต่ทำให้แน่ใจว่างานเขียนของคุณมีความแม่นยำทางไวยากรณ์และมีความแม่นยำในการจัดเรียง - มันเป็นเรื่องเกี่ยวกับการทำให้มั่นใจว่าคุณเข้าใจได้ตามที่ตั้งใจไว้

-

Joel Tetreault เป็นผู้อำนวยการฝ่ายวิจัยที่ Grammarly Alice Lai เป็นนักศึกษาปริญญาเอกที่ University of Illinois ที่ Urbana-Champaign และเป็นผู้ฝึกงานด้านการวิจัยที่ Grammarly งานวิจัยนี้จะถูกนำเสนอในการประชุมประจำปีของ Sigdial 2018 ในเมลเบิร์นออสเตรเลียวันที่ 12-14 กรกฎาคม 2561 เอกสารการวิจัยประกอบชื่อ“ การเชื่อมโยงวาทกรรมในป่า: ชุดข้อมูลการประเมินผลและวิธีการ” จะถูกตีพิมพ์ ชุดข้อมูลที่อธิบายไว้ในโพสต์บล็อกนี้เรียกว่าคลังข้อมูลไวยากรณ์ของการเชื่อมโยงวาทกรรมและมีอิสระที่จะดาวน์โหลดเพื่อวัตถุประสงค์ในการวิจัยที่นี่