تحت غطاء محرك السيارة في قواعد اللغة: تحويل أسلوب الكتابة مع الذكاء الاصطناعي

نشرت: 2018-05-31

عندما تحتاج إلى ترك انطباع جيد على شخص تكتب إليه ، فإن ما تقوله ليس هو الشيء الوحيد الذي تحتاج إلى التفكير فيه. كيف تقول أنها غالبا ما تكون بنفس أهمية. يمكن أن يكون اختيار المستوى الصحيح من الشكليات تحديًا خاصًا-إنه يعتمد على السياق للغاية ، وغالبًا ما يتعين عليك تخمينات حول كيفية تفسير متلقيك لهجتك.

تخيل أنك تكتب خطاب تغطية. ما مقدار تغيير اللعبة إذا كان لديك أداة يمكن أن تكتشف عندما تكون كتاباتك غير رسمية للغاية (أو ، في بعض الأحيان أسوأ ، رسمية للغاية)؟ فجأة ، فإن قراراتك حول كيفية قول ما تحاول أن تقوله يصبح أقل غموضًا. أنت لا تعتمد فقط على التخمين حول كيفية إدراك المستلم رسالتك - لقد حصلت على خوارزمية تعتمد على الكثير من البيانات التي لا تملكها شخصيًا. أخذها خطوة إلى الأمام ، ماذا لو لم تتمكن هذه الأداة من إخبارك فقط متى يتم إيقاف شيء ما ، ولكن في الواقع يقدم لك صياغة بديلة يود مستلمك أفضل؟

تسمى عملية الحصول على جهاز كمبيوتر لتحويل قطعة من الكتابة تلقائيًا من نمط إلى آخر ، وهو موضوع ورقة قادمة كتبت مع زميلي Sudha Rao. إنه مجال ذو أهمية خاصة بالنسبة لنا هنا في قواعد اللغة لأننا نعرف مدى أهمية التواصل بالطريقة الصحيحة.

إذا كنت قد تساءلت يومًا كيف يقوم مهندسو الأبحاث في Grammarly ببناء الأنظمة التي تقدم اقتراحات الكتابة لك ، فاقرأ.

خلفية غير رسمية عن الشكلية

قبل الغوص في تفاصيل خوارزمياتنا ، دعونا نلقي نظرة على مثال على اللغة غير الرسمية مقابل اللغة الرسمية.

غير رسمي: يجب أن أرى جانبي القصة

رسمي: عليك أن ترى جانبي القصة.

هناك بعض الاختلافات الواضحة بين هذه الجمل. إن استخدام العامية ("فلدي") وعدم وجود علامات ترقيم في نهاية الجملة الأولى تشير إلى غير رسمية. هناك وقت ومكان لهذا النوع من الجملة - تبادل الرسائل النصية بين الأصدقاء ، على سبيل المثال.

عندما نظرنا إلى كيفية إعادة كتابة البشر جمل غير رسمية بأسلوب أكثر رسمية ، وجدنا أن التغييرات الأكثر شيوعًا التي قاموا بها تنطوي على الرسملة وعلامات الترقيم والعامية. لاحظنا أيضًا أن على البشر أحيانًا أن يقوموا بإعادة كتابة جملة أكثر حدة لتحسين الشكليات:

غير رسمي: عندما لا تقم بالاجتماع؟

رسمي: يرجى إعلامي متى ستحضر الاجتماع.

ولكن كيف نعلم أجهزة الكمبيوتر إجراء تعديلات مثل تلك المذكورة أعلاه؟ هناك عدة طرق للاقتراب من المشكلة.

يعترف الشخص الذي نستخدمه بأن تدريس الكمبيوتر للترجمة بين أنماط الكتابة يشبه تعليمه لترجمة اللغات. يسمى هذا النهج الترجمة الآلية ، حيث يترجم الكمبيوتر تلقائيًا من لغة (مثل الفرنسية) إلى أخرى (ألمانية). لذلك عند معالجة مشكلة نقل الأسلوب ، من المنطقي البدء بنموذج ترجمة - أو في حالتنا ، نماذج متعددة.

ما هو نموذج الترجمة؟

واحدة من الاختراقات الأخيرة في الذكاء الاصطناعى هي استخدام تقنيات التعلم العميق ، أو الشبكة العصبية ، لبناء نماذج الترجمة الآلية.

يمكن أن تتعلم نماذج الترجمة الآلية العصبية (NMT) تمثيلات المعنى الأساسي للجمل. يساعد هذا النموذج على تعلم أنماط الجملة المعقدة بحيث تكون الترجمة بطلاقة ومعناها مخلص للجمل الأصلية.

النهج الأقدم للترجمة الآلية ، مثل النماذج القائمة على القواعد أو القائمة على العبارات (PBMT) ، تقسم الجمل إلى وحدات أصغر ، مثل الكلمات أو العبارات ، وترجمتها بشكل مستقل. هذا يمكن أن يؤدي إلى أخطاء نحوية أو نتائج غير منطقية في الترجمة. ومع ذلك ، فإن هذه النماذج أسهل في التعديل وتميل إلى أن تكون أكثر تحفظًا - والتي يمكن أن تكون ميزة. على سبيل المثال ، يمكننا بسهولة دمج القواعد التي تغير العامية إلى كلمات قياسية.

نظرنا إلى عدة أساليب مختلفة للترجمة الآلية لمعرفة ما هو الأفضل في نقل النمط.

بناء نموذج

NMT و PBMT مليء بالتحديات ، وليس أقلها إيجاد مجموعة بيانات جيدة لتدريب النماذج الخاصة بك. في هذه الحالة ، قدرنا أننا سنحتاج إلى مجموعة بيانات من مئات الآلاف من أزواج الجملة غير الرسمية والرسمية. من الناحية المثالية ، تقوم بتدريب النموذج الخاص بك بملايين أزواج الجملة ، ولكن نظرًا لأن نقل الأناقة هو مجال جديد إلى حد ما في مجال معالجة اللغة الطبيعية ، لم تكن هناك مجموعة بيانات موجودة في الحقيقة. لذلك ، أنشأنا واحدة.

بدأنا بجمع جمل غير رسمية. لقد حصلنا على جملنا من الأسئلة والردود التي تم نشرها علنًا على Yahoo! إجابات. لقد اخترنا تلقائيًا أكثر من مائة ألف جملة غير رسمية من هذه المجموعة وقمنا بإعادة كتابة كل واحدة بلغة رسمية ، مرة أخرى باستخدام معايير محددة مسبقًا. (تحقق من ورقتنا للحصول على تفاصيل حول هذه العملية.)

بمجرد حصولك على مجموعة بيانات ، يمكنك البدء في تدريب النموذج الخاص بك. إن تدريب النموذج يعني إعطائه الكثير من الجمل "المصدر" - في حالتنا ، الجمل غير الرسمية - إلى جانب الكثير من الجمل "المستهدفة" - بالنسبة لنا ، هذه هي إعادة الكتابة الرسمية. ثم تبحث خوارزمية النموذج عن أنماط لمعرفة كيفية الانتقال من المصدر إلى الهدف. كلما زادت البيانات التي لديها ، كان الأمر أفضل.

في حالتنا ، يحتوي النموذج على مائة ألف جمل مصدر غير رسمية وإعادة كتابة رسمية للتعلم منها. لقد جربنا أيضًا طرقًا مختلفة لإنشاء بيانات رسمية مصطنعة لزيادة حجم مجموعة بيانات التدريب الخاصة بنا ، نظرًا لأن نماذج NMT و PBMT غالبًا ما تتطلب المزيد من البيانات لأداء جيد.

لكنك تحتاج أيضًا إلى طريقة لتقييم مدى جودة النموذج الخاص بك بمهمته. هل تغير معنى الجملة؟ هل الجملة الجديدة صحيحة بشكل نحوي؟ هل هو في الواقع أكثر رسمية؟ هناك مصنفات موجودة - برامج يمكنها تلقائيًا تقييم الجمل من أجل نمط النغمة وأسلوب الكتابة - واختبرنا بعض تلك الأكثر شيوعًا في الأوساط الأكاديمية. ومع ذلك ، لا أحد منهم دقيق للغاية. لذلك ، انتهى بنا الأمر إلى أن نقارن البشر مخرجات النماذج المختلفة التي قمنا باختبارها وتصنيفها حسب الشكلية والدقة والطلاقة.

لقد أظهرنا لفريقنا الجملة غير الرسمية الأصلية ، والمخرجات من عدة نماذج مختلفة ، وإعادة كتابة الإنسان. لم نخبرهم من - أو ماذا - أنشأ كل جملة. ثم ، صنفوا إعادة كتابة ، مما يسمح بالعلاقات. من الناحية المثالية ، سيتم ربط أفضل نموذج مع أو حتى أفضل من إعادة كتابة الإنسان. إجمالاً ، سجل الفريق إعادة كتابة 500 جمل غير رسمية.

ما وجدناه

أخيرًا ، قمنا باختبار العشرات من النماذج ، لكننا سنركز على أفضل النماذج: القاعدة المستندة إلى القواعد ، القائمة على العبارات (PBMT) ، القائمة على الشبكة العصبية (NMT) ، وزوجين يجمعان بين الأساليب المختلفة.

سجلت إعادة كتابة الإنسان أعلى مستوى بشكل عام ، لكن نماذج PBMT و NMT لم تكن متأخرة. في الواقع ، كانت هناك العديد من الحالات التي يفضل فيها البشر أن النموذج يخرج إلى الحالات البشرية. جعل هذان النموذجان إعادة كتابة أكثر شمولاً ، لكنهما يميلان إلى تغيير معنى الجملة الأصلية.

النماذج القائمة على القواعد ، من ناحية أخرى ، قامت بتغييرات أصغر. هذا يعني أنهم كانوا أفضل في الحفاظ على المعنى ، لكن الجمل التي أنتجتها كانت أقل رسمية. كان لجميع النماذج أسهل في التعامل مع جمل أقصر من الأطول.

فيما يلي مثال على جملة غير رسمية مع إعادة كتابة الإنسان والنموذج. في هذه الحالة بالذات ، كان النموذج الأخير (NMT مع ترجمة PBMT) هو الذي حقق أفضل توازن بين الشكليات والمعنى والصياغة الطبيعية.

أصلي غير رسمي: بالكاد أراه في المدرسة إما أن أرى عادة ألعاب كرة السلة إخواني.

إعادة كتابة الإنسان: بالكاد أراه في المدرسة. عادة ما أراه مع إخواني يلعبون كرة السلة.

النموذج القائم على القواعد: بالكاد أراه Everrr في المدرسة إما أن أرى عادة ألعاب كرة السلة إخواني.

نموذج PBMT: بالكاد أراه في المدرسة أيضًا ، لكن ألعاب كرة السلة إخواني.

نموذج NMT: نادراً ما أراه في المدرسة ، إما أراه في ألعاب كرة السلة لأخي.

NMT (مدربة على بيانات إضافية تم إنشاؤها بواسطة PBMT): نادراً ما أراه في المدرسة إما أراه عادة في ألعاب كرة السلة إخواني.

النقل النمط هو مجال جديد مثير لمعالجة اللغة الطبيعية ، مع احتمال وجود تطبيقات واسعة النطاق. هذه الأداة التي افترضتها في البداية - تلك التي تساعدك على معرفة كيفية قول ما تحتاج إلى قوله؟ لا يزال هناك الكثير من العمل الذي يتعين القيام به ، ولكن هذه الأداة ممكنة ، وستكون لا تقدر بثمن للباحثين عن عمل ومتعلمي اللغة وأي شخص يحتاج إلى ترك انطباع جيد على شخص ما من خلال كتاباته. نأمل أنه من خلال جعل بياناتنا علنية ، سيكون لدينا نحن وآخرون في هذا المجال وسيلة لقياس بعضنا البعض ونقل هذا المجال من البحث إلى الأمام.

أما بالنسبة للقواعد النحوية ، فإن هذا العمل هو خطوة أخرى نحو رؤيتنا لإنشاء مساعد اتصال شامل يساعد على فهم رسالتك على النحو المقصود.

جويل تيراولت هو مدير الأبحاث في القواعد النحوية. Sudha Rao طالبة في الدكتوراه في جامعة ماريلاند وكان متدربًا في البحث في القواعد. سيقدم جويل وسودها هذا البحث في المؤتمر السنوي السادس عشر للفرار في أمريكا الشمالية من جمعية اللغويات الحاسوبية: تقنيات اللغة البشرية في نيو أورليانز ، 1-6 يونيو ، 2018. ورقة البحث المصاحبة ، بعنوان "عزيزي سيدي أو سيدتي ، قد يتم إدخال مجموعة بيانات GYAFC: Corpus ، معايير وعلامات التقليدية.