تستخدم Google تقنيات AI مختلفة لتحسين جودة الترجمة

تستخدم Google تقنيات AI مختلفة لتحسين جودة الترجمة

أعلنت Google مؤخرًا عن بعض التقنيات المبتكرة الجديدة التي ستدمجها لترجمة 108 لغات ، والتي ستدعمها ترجمة Google ، وهي خدمة تترجم ما يقرب من 150 مليار كلمة يوميًا!

تستخدم خدمة الترجمة من Google بالفعل تقنيات "الترجمة الآلية العصبية" و "إعادة صياغة النماذج القائمة" و "المعالجة على الجهاز" وكل هذه التقنيات جعلت الترجمات دقيقة تمامًا. ولكن لا يمكن لأي من هذه التقنيات التغلب على الأداء البشري ، وهذه حقيقة.

استهدف الجمع بين كل هذه التقنيات لغات الموارد المنخفضة والعالية ، وسرعة الاستدلال ، وزمن الوصول. هذا هو السبب في أن الترجمة أظهرت تحسنًا كبيرًا في 5 نقاط أو أكثر في جميع اللغات و 7 أو أكثر في 50 لغة أدنى الموارد في عام واحد.

تم قياس هذه التحسينات من خلال التقييمات البشرية ونظام قياس يعتمد على التشابه بين ترجمة مرجعية بشرية وترجمة نظام ، تسمى BLEU.

أظهرت ترجمة Google أيضًا تحسنًا في التعامل مع ظاهرة هلوسة الترجمة الآلية ، حيث تقدم نماذج الذكاء الاصطناعي ترجمات غريبة عندما يتم تقديم مدخلات غير منطقية.

التقنية الأولى التي ستستخدمها Google الآن هي نموذج معماري هجين. وهو عبارة عن مزيج من تشفير المحولات ومفكك تشفير الشبكة العصبية المتكررة (RNN).

فيما يتعلق بالترجمة الآلية ، يقوم المشفر بترميز الكلمات والعبارات على أنها تمثيلات داخلية ، ويستخدم مفكك التشفير هذه التمثيلات لإنشاء نص بلغة يريدها المستخدم.

إذا كانت لغة إدخال البيانات طبيعية ، فلا يتطلب المحول معالجة بداية الجملة قبل معالجتها للنهاية. وربما هذا هو السبب في أن النماذج القائمة على المحولات تعتبر أكثر فعالية من RNNs. لكن وحدة فك ترميز RNN تعتبر سرعة استدلال كبيرة من وحدة فك الترميز داخل المحول.

الآن ، قامت Google Translate بتحسين وحدة فك ترميز RNN وربطها مع ترميز Transformer وإنشاء هذا النموذج الهجين منخفض الكمون وهو استثنائي في وظائفه!

قامت Google أيضًا بترقية Data Miner. أصبح الآن "قائمًا على التضمين" لـ 14 زوجًا كبيرًا من اللغات بدلاً من أن يكون "مستندًا إلى القاموس". وهذا يعني أنها تستخدم عددًا أقل من متجهات الأرقام لتمثيل الكلمات والعبارات مع التركيز بشكل أكبر على "الدقة" ، وهو جزء من البيانات ذات الصلة بين البيانات المستردة ويركز بشكل أقل على "الاستدعاء" ، وهو الجزء من إجمالي المبلغ البيانات ذات الصلة التي تم استردادها.

أدى هذا إلى زيادة عدد الجمل بنسبة 29 ٪ مما استخرجه عامل المنجم ، وهذا تحسن جيد.

هناك تقنية أخرى استخدمتها Google وهي إنشاء نموذج لمعالجة الضوضاء في بيانات التدريب.

الضوضاء هي البيانات التي تحتوي على كمية هائلة من المعلومات التي لا يمكن فهمها أو تفسيرها بشكل صحيح. يضر ترجمة اللغات التي تتوفر لها ترجمة وفيرة بسهولة.

لذلك ، لمعالجة هذه البيانات الصاخبة ، أنشأت ترجمة Google نظامًا لتعلم المناهج ، حيث يتم تعيين الدرجات إلى الأمثلة باستخدام النماذج المدربة على البيانات الصاخبة وضبطها على البيانات `` النظيفة ''. لذا ، تبدأ النماذج في التدريب على جميع البيانات ، ثم تبدأ تدريجياً في التدريب على مجموعات بيانات فرعية أصغر وأنظف.

بالنسبة للغات منخفضة الموارد ، نشرت Google مخططًا في ترجمة Google يستخدم بيانات تدريب موازية ، يتم فيها إقران كل جملة بترجماتها.

هذه التقنيات مفيدة بشكل خاص في تحسين الطلاقة.

تستخدم الترجمة أيضًا نموذج M4 العملاق ، الذي يُترجم فيه نموذج M4 بين اللغة الإنجليزية والعديد من اللغات. يتيح هذا النموذج التعلم في النقل في الترجمة من Google بحيث يمكن نقل الأفكار التي تم الحصول عليها من التدريب من خلال اللغات عالية الموارد التي تحتوي على مليارات من الأمثلة المتوازية وتطبيقها على ترجمة اللغات منخفضة الموارد ، والتي تحتوي على بضعة آلاف من الأمثلة.

مصدر الصورة : AFP via Getty Images
Hat Tip: Venturebeat.

Comments

Popular posts from this blog

لماذا يحتاج الذكاء الاصطناعي دائمًا إلى الرقابة البشرية ، لا يهم مدى ذكائه

70 في المائة من جميع مجالات الويب فشل في التجديد بعد عام واحد من الشراء

Reminder: StackSkills Unlimited Lifetime Access for $59