بالصدفة ... ساعدت كندا في حل مشكلة الترجمة بالكمبيوتر -الترجمة الآلية-

كندا، ثنائية اللغة و الترجمة 

بكرة كبيرة من الشريط المغناطيسي احتوت على أكثر من 100 مليون كلمة باللغتين الفرنسية والإنجليزية
 
في منتصف الثمانينيات من القرن الماضي، وصلت بكرة كبيرة من الشريط المغناطيسي - أحد أقدم أشكال تخزين البيانات - إلى مركز توماس جيه واتسون للأبحاث، مقر شركة IBM في يوركتاون هايتس، نيويورك. احتوت، وفقًا لبعض التقارير، على أكثر من 100 مليون كلمة باللغتين الفرنسية والإنجليزية. إنه مجموع أربعة عشر عامًا من الحوارات البرلمانية الكندية: نسخة قابلة للقراءة بالكمبيوتر من Hansard، السجل الرسمي للمناقشات التشريعية. (سمي هانسارد على اسم توماس كورسون هانسارد، أول كاتب رسمي في البرلمان البريطاني).
 
ساعدت-كندا-في-حل-مشكلة-الترجمة-بالكمبيوتر-الترجمة-الآلية-
ساعدت-كندا-في-حل-مشكلة-الترجمة-بالكمبيوتر-الترجمة-الآلية-


هذه اللحظة الفاصلة فيما يتعلق بالترجمة الحاسوبية و قضية هانسارد، تعد حبة دواء مرّة للابتكار الكندي وفصل معبّر في التاريخ. لم تكن شركة IBM وحدها في محاولة الكشف عن سر الترجمة المحوسبة. كانت الحكومة الكندية نفسها تمول مشروعها البحثي الخاص لسنوات عدّة بهدف أتمتة ترجمة الوثائق الرسمية مثل Hansard وتخفيف الصعوبات في إدارة حكومة اتحادية ثنائية اللغة بالكامل. لقد كان مشروعًا طموحًا، وعلى الرغم من ما يقرب من عقدين من الجهد، فقد فشل - ليس لأن الباحثين لم يتمكنوا من إحراز تقدم، ولكن لأن السياسة والإقليمية والأيديولوجية افشلته-. على عكس علماء IBM الذين كانوا أحرارًا في متابعة أبحاثهم، كان الباحثون الكنديون مقيدين بالضرورات السياسية الأساسية التي ثبّطت اعمالهم. جهود المجموعات البحثية لم تسفر عن نظام قادر على ترجمة مثل هذه المناقشات البرلمانية المعقدة: بعد سنوات من البحث، لم تتم ترجمة أي شطر من هانسارد. تم حل مشروع بحوث الترجمة الآلية بالكامل في عام 1981. كان هناك انتصار صغير على طول الطريق في منتصف السبعينيات، في ماذا نجحت هذه الفرق؟ لقد استحدثوا نظام ترجمة آلي لتقارير الطقس.

قضية الترجمة و كندا 

ارّقت قضية الترجمة البيروقراطيين الكنديين لعقود، حيث ان الحكومة الفيدرالية تنتج قدرًا هائلاً من المستندات باللغتين.ضف إلى ذلك أن متطلبات العمل باللغتين الفرنسية والإنجليزية يجعل العملية أكثر تعقيدًا وتستغرق وقتًا طويلاً. توجد مؤسسة فدرالية كاملة - مكتب الترجمة، الذي تأسس عام 1934 - مكرسة لتقديم المستندات الحكومية باللغتين. مع أن هانسارد يمثل أولوية عالية وأقدم منشور حكومي ثنائي اللغة، إلا أنه واحد فقط من مسؤوليات الترجمة الحكومية العدّة للمكتب. بالإضافة إلى عملهم على Hansard، يقضي المترجمون والمراجعون والمصححون الذين يستخدمهم المكتب أيامهم في ترجمة جميع أنواع الوثائق - المعاهدات والجداول الإحصائية والقوانين والتقارير العلمية ونشرات التوظيف والمراسلات-. بما انه يشرف على العديد من مهام الاتصال، اكتسب المكتب سلطة كبيرة كحارس للغة الحكومة وكوكيل لمراقبة جودة اللغة الفرنسية.

سياسة ثنائية اللغة

سياسة ثنائية اللغة في كندا - لا سيما في الخمسينيات والستينيات، عندما اندلعت التوترات حول مكان كيبيك في البلاد - تعقّد الأمور نظرًا لأن عدد الناطقين باللغة الإنجليزية يفوق عدد الناطقين بالفرنسية في القطاع الحكومي. 
كانت النسخ الفرنسية من الوثائق تُنشر دائمًا بعد النسخ الإنجليزية. كتب بيير دافياولت، رئيس مكتب الترجمة، في عام 1956: "هناك حقيقة لا مفر منها: لغة العمل (...) في الدولة هي الإنجليزية". "لطالما كانت كتابة النصوص أولاً باللغة الإنجليزية وتأتي بعدها الترجمة الى الفرنسية".
في ذلك الوقت، كانت اللغة في قلب التوترات السياسية المتزايدة، حيث ان الكنديين الفرنسيين يشعرون بالاستياء بشكل متزايد من استبعادهم من الحياة السياسية والاقتصادية لكندا. لا يشعرون بأنهم شركاء متساوون في بلد تكون فيه ثنائية اللغة أحادية الاتجاه. في هذا السياق، لا تزعج مشكلات النسخ الفرنسية من الوثائق الحكومية البرلمانيين الناطقين بالفرنسية فحسب، بل تتعرض لانتقادات شديدة في الصحف الناطقة بالفرنسية. التأخيرات في النسخ الفرنسية، الاخطاء في المنشورات الفرنسية، حضور الانكليزية في النصوص الفرنسية - كل هذه التفاصيل تشير إلى الحفاظ على مكانة الدرجة الثانية للفرنسية في كندا.

مع تزايد الطاقة الانفصالية في كيبيك، يدفع أندريه لوريندو، رئيس تحرير Le Devoir، لإجراء تحقيق رسمي حول ما قد تحتاجه كندا لتصبح ثنائية اللغة حقًا. خوفًا من أزمة الوحدة الوطنية، أنشأ رئيس الوزراء ليستر ب. بيرسون اللجنة الملكية ثنائية اللغة وثنائية الثقافة في عام 1963، مع تفويض لاستكشاف السياسات الفيدرالية التي من شأنها تعزيز شراكة أكثر مساواة بين السكان الفرنسيين والإنجليز في كندا. ماذا في اعلى القائمة؟ نجد المطالبة بعملية أفضل وأسرع وأكثر إنصافًا لترجمة المستندات الحكومية. في قاعات القطاع الحكومي في كندا، يتساءلون عما إذا كانت التكنولوجيا الجديدة -الترجمة الحاسوبية- هي الحل.

كيف ساعدت كندا بالصدفة في حل مشكلة الترجمة بالكمبيوتر

تدين الترجمة الآلية المتطورة اليوم - حتى نظام الترجمة من Google الذي تم تجديده مؤخرًا - بوجودها للطريقة التي اكتشفتها شركة IBM باستخدام Hansard كأول عجلات تدريب لها.

في منتصف الثمانينيات من القرن الماضي، وصلت بكرة كبيرة من الشريط المغناطيسي - أحد أقدم أشكال تخزين البيانات - إلى مركز توماس جيه واتسون للأبحاث، مقر شركة IBM في يوركتاون هايتس، نيويورك. احتوت، وفقًا لبعض التقارير، على أكثر من 100 مليون كلمة باللغتين الفرنسية والإنجليزية. إنه مجموع أربعة عشر عامًا من الحوارات البرلمانية الكندية: نسخة قابلة للقراءة بالكمبيوتر من Hansard، السجل الرسمي للمناقشات التشريعية. (سمي هانسارد على اسم توماس كورسون هانسارد، أول كاتب رسمي في البرلمان البريطاني).
حتى يومنا هذا، لا أحد متأكد من أرسل الشريط، أو ما إذا كان مخولًا بتمريرها إلى شركة IBM. لكن علماء الكمبيوتر في الشركة بدأوا في تجربة البيانات التي تحتوي عليها، متسائلين عما إذا كان بإمكانهم استخدامها لتطوير طريقة للترجمة الآلية.

التفكير في حل لغوي ام رياضي حاسوبي 

في ذلك الوقت، اعتبر معظم الباحثين الذين يعملون على الترجمة الآلية أنها مشكلة لغوية في الأساس: لحلها، يتعين على المرء اكتشاف بنية لغة معينة. لذلك، استندت جهود الترجمة المحوسبة إلى محاولات التحليل الشامل لقواعد لغتين، ثم برمجة مجموعات معقدة من القواعد التي من شأنها أن تخبر الكمبيوتر بكيفية تحويل إحدى تلك اللغات إلى الأخرى. لكن لدى باحثي IBM فكرة مختلفة، لقد تساءلوا عما سيحدث إذا نظروا فقط إلى الترجمة على أنها حساب للاحتمالات، بالنظر إلى عدد المرات التي تظهر فيها الكلمات في لغة معينة وبأي ترتيب - تخمين رياضي خالص بدلاً من اعتبرها فن لغوي-، رأت شركة IBM في الترجمة على أنها مسألة تحسين إحصائي.

لإجراء مثل هذا التحليل الاحتمالي - ضخم بما يكفي لمطابقة لغة كاملة بأخرى بناءً على تكرار الكلمات وترتيب الكلمات فقط - يتطلب مجموعة بيانات ضخمة. اليوم، يمكن لجهاز الكمبيوتر مسح كتاب يحتوي على ترجمات جنبًا إلى جنب واستخراج النص بسهولة نسبيًا؛ بينما في الثمانينيات، لم يكن أي شيء مثل هذا ممكنًا. كان لدى باحثي IBM نظرية لا يمكنهم اختبارها، ثم، وصلت بيانات Hansard إلى عتبة بابهم.

دهشة الكنديين انفسهم عن السجلات 

بعد بضع سنوات، صُدم باحثو الترجمة الكنديون بمساعدة الكمبيوتر عندما استمعوا إلى فريق من شركة IBM يصف لجمهور المؤتمر طريقة ترجمة ثورية جديدة طورتها الشركة باستخدام، كما نقلوا في مقالتهم المنشورة، "بيانات Hansard الخاصة بنا". كتبت IBM: "اخترنا العمل باللغتين الإنجليزية والفرنسية لأننا تمكنا من الحصول على مجموعة هانسارد ثنائية اللغة من حوارات البرلمان الكندي".

يتذكر بيير إيزابيل، عالم الكمبيوتر الذي عمل في هذا المجال منذ عام 1975: "لقد اندهشنا جميعًا" يتذكر الأشخاص "وهم يهزون رؤوسهم ويطلقون اصوات امتعاضهم، بل حتى بعبارات معادية "… وقد وُصف المؤتمر في مقال نُشر عام 2009 في مجلة لسانيات.

في كندا، ليس هانسارد بالضرورة سجلًا حرفيًا لما يقال في المداخلات: بدلاً من ذلك، يتم نسخ ما يحدث وتحريره وترجمته بشق الأنفس من قبل مترجمين حكوميين، الخطب الإنجليزية إلى الفرنسية والخطب الفرنسية الى اللغة الإنجليزية، بحيث يكون في صباح اليوم التالي تقارير كاملة باللغتين. الإنتاج هو عمل ضخم، حيث كان علماء IBM قادرين على اختبار نظريتهم وتطوير طريقة ترجمة محوسبة، فقط، لأن لديهم، كمواد خام، سنوات من هذه الترجمات جنبًا إلى جنب، التي أنتجها عدد لا يحصى من المسؤولين في أوتاوا بشق الأنفس. حفزت مجموعة البيانات هذه ثورة في مجال الحوسبة.

القصة بتفصيل اكبر ...

كيف انتهى المطاف ببكرة شريط مغناطيسي تحتوي على بيانات من خمس جلسات برلمانية في أيدي فريق بحثي من شركة IBM في شمال ولاية نيويورك في الثمانينيات من القرن الماضي؟ لا احد يعرف، لكن الجميع يروون نفس القصة. جلس الباحث في شركة IBM John Cocke - المعروف بعبقريته وحماسته وشربه - عن طريق مصادفة بجوار شخص ما على متن طائرة، (لا أحد يعرف من، ولكن يُعتقد أنهم كانوا يعملون بشكل أو بآخر لصالح الحكومة الكندية). بعد زيارتين او ثلاث لعربة المشروبات، علم السيد كوك أن إجراءات البرلمان الكندي محفوظة في شكل يمكن قراءته آليًا باللغتين الفرنسية والإنجليزية. عند عودته إلى شركة IBM، نقل كوك المعلومات إلى اثنين من زملائه.

لا أحد يعرف على وجه اليقين ما حدث بعد ذلك - لا يوجد سجل رسمي لطلب IBM للحصول على معلومات أو لقرار من الحكومة الكندية لتسليم هذه البيانات القيمة إلى شركة خاصة أجنبية -. ما نعرفه هو أنه بعد مدّة وجيزة من هذه "السرقة بالصدفة"، وصلت بكرة إجراءات Hansard إلى يوركتاون هايتس، دون أمر قضائي ودون شروط.

لنتعلم شيئًا عن كيفية عمل الترجمة

 في البداية، نظر أعضاء فريق البحث في بيانات Hansard الإنجليزية فقط. في الواقع، استخدموا البيانات الإنجليزية لإنشاء مدقق املائي. لكن كوك استمر في دفعهم لفحص النصوص الإنجليزية والفرنسية معًا - كما قال عالم الكمبيوتر في شركة IBM Peter Brown ، "لنتعلم شيئًا عن كيفية عمل الترجمة"، لم يكن الأمر مجرد معرفة أن هانسارد كان محوسبًا ويحتوي على مقاطع كاملة من النص مع ترجمتها المتكاملة. احتاج الفريق إلى إقران جمل مباشرة مع ترجماتها من أجل بناء نموذج لكل لغة ومن ثم حساب الاحتمالات بأن سلاسل كلمات معينة في إحدى اللغات تنتج متواليات كلمات معينة في الأخرى. يقول براون: "كنا محظوظين بالحصول على البيانات من هانسارد". "لقد كنا في المكان و الزمان المناسبين".

كان هناك أكثر من ذلك بالطبع، قامت شركة IBM فعلًا بتطوير خوارزميات لتقنية التعرف على الكلام ولديها القدرة الحاسوبية لتطبيق نفس الطريقة على ترجمة اللغة. على عكس الباحثين الكنديين، الذين كانوا مقيدين بالضرورة السياسية لإنشاء أداة مثالية للاستخدام في سياق محدد للغاية، كان لدى IBM الحرية في استكشاف ومعرفة أين أدت جهود الترجمة الخاصة بهم. (لم تكن النتائج مثالية. في تطور مفاجئ، كان من المرجح أن تُترجم الكلمة الإنجليزية "سمع" "hear" إلى الفرنسية مثل "entendre" و ليس "برافو!"، لأن العبارة المزدوجة التقليدية المستخدمة للموافقة البرلمانية - "hear" "hear" "سُمع"- بالتالي أثرت على الإحصائيات).

ربما لم يسمع معظم الكنديين مطلقًا بكلمة هانسارد. لكن في عام 1988، عرفه أي شخص يعمل في مجال الترجمة الآلية في أي مكان في العالم. لم يتم ذِكر او حتى الاشارة إلى المسؤولين المجهولين الذين قدموا البيانات الحيوية التي استخدمتها شركة IBM. (مُترجَم)


  لا تفوتوا مقالتنا المستقبلية بالاشتراك معنا ليصلك كل جديد...لا تنسوا المشاركة مع الآخرين لتعم الفائدة ... و ان أحببتم أيضا متابعتنا على مواقع التواصل الاجتماعي فيسبوك - انستغرام - بنترست - تويتر.


تعليقات
ليست هناك تعليقات
إرسال تعليق



    وضع القراءة :
    حجم الخط
    +
    16
    -
    تباعد السطور
    +
    2
    -