ما هي لغويات كوربوس؟

2026 مؤلف: Angel Austin | austin@vogueindustry.com. آخر تعديل: 2025-01-23 12:20:19

منذ عدة عقود ، كان العلماء يحلمون فقط بأتمتة البحث اللغوي. تم العمل يدويًا ، واشترك فيه عدد كبير من الطلاب ، وكان هناك احتمال كبير لخطأ "عدم الانتباه" ، والأهم من ذلك ، أن الأمر كله استغرق الكثير ، والكثير من الوقت.

مع تطور تكنولوجيا الكمبيوتر ، أصبح من الممكن إجراء البحث بشكل أسرع ، واليوم أحد المجالات الواعدة في دراسة اللغة هو علم اللغة المادي. ميزتها الرئيسية هي استخدام كميات كبيرة من المعلومات النصية ، مدمجة في قاعدة بيانات واحدة ، وتم ترميزها بطريقة خاصة وتسمى مجموعة.

اليوم ، هناك العديد من المؤسسات التي تم إنشاؤها لأغراض مختلفة ، بناءً على مواد لغوية مختلفة ، تغطي من ملايين إلى عشرات المليارات من الوحدات المعجمية. يعتبر هذا الاتجاه واعدًا ويظهر تقدمًا كبيرًا في تحقيق الأهداف التطبيقية والبحثية. المهنيين بطريقة أو بأخرى التعامل معهملغة طبيعية ، فمن المستحسن أن تتعرف على مجموعة النصوص على الأقل بمستوى أساسي.

تاريخ لغويات الجسم

يرتبط تشكيل هذا الاتجاه بإنشاء الفيلق البني في الولايات المتحدة في أوائل الستينيات من القرن الماضي. تألفت مجموعة النصوص من مليون كلمة فقط ، واليوم فإن مجموعة من هذا المجلد ستكون غير قادرة على المنافسة تمامًا. هذا يرجع إلى حد كبير إلى وتيرة تطوير تكنولوجيا الكمبيوتر ، فضلا عن الطلب المتزايد على موارد البحث الجديدة.

في التسعينيات ، تم تشكيل علم اللغة المادي في نظام كامل ومستقل ، وتم تجميع مجموعات من النصوص وترميزها لعشرات اللغات. خلال هذه الفترة ، على سبيل المثال ، تم إنشاء المجموعة الوطنية البريطانية لاستخدامات 100 مليون كلمة.

مع تطور هذا الاتجاه في علم اللغة ، يصبح حجم النصوص أكبر (ويصل إلى مليارات من وحدات المفردات) ، وتصبح الترميز أكثر تنوعًا. اليوم ، في مساحة الإنترنت ، يمكنك العثور على مجموعة من الخطابات المكتوبة والشفوية ، متعددة اللغات والتعليمية ، تركز على الأدب الخيالي أو الأكاديمي ، بالإضافة إلى العديد من الأنواع الأخرى.

ما هي الحالات هناك

يمكن تمثيل أنواع

في لسانيات الجسم بعدة طرق. من الواضح بشكل بديهي أن أساس التصنيف يمكن أن يكون لغة النصوص (الروسية ، الألمانية) ، أسلوب الوصول (مفتوح المصدر ، مغلق المصدر ، تجاري) ، نوع مادة المصدر (خيالأدب ، وثائقي ، أكاديمي ، صحافة).

بطريقة شيقة ، يتم إنتاج المواد التي تمثل الكلام الشفهي. نظرًا لأن التسجيل المتعمد لمثل هذا الكلام من شأنه أن يخلق ظروفًا مصطنعة للمستجيبين ، ولا يمكن تسمية المادة الناتجة بأنها "تلقائية" ، فقد ذهب علم اللغة الحديث للمجموعة في الاتجاه الآخر. المتطوع مجهز بميكروفون ، وخلال اليوم يتم تسجيل جميع المحادثات التي يشارك فيها. لا يستطيع الأشخاص المحيطون بالطبع معرفة أنهم يساهمون في تطوير العلم خلال محادثة يومية.

لاحقًا ، يتم تخزين التسجيلات الصوتية المستلمة في بنك البيانات وتكون مصحوبة بنص مطبوع مثل نسخة. بهذه الطريقة ، يصبح الترميز المطلوب لإنشاء مجموعة من الكلام المنطوق اليومي ممكنًا.

التطبيق

عندما يكون من الممكن استخدام اللغة ، فمن الممكن أيضًا استخدام النص الجماعي. يمكن أن يكون الغرض من استخدام طرق المجموعة في اللغويات هو:

إنشاء برامج المشاعر التي تستخدم على نطاق واسع في السياسة والأعمال لتتبع الملاحظات الإيجابية والسلبية من الناخبين والعملاء ، على التوالي.
ربط نظام المعلومات بالقواميس والمترجمين لتحسين أدائهم
مهام بحثية متنوعة تساهم في فهم بنية اللغة وتاريخ تطورها والتنبؤ بتغيرها في المستقبل القريب.
تطوير نظم استخراج المعلومات على أساس الصرفي ،الميزات النحوية والدلالية وغيرها.
تحسين عمل الأنظمة اللغوية المختلفة ، إلخ.

باستخدام الأصداف

واجهة المورد مشابهة لمحرك بحث نموذجي وتحث المستخدم على إدخال كلمة أو مجموعة من الكلمات للبحث في قاعدة المعلومات. بالإضافة إلى نموذج الطلب الدقيق ، يمكنك استخدام الإصدار الموسع ، والذي يسمح لك بالعثور على المعلومات النصية بأي معايير لغوية تقريبًا.

يمكن أن يكون أساس البحث:

تنتمي إلى مجموعة معينة من أجزاء الكلام ؛
ميزات نحوية ؛
دلالات ؛
تلوين أسلوبي وعاطفي.

أيضًا ، يمكنك الجمع بين معايير البحث لسلسلة من الكلمات: على سبيل المثال ، ابحث عن جميع تكرارات الفعل في زمن المضارع ، ضمير المتكلم ، المفرد متبوعًا بحرف الجر "in" واسم في حالة النصب. يستغرق حل مثل هذه المهمة البسيطة من المستخدم بضع ثوانٍ ولا يتطلب سوى بضع نقرات بالماوس في الحقول المحددة.

عملية الإنشاء

يمكن إجراء البحث نفسه في كل من العقارب الفرعية ، وفي واحدة ، محددة على وجه التحديد ، اعتمادًا على الاحتياجات عند تحقيق هدف معين:

بادئ ذي بدء ، يتم تحديد النصوص التي ستشكل أساس المجموعة. لأغراض عملية ، غالبًا ما تستخدم المواد الصحفية والصحفية والتعليقات عبر الإنترنت. في المشاريع البحثية ، الأكثرأنواع مختلفة من المجاميع ، لكن يجب تحديد النصوص على أساس مشترك.
تم تجهيز مجموعة النصوص الناتجة مسبقًا ، وتصحيح الأخطاء ، إن وجدت ، وإعداد وصف ببليوغرافي وخارجي للنص.
يتم تصفية جميع المعلومات غير النصية: يتم حذف الرسومات والصور والجداول.
الرموز ، عادة الكلمات ، مخصصة لمزيد من المعالجة.
أخيرًا ، يتم تنفيذ العلامات الصرفية والنحوية وغيرها من مجموعة العناصر الناتجة.

نتيجة جميع العمليات التي تم إجراؤها هي بنية نحوية مع مجموعة من العناصر موزعة عليها ، يتم تحديد جزء من الكلام ، والقواعد النحوية ، وفي بعض الحالات ، السمات الدلالية.

صعوبات في إنشاء القضايا

من المهم أن نفهم أنه للحصول على مجموعة ، لا يكفي تجميع الكثير من الكلمات أو الجمل معًا. من ناحية أخرى ، يجب أن تكون مجموعة النصوص متوازنة ، أي تقديم أنواع مختلفة من النصوص بنسب معينة. من ناحية أخرى ، يجب تمييز محتويات العلبة بطريقة خاصة.

تم حل المشكلة الأولى بالاتفاق: على سبيل المثال ، تضم المجموعة 60٪ من النصوص الخيالية ، و 20٪ من الأفلام الوثائقية ، ونسبة معينة تُعطى للعرض الكتابي للخطاب الشفوي ، والأعمال التشريعية ، والأوراق العلمية ، إلخ. الوصفة المثالية لجسم متوازن اليوم غير موجودة

السؤال الثاني المتعلق بترميز المحتوى هو أكثر صعوبة في الحل. هناك برامج وخوارزميات خاصة مستخدمة للترميز التلقائي للنصوص ، لكنها لا تعطي نتيجة بنسبة 100٪ ، ويمكن أن تتسبب في حدوث إخفاقات وتتطلب تنقيحًا يدويًا. تم وصف الفرص والمشكلات في حل هذه المشكلة بالتفصيل في عمل V. P. Zakharov على لسانيات الجسم.

ترميز النص يتم تنفيذه على عدة مستويات ، والتي سنقوم بإدراجها أدناه.

الترميز الصرفي

من مقاعد المدرسة ، نتذكر أنه في اللغة الروسية توجد أجزاء مختلفة من الكلام ، ولكل منها خصائصه الخاصة. على سبيل المثال ، يحتوي الفعل على فئات من الحالة المزاجية والتوتر لا يمتلكها الاسم. يرفض المتحدث الأصلي الأسماء ويقرن الأفعال دون تردد ، لكن العمل اليدوي ليس مناسبًا لتمييز مجموعة من 100 مليون كلمة من الاستخدامات. يمكن إجراء جميع العمليات الضرورية بواسطة الكمبيوتر ، ومع ذلك ، يجب تعليمها.

الترميز الصرفي ضروري للكمبيوتر "لفهم" كل كلمة كجزء من الكلام الذي يحتوي على ميزات نحوية معينة. نظرًا لأن عددًا من القواعد العادية يعمل باللغة الروسية (كما هو الحال في أي لغة أخرى) ، فمن الممكن بناء إجراء تلقائي للتحليل الصرفي عن طريق وضع عدد من الخوارزميات في الجهاز. ومع ذلك ، هناك استثناءات للقاعدة ، فضلاً عن العديد من العوامل المعقدة. نتيجة لذلك ، فإن تحليل الكمبيوتر الخالص اليوم بعيد كل البعد عن المثالية ، وحتى 4٪ أخطاء تعطي قيمة 4 ملايين كلمة في مجموعة مكونة من 100 مليون وحدة ، وتتطلب تنقيحًا يدويًا.

هذه المشكلة موصوفة بالتفصيل في كتاب V. P. Zakharov "Corpus Linguistics".

الترميز النحوي

التحليل النحوي أو التحليل هو إجراء يحدد العلاقة بين الكلمات في الجملة. بمساعدة مجموعة من الخوارزميات ، يصبح من الممكن تحديد الموضوع والمسند والإضافات والتحولات المختلفة للكلام في النص. من خلال تحديد الكلمات الرئيسية في التسلسل وأيها تعتمد ، يمكننا استخراج المعلومات بكفاءة من النص وتدريب الجهاز على إرجاع المعلومات التي نهتم بها فقط استجابة لطلب البحث.

مختبرات لغويات المدونة في الجامعات الروسية

بالمناسبة ، تستخدم محركات البحث الحديثة هذا لإعطاء أرقام محددة بدلاً من النصوص الطويلة ردًا على الاستفسارات ذات الصلة مثل: "كم عدد السعرات الحرارية في التفاحة" أو "المسافة من موسكو إلى سانت بطرسبرغ". ومع ذلك ، لفهم حتى أساسيات العملية الموصوفة ، ستحتاج إلى التعرف على "مقدمة في لغويات كوربوس" أو أي كتاب أساسي آخر.

الترميز الدلالي

دلالات الكلمة هي ، بعبارات بسيطة ، معناها. نهج قابل للتطبيق على نطاق واسع في التحليل الدلالي هو إسناد العلامات إلى كلمة ما ، مما يعكس انتمائها إلى مجموعة من الفئات الدلالية والفئات الفرعية. هذه المعلومات ذات قيمة لتحسين خوارزميات تحليل المشاعر النصية ، والمراجع التلقائية ، وأداء المهام الأخرى باستخدام طرق لغويات المجموعة.

هناك عدد من "جذور" الشجرة ، وهي كلمات مجردة لهادلالات واسعة جدا. نظرًا لأن هذه الشجرة تتفرع ، تتشكل العقد التي تحتوي على المزيد والمزيد من العناصر المعجمية المحددة. على سبيل المثال ، يمكن ربط كلمة "مخلوق" بمفاهيم مثل "الإنسان" و "الحيوان". ستستمر الكلمة الأولى في التفرع إلى مهن مختلفة ، وشروط القرابة ، والجنسية ، والثانية - إلى فئات وأنواع الحيوانات.

استخدام أنظمة استرجاع المعلومات

تغطي مجالات استخدام علم اللغة المادي مجموعة متنوعة من مجالات النشاط. تُستخدم Corpora لتجميع القواميس وتصحيحها وإنشاء أنظمة ترجمة آلية وتلخيص واستخراج الحقائق وتحديد المشاعر ومعالجة النصوص الأخرى.

بالإضافة إلى ذلك ، يتم استخدام هذه الموارد بنشاط في دراسة لغات العالم وآليات عمل اللغة ككل. يساهم الوصول إلى كميات كبيرة من المعلومات المعدة مسبقًا في الدراسة السريعة والشاملة للاتجاهات في تطور اللغات ، وتشكيل المصطلحات الجديدة وتحولات الكلام المستقرة ، والتغيرات في معاني الوحدات المعجمية ، وما إلى ذلك.

لأن العمل مع مثل هذه الكميات الكبيرة من البيانات يتطلب أتمتة ، يوجد اليوم تفاعل وثيق بين الكمبيوتر ولغويات الجسم.

المجموعة الوطنية للغة الروسية

تتضمن هذه المجموعة (المُختصرة باسم NKRC) عددًا من العقارب الفرعية التي تسمح باستخدام المورد لحل مجموعة متنوعة من المهام.

المواد الموجودة في قاعدة بيانات NCRA مقسمة إلى:

في المنشورات في وسائل الإعلام في التسعينيات و 2000سنوات ، محلية وأجنبية ؛
تسجيلات الكلام الشفوي ؛
نصوص مميزة (أي بعلامات تشكيل) ؛
كلام اللهجة ؛
أعمال شعرية ؛
مواد ذات ترميز نحوي ، إلخ.

يشمل نظام المعلومات أيضًا مجموعات فرعية مع ترجمة متوازية للأعمال من الروسية إلى الإنجليزية والألمانية والفرنسية والعديد من اللغات الأخرى (والعكس صحيح).

أيضًا ، تحتوي قاعدة البيانات على قسم من النصوص التاريخية التي تمثل الكلام المكتوب باللغة الروسية في فترات مختلفة من تطورها. هناك أيضًا مجموعة تدريب يمكن أن تكون مفيدة للمواطنين الأجانب في إتقان اللغة الروسية.

يشتمل الجسم الوطني للغة الروسية على 400 مليون وحدة معجمية وبطرق عديدة متقدم على جزء كبير من مجموعة اللغات الأوروبية.

آفاق

حقيقة مؤيدة للاعتراف بهذا المجال على أنها واعدة هي وجود مختبرات لغويات المدونة في الجامعات الروسية ، وكذلك في الجامعات الأجنبية. مع الاستخدام والبحث في إطار موارد استرجاع المعلومات المدروسة ، يرتبط تطوير بعض المجالات في مجال التقنيات العالية وأنظمة الأسئلة والأجوبة ، ولكن تمت مناقشة ذلك أعلاه.

يُتوقع مزيد من التطوير في علم اللغة المادي على جميع المستويات ، من الناحية الفنية ، من حيث إدخال خوارزميات جديدة تعمل على تحسين عمليات البحث عن المعلومات ومعالجتها ، وتوسيع قدرات أجهزة الكمبيوتر ، وزيادة العمليات التشغيليةالذاكرة ، وتنتهي بالأفراد المنزليين ، حيث يجد المستخدمون المزيد والمزيد من الطرق لاستخدام هذا النوع من الموارد في الحياة اليومية والعمل.

في الختام

في منتصف القرن الماضي ، بدا عام 2017 وكأنه مستقبل بعيد ، حيث تقوم المركبات الفضائية بتصفح مساحات الكون ويقوم الروبوتات بكل العمل من أجل الناس. لكن في الواقع ، العلم مليء "بالنقاط الفارغة" ويقوم بمحاولات يائسة للإجابة على الأسئلة التي أزعجت البشرية لقرون. تحتل أسئلة أداء اللغة مكان الصدارة هنا ، ويمكن أن تساعدنا مجموعة اللغات واللغويات الحاسوبية في الإجابة عليها.

تسمح لك معالجة كميات كبيرة من البيانات باكتشاف الأنماط التي كان يتعذر الوصول إليها سابقًا ، والتنبؤ بتطوير ميزات لغة معينة ، وتتبع تكوين الكلمات في الوقت الفعلي تقريبًا.

على المستوى العالمي العملي ، يمكن اعتبار المؤسسات ، على سبيل المثال ، كأداة محتملة لتقييم المشاعر العامة - الإنترنت عبارة عن قاعدة بيانات محدثة باستمرار لنصوص مختلفة تم إنشاؤها بواسطة مستخدمين حقيقيين: هذه هي التعليقات والمراجعات والمقالات ، والعديد من أشكال الكلام الأخرى.

بالإضافة إلى ذلك ، يساهم العمل مع corpora في تطوير نفس الوسائل التقنية المستخدمة في استرجاع المعلومات ، المألوفة لنا من خدمات Google أو Yandex ، والترجمة الآلية ، والقواميس الإلكترونية.

من الآمن أن نقول إن لسانيات الجسد تتخذ خطواتها الأولى فقط وستتطور بسرعة في المستقبل القريب.