تحليل نص التردد: ميزات وأمثلة

جدول المحتويات:

تحليل نص التردد: ميزات وأمثلة
تحليل نص التردد: ميزات وأمثلة
Anonim

لقد قابلت هذا المفهوم أكثر من مرة في حياتك إذا كان عليك العمل مع النصوص. على وجه الخصوص ، يمكنك اللجوء إلى الآلات الحاسبة عبر الإنترنت التي تقوم بالضبط بتحليل تردد النص. توضح هذه الأدوات اليدوية عدد مرات ظهور حرف أو حرف معين في أي مقطع من النص. غالبًا ما يتم عرض النسبة المئوية أيضًا. لماذا هذا مطلوب؟ كيف يساهم تحليل التردد للنص في "تكسير" الأصفار البسيطة؟ ما هو جوهرها من اخترعها؟ سنجيب على هذه الأسئلة وغيرها من الأسئلة المهمة حول الموضوع في سياق المقال.

التعريف

تحليل التردد هو أحد أنواع تحليل الشفرات. يعتمد على افتراض العلماء حول وجود توزيع إحصائي غير تافه للأحرف الفردية وتسلسلها المعتاد في كل من النص العادي والنص المشفر.

يُعتقد أن مثل هذا التوزيع ، حتى استبدال الأحرف الفردية ، سيتم الحفاظ عليه أيضًا في عمليات التشفير / فك التشفير.

تحليل التردد للأنظمة
تحليل التردد للأنظمة

خاصية العملية

الآن دعونا نلقي نظرة على تحليل التردد بعبارات بسيطة. هذا يعني أن عدد تكرارات نفس الحرف الأبجدي في النصوص ذات الطول الكافي هو نفسه في النصوص المختلفة المكتوبة بنفس اللغة.

والآن ماذا عن التشفير الأحادي الأبجدي؟ من المفترض أنه إذا كان هناك حرف له احتمالية مماثلة لحدوثه في القسم الذي يحتوي على نص مشفر ، فمن الواقعي افتراض أنه هذا الحرف المشفر.

يطبق أتباع تحليل نص التردد نفس المنطق على الأرقام (تسلسل من حرفين). المثلثات - هذا هو الحال بالنسبة للأصفار متعددة الأبجدية بالفعل.

تاريخ الطريقة

تحليل تردد الكلمات ليس اكتشافًا للحداثة. لقد عرف العالم العلمي منذ القرن التاسع. ويرتبط إنشائها باسم الكندي.

لكن الحالات المعروفة لتطبيق طريقة تحليل التردد تنتمي إلى فترة لاحقة. المثال الأكثر لفتًا للنظر هنا هو فك رموز الكتابة الهيروغليفية المصرية ، الذي أنتجه في عام 1822 ج. شامبليون.

إذا لجأنا إلى الخيال ، فيمكننا العثور على العديد من المراجع المثيرة للاهتمام لطريقة فك التشفير هذه:

  • كونان دويل - "الرجال الراقصين".
  • Jules Verne - "أبناء النقيب جرانت".
  • إدغار بو - "حشرة ذهبية".

ومع ذلك ، منذ منتصف القرن الماضي ، تم تطوير معظم الخوارزميات المستخدمة في التشفير مع مراعاة مقاومتها لتحليل تشفير التردد. ولذلكاليوم يتم استخدامها في الغالب فقط لتدريب مصممي التشفير في المستقبل.

تحليل تردد النص
تحليل تردد النص

الطريقة الأساسية

دعونا الآن نقدم تحليل استجابة التردد بالتفصيل. يعتمد هذا النوع من التحليل بشكل مباشر على حقيقة أن الاختبار يتكون من كلمات وتلك بدورها أحرف. عدد الحروف التي تملأ الأبجدية الوطنية محدود. يمكن ببساطة سرد الحروف هنا.

أهم خصائص مثل هذا النص هي تكرار الحروف ، ومختلف الحروف الكبيرة ، والتريغرامات والغرامات ، وكذلك توافق الحروف المختلفة مع بعضها البعض ، وتناوب الحروف الساكنة / العلة وغيرها أصناف من هذه الرموز

الفكرة الرئيسية للطرق هي حساب تكرارات n-grams المحتملة (المشار إليها بواسطة nm) في نصوص عادية طويلة بما يكفي للتحليل (يُشار إليها بـ T=t1t2… tl) المكونة من أحرف الأبجدية الوطنية (يُرمز إليه بـ {a1، a2،…، an}). كل ما سبق يتسبب في بعض م-جرام متتالية من النص:

t1t2 … tm، t2t3 … tm + 1، …، ti-m + 1tl-m + 2 … tl.

إذا كان هذا هو عدد تكرارات m-gram ai1ai2 … الهدف في نص معين T ، و L هو العدد الإجمالي للمجرام الذي حلله الباحث ، فمن الممكن إثبات ذلك تجريبيًا لـ L كبيرة بما فيه الكفاية ، فإن ترددات مثل m-gram ستكون مختلفة قليلاً عن بعضها البعض.

تحليل التردد
تحليل التردد

أحرف متكررة من الأبجدية الروسية

لكن تحليل التردد الزمني ، على الرغم من الاسم المشابه ، لا علاقة له بموضوع محادثتنا. يتم إجراء هذا النوع من التحليل لـإشارات من محطات رادار منخفضة الملاحظة باستخدام تحويل مويجي خاص.

الآن دعنا نعود إلى الموضوع الرئيسي. عند إجراء تحليل التردد ، يمكنك معرفة الأحرف الأبجدية الروسية التي توجد غالبًا في نصوص ضخمة إلى حد ما (النسبة المئوية من 0.062 إلى 0.018):

  • A.
  • V.
  • د
  • F.
  • I.
  • K.
  • م
  • O.
  • R.
  • T.
  • F.
  • T.
  • الشيخ
  • ب.
  • E.
  • I.

حتى تم تقديم قاعدة خاصة للذاكرة ، والتي تساعد على تعلم الأحرف الأكثر شيوعًا في الأبجدية الروسية. للقيام بذلك ، يكفي أن نتذكر كلمة واحدة فقط - "hayloft".

في الحالات العامة ، يتم تعيين تكرار استخدام الأحرف من حيث النسبة المئوية ببساطة: يحسب المتخصص عدد مرات ظهور الحرف في النص ، ثم يقسم القيمة الناتجة على العدد الإجمالي للأحرف في النص. وللتعبير عن هذه القيمة كنسبة مئوية ، يكفي ضربها في 100.

من المهم مراعاة أن التردد لن يعتمد فقط على حجم النص ، ولكن أيضًا على طبيعته. على سبيل المثال ، في المصادر التقنية ، يظهر الحرف "F" في كثير من الأحيان أكثر من الخيال. لذلك ، للحصول على نتائج موضوعية ، يجب على المتخصص كتابة نصوص ذات طبيعة وأسلوب مختلف للبحث.

برامج تحليل تردد النص
برامج تحليل تردد النص

ثنائي ، ثلاثي ، أربع غرامات

في النصوص ذات المعنى ، يمكنك أيضًا العثور على الأكثر شيوعًا (على التوالي ، الأكثرمكرر) مجموعات من حرفين أو أكثر. قام المتخصصون أيضًا بتجميع العديد من الجداول ، والتي تشير إلى ترددات الحروف الهجائية المتشابهة.

أما بالنسبة للروسية ، فقد أتاح تحليل التردد لأنظمة النصوص الضخمة ذات المغزى إمكانية إنشاء الحروف الكبيرة والصيغ الثلاثية الأكثر شيوعًا:

  • EN.
  • شارع
  • لكن
  • لا.
  • تشغيل.
  • RA.
  • OV.
  • كو.
  • صوت
  • STO.
  • جديد
  • ENO.
  • TOV.
  • OVA.
  • OVO.

العلاقات المفضلة من الحروف لبعضها البعض

وهذه ليست كل الاحتمالات التي يمكن أن يوفرها تحليل التردد للباحثين عن النص. من خلال تنظيم المعلومات من جداول متشابهة من الأحرف الكبيرة والصيغ الثلاثية الأبعاد ، من الممكن استخراج البيانات حول مجموعات الأحرف الأكثر شيوعًا. أو بعبارة أخرى ، علاقاتهم المفضلة مع بعضهم البعض.

تم إجراء مثل هذه الدراسة المكثفة من قبل الخبراء بالفعل. كانت نتيجته جدولًا يُشار فيه ، إلى جانب كل حرف من الحروف الأبجدية ، إلى جيرانه. علاوة على ذلك ، تلك الشخصيات التي يتم العثور عليها غالبًا قبلها وبعدها مباشرة. لم يتم توضيح الحروف الموجودة في الجدول بالصدفة. أقرب إلى الرمز ، يشار إلى الجيران الأكثر شيوعًا ، وكذلك - الأكثر ندرة.

النظر في الأمثلة:

  • حرف "أ". يتم تمييز الاتصالات المفضلة التالية هنا: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. من هنا نرى أنه في أغلب الأحيان قبل الحرف "A" في النصوص يوجد "H" ("NA"). وبعد "A" في أغلب الأحيان في النصوص باللغة الروسية يمكننا أن نلتقي بـ "L"("AL").
  • حرف "M". حدد الخبراء هذه التوصيلات المفضلة: "I-s-a-i-e-o-M-i-e-o-u-a-n-p-s".
  • حرف "ب". الاتصالات المفضلة هي كما يلي: "n-s-t-l-b-n-k-v-p-s-e-o-i".
  • حرف "Sh". الاتصالات المفضلة: "e-b-a-i-u-Sch-e-i-a".
  • حرف "P". الاتصالات المفضلة مع رمز الأبجدية الروسية هذا: "v-s-u-a-i-e-o-P-o-r-e-a-u-i-l".
تحليل الوقت والتردد
تحليل الوقت والتردد

ما الذي يحدد التحليل؟

تساعد برامج تحليل نص التردد الحديثة على دراسة كميات كبيرة من مجموعة متنوعة من المقالات والمقالات والمقاطع وما إلى ذلك. يتم توفير المعلومات التالية للباحث كمعيار:

  • العدد الإجمالي للأحرف في النص
  • عدد المساحات التي يستخدمها المؤلف
  • عدد الأرقام.
  • معلومات حول علامات الترقيم المستخدمة - النقاط ، الفواصل ، إلخ.
  • عدد الحروف في كل من الأبجديات المتوفرة - السيريلية ، اللاتينية ، إلخ.
  • معلومات حول تكرار استخدام كل حرف ورمز في النص - عدد الإشارات والنسبة المئوية مقارنة بالنص بأكمله.

النضال ضد الإفراط في التحسين والتشبع

لماذا يتم إجراء تحليل تردد النص؟ هل هو فقط من أجل الفضول - لتحديد الأحرف في النص المكتوب التي اتضح أن كثيرًا ما تتم مواجهتها؟ لا ، التطبيق الأساسي للتحليل عملي ، وهو موجود في مكان آخر.

N-grams لا تتضمن فقط Bigrams و trigrams المستقرة. نفس الشيءالفئات تشمل الكلمات الرئيسية (العلامات) ، التجميعات. أي ، مجموعات مستقرة تتكون من كلمتين أو أكثر. تتميز بحقيقة أن مثل هذه التراكيب تحدث معًا في النص وفي نفس الوقت تحمل عبءًا دلاليًا معينًا.

هذا في أيدي متخصصي تحسين محركات البحث عديمي الضمير. في عملهم ، يسيئون أحيانًا تكرار العلامات والكلمات الرئيسية في النص من أجل زيادة أهمية صفحة ويب معينة بشكل مصطنع. إنهم يحاولون خداع النظام بمثل هذه "الحيلة": تحويل التركيبة الطبيعية مع التركيبة المعتادة من الكلمات ، التقليدية للغة الروسية ("شراء معطف فرو المنك") إلى تركيبة غير متسقة. أي ، يتم الحصول عليها من خلال إعادة ترتيب الكلمات بمثل هذا N-gram الطبيعي ("buy a mink coat").

لكن اليوم ، تعلمت خوارزميات البحث الكشف عن التحسين المفرط بشكل فعال مثل الإفراط في التشبع - التشبع الزائد للنص بالكلمات الرئيسية ، والعلامات التي تؤثر على ترتيب النتائج على صفحة البحث. الصفحات التي تم تحسينها بشكل مفرط يتم تصنيفها الآن ، على العكس من ذلك ، في مرتبة أدنى من خلال استعلام المستخدم. والناس أنفسهم لا يميلون إلى قراءة نصوص لا معنى لها ، مشبعون بعلامات ، ويفضلون معلومات مفيدة عن مورد آخر.

طريقة تحليل التردد
طريقة تحليل التردد

مساعدة التحليل الخاص لمتخصصي تحسين محركات البحث

وهكذا ، تعطي مرشحات نصوص محرك البحث الحديثة اليوم الأفضلية لصفحات الإنترنت تلك ، والمعلومات التي لا يسهل قراءتها فحسب ، بل إنها مفيدة أيضًا للزائرين. لتحسين عملهم وفقًا للمعايير الجديدة ، متخصصو تحسين محركات البحث (SEO)وانتقل إلى تحليل التردد للنص. تقدمه العديد من الخدمات الشعبية اليوم.

يساعد تحليل التردد على مراجعة النص الجاري إعداده للنشر من أجل المعلومات. تخلص من التكرار غير الضروري للعلامات والعبارات الرئيسية. كما يتيح لك أيضًا لفت انتباه المؤلف إلى مجموعات غير طبيعية من الكلمات التي تثير الشكوك في عوامل التصفية النصية لمحركات البحث.

تحليل استجابة التردد
تحليل استجابة التردد

وبالتالي يساعد تحليل التردد في النص على تحديد تكرار ذكر حرف معين في المصدر. يتم استخدام الطريقة اليوم لتقييم الحمل الزائد للنص بالعلامات والتباديل غير الطبيعي للكلمات.

موصى به: