يشير مفهوم الإنتروبيا المعلوماتية إلى اللوغاريتم السالب لدالة كتلة الاحتمال لقيمة ما. وبالتالي ، عندما يكون لمصدر البيانات قيمة ذات احتمالية أقل (أي عند وقوع حدث باحتمالية منخفضة) ، فإن الحدث يحمل "معلومات" ("مفاجأة") أكثر مما تحمله عندما تكون لبيانات المصدر قيمة ذات احتمالية أعلى
تصبح كمية المعلومات التي ينقلها كل حدث محدد بهذه الطريقة متغيرًا عشوائيًا تكون قيمته المتوقعة هي إنتروبيا المعلومات. بشكل عام ، تشير الإنتروبيا إلى الفوضى أو عدم اليقين ، وتعريفها المستخدم في نظرية المعلومات مماثل بشكل مباشر لتلك المستخدمة في الديناميكا الحرارية الإحصائية. تم تقديم مفهوم IE بواسطة كلود شانون في بحثه عام 1948 بعنوان "نظرية رياضية للتواصل". هذا هو المكان الذي جاء منه مصطلح "إنتروبيا شانون المعلوماتية".
التعريف والنظام
يتكون النموذج الأساسي لنظام نقل البيانات من ثلاثة عناصر: مصدر بيانات وقناة اتصال وجهاز استقبال ،وكما قال شانون ، فإن "مشكلة الاتصال الأساسية" هي أن يكون المستقبل قادرًا على تحديد البيانات التي تم إنشاؤها بواسطة المصدر بناءً على الإشارة التي يتلقاها عبر القناة. يوفر الانتروبيا قيدًا مطلقًا على أقصر متوسط طول تشفير بدون خسارة لبيانات المصدر المضغوطة. إذا كانت إنتروبيا المصدر أقل من عرض النطاق الترددي لقناة الاتصال ، فيمكن نقل البيانات التي يولدها بشكل موثوق إلى جهاز الاستقبال (على الأقل من الناحية النظرية ، وربما إهمال بعض الاعتبارات العملية مثل تعقيد النظام المطلوب لنقل البيانات ومقدار الوقت المستغرق لنقل البيانات).
عادةً ما تُقاس إنتروبيا المعلومات بالبتات (تسمى بدلاً من ذلك "shannons") أو أحيانًا "بالوحدات الطبيعية" (nats) أو المنازل العشرية (تسمى "dits" أو "bans" أو "hartleys"). تعتمد وحدة القياس على قاعدة اللوغاريتم ، والتي تستخدم لتحديد الكون.
الخصائص واللوغاريتم
توزيع احتمالية السجل مفيد كمقياس للإنتروبيا لأنه مضاف للمصادر المستقلة. على سبيل المثال ، إنتروبيا رهان عادل لعملة معدنية هي بت واحد ، بينما إنتروبيا أحجام م هي بتات. في تمثيل بسيط ، يلزم تسجيل 2 (n) بت لتمثيل متغير يمكن أن يأخذ إحدى قيم n إذا كانت n هي قوة 2. إذا كانت هذه القيم متساوية في الاحتمال ، فإن الانتروبيا (بالبتات) يساوي هذا الرقم. إذا كانت إحدى القيم أكثر احتمالًا من القيم الأخرى ، لاحظ أنها كذلكيحدث المعنى ، يكون أقل إفادة مما لو حدثت نتيجة أقل عمومية. على العكس من ذلك ، توفر الأحداث النادرة معلومات تتبع إضافية.
نظرًا لأن ملاحظة الأحداث الأقل احتمالية أقل تكرارًا ، فلا يوجد شيء مشترك في أن الانتروبيا (التي تعتبر معلومات متوسطة) التي يتم الحصول عليها من البيانات الموزعة بشكل غير متساوٍ دائمًا ما تكون أقل من أو تساوي log2 (n). الانتروبيا هي صفر عندما يتم تحديد نتيجة واحدة.
تحدد إنتروبيا معلومات شانون هذه الاعتبارات عندما يكون التوزيع الاحتمالي للبيانات الأساسية معروفًا. معنى الأحداث المرصودة (معنى الرسائل) غير ذي صلة في تعريف الإنتروبيا. يأخذ الأخير في الاعتبار فقط احتمال رؤية حدث معين ، وبالتالي فإن المعلومات التي تلخصها هي بيانات حول التوزيع الأساسي للاحتمالات ، وليس حول معنى الأحداث نفسها. تظل خصائص إنتروبيا المعلومات كما هي موصوفة أعلاه.
نظرية المعلومات
الفكرة الأساسية لنظرية المعلومات هي أنه كلما زادت معرفة المرء بموضوع ما ، قلت المعلومات التي يمكن الحصول عليها عنه. إذا كان هناك احتمال كبير لحدث ما ، فليس من المستغرب وقت وقوعه وبالتالي يوفر القليل من المعلومات الجديدة. على العكس من ذلك ، إذا كان الحدث غير محتمل ، فقد كان أكثر إفادة بكثير من وقوع الحدث. لذلك ، فإن الحمولة هي دالة متزايدة للاحتمال العكسي للحدث (1 / p).
الآن إذا حدثت المزيد من الأحداث ، فانتروبيايقيس متوسط محتوى المعلومات الذي يمكن أن تتوقعه في حالة حدوث أحد الأحداث. هذا يعني أن إلقاء النرد له إنتروبيا أكثر من رمي عملة معدنية لأن كل نتيجة بلورية لها احتمالية أقل من نتيجة كل عملة معدنية.
الميزات
وبالتالي ، فإن الانتروبيا هي مقياس لعدم القدرة على التنبؤ بحالة ما ، أو ، وهو نفس الشيء ، متوسط محتوى المعلومات فيها. للحصول على فهم حدسي لهذه المصطلحات ، ضع في اعتبارك مثال استطلاع رأي سياسي. عادة ما تحدث مثل هذه الاستطلاعات لأن نتائج الانتخابات على سبيل المثال غير معروفة بعد.
بمعنى آخر ، نتائج الاستطلاع غير متوقعة نسبيًا ، وفي الواقع ، فإن إجراؤه وفحص البيانات يوفر بعض المعلومات الجديدة ؛ هم فقط طرق مختلفة للقول بأن الانتروبيا السابقة لنتائج الاستطلاع كبيرة.
الآن ضع في اعتبارك الحالة التي يتم فيها إجراء نفس الاستطلاع مرة ثانية بعد وقت قصير من الأول. نظرًا لأن نتيجة المسح الأول معروفة بالفعل ، يمكن التنبؤ بنتائج المسح الثاني جيدًا ويجب ألا تحتوي النتائج على الكثير من المعلومات الجديدة ؛ في هذه الحالة ، فإن الانتروبيا البدائية لنتيجة الاستطلاع الثانية تكون صغيرة مقارنة بالأول.
عملة إرم
الآن فكر في مثال قلب العملة. بافتراض أن احتمالية حدوث ذيول هي نفسها احتمالية ظهور الرؤوس ، فإن إنتروبيا رمي العملة عالية جدًا ، لأنها مثال غريب على الإنتروبيا المعلوماتية للنظام.
هذا بسببأنه من المستحيل التنبؤ بأن نتيجة العملة يتم رميها في وقت مبكر: إذا كان علينا الاختيار ، فإن أفضل ما يمكننا فعله هو التنبؤ بأن العملة ستهبط على ذيول ، وسيكون هذا التوقع صحيحًا مع احتمال 1 / 2. مثل هذه القرعة للعملة لها إنتروبيا بت واحد ، حيث توجد نتيجتان محتملتان تحدثان باحتمالية متساوية ، ودراسة النتيجة الفعلية تحتوي على جزء واحد من المعلومات.
على العكس من ذلك ، فإن قلب عملة باستخدام كلا الجانبين مع ذيول ولا يوجد أي رؤوس ليس له أي إنتروبيا لأن العملة ستهبط دائمًا على هذه العلامة ويمكن التنبؤ بالنتيجة بشكل مثالي.
الخلاصة
إذا كان نظام الضغط بدون فقدان ، مما يعني أنه يمكنك دائمًا استرداد الرسالة الأصلية بالكامل عن طريق فك الضغط ، فإن الرسالة المضغوطة تحتوي على نفس كمية المعلومات مثل الرسالة الأصلية ، ولكن يتم إرسالها بأحرف أقل. أي أنه يحتوي على مزيد من المعلومات أو إنتروبيا أعلى لكل شخصية. هذا يعني أن الرسالة المضغوطة بها تكرار أقل.
بشكل تقريبي ، تنص نظرية كود المصدر لشانون على أن نظام الضغط غير المفقود لا يمكنه تقليل الرسائل في المتوسط للحصول على أكثر من بت واحد من المعلومات لكل بت رسالة ، ولكن يمكن تحقيق أي قيمة أقل من بت واحد من المعلومات لكل بت • الرسائل باستخدام نظام التشفير المناسب. إن إنتروبيا الرسالة في وحدات البت مضروبة في طولها هي مقياس لمقدار المعلومات العامة التي تحتوي عليها.