النموذج الإحصائي هو إسقاط رياضي يجسد مجموعة من الافتراضات المختلفة حول توليد بعض البيانات النموذجية. غالبًا ما يتم تقديم المصطلح في شكل مثالي إلى حد كبير.
تظهر الافتراضات المعبر عنها في النموذج الإحصائي مجموعة من التوزيعات الاحتمالية. تم تصميم العديد منها لتقريب التوزيع الذي يتم منه استخلاص مجموعة معينة من المعلومات بشكل تقريبي. التوزيعات الاحتمالية المتأصلة في النماذج الإحصائية هي ما يميز الإسقاط عن التعديلات الرياضية الأخرى.
إسقاط عام
النموذج الرياضي هو وصف للنظام باستخدام مفاهيم ولغة معينة. تنطبق على العلوم الطبيعية (مثل الفيزياء وعلم الأحياء وعلوم الأرض والكيمياء) والتخصصات الهندسية (مثل علوم الكمبيوتر والهندسة الكهربائية) ، وكذلك العلوم الاجتماعية (مثل الاقتصاد وعلم النفس وعلم الاجتماع والعلوم السياسية).
يمكن أن يساعد النموذج في شرح النظام ودراسة تأثير المكونات المختلفة والتنبؤ بالسلوك.
يمكن أن تتخذ النماذج الرياضية العديد من الأشكال ، بما في ذلك الأنظمة الديناميكية أو الإسقاطات الإحصائية أو المعادلات التفاضلية أو معلمات نظرية اللعبة. قد تتداخل هذه الأنواع وأنواع أخرى ، ويتضمن هذا النموذج العديد من الهياكل المجردة. بشكل عام ، يمكن أن تتضمن الإسقاطات الرياضية أيضًا مكونات منطقية. في كثير من الحالات ، تعتمد جودة المجال العلمي على مدى توافق النماذج الرياضية المطورة نظريًا مع نتائج التجارب المتكررة. غالبًا ما يؤدي عدم الاتفاق بين العمليات النظرية والقياسات التجريبية إلى تطورات مهمة حيث يتم تطوير نظريات أفضل.
في العلوم الفيزيائية النموذج الرياضي التقليدي يحتوي على عدد كبير من العناصر التالية:
- معادلات التحكم.
- نماذج فرعية إضافية.
- تحديد المعادلات.
- المعادلات التأسيسية.
- الافتراضات والقيود.
- الشروط الأولية والحدود.
- القيود الكلاسيكية والمعادلات الحركية.
الصيغة
يتم تعيين النموذج الإحصائي ، كقاعدة عامة ، بواسطة معادلات رياضية تجمع بين متغير واحد أو أكثر من المتغيرات العشوائية ، وربما متغيرات أخرى تحدث بشكل طبيعي. وبالمثل ، يعتبر الإسقاط "المفهوم الرسمي للمفهوم."
يتم الحصول على جميع اختبارات الفرضيات الإحصائية والتقييمات الإحصائية من النماذج الرياضية.
مقدمة
بشكل غير رسمي ، يمكن النظر إلى النموذج الإحصائي على أنه افتراض (أو مجموعة من الافتراضات) مع خاصية معينة: فهو يسمح للشخص بحساب احتمال أي حدث. كمثال ، ضع في اعتبارك زوجًا من النرد العادي ذي الجوانب الستة. يجب استكشاف افتراضين إحصائيين مختلفين حول العظم.
الافتراض الأول هو:
لكل نرد ، احتمال الحصول على أحد الأرقام (1 ، 2 ، 3 ، 4 ، 5 ، 6) هو: 1 / 6.
من هذا الافتراض ، يمكننا حساب احتمال كلا النرد: 1: 1/6 × 1/6=1/36.
بشكل عام ، يمكنك حساب احتمال أي حدث. ومع ذلك ، يجب أن يكون مفهوما أنه من المستحيل حساب احتمال أي حدث آخر غير تافه.
فقط الرأي الأول يجمع نموذجًا رياضيًا إحصائيًا: نظرًا لحقيقة أنه بافتراض واحد فقط من الممكن تحديد احتمال كل إجراء.
في النموذج أعلاه بإذن مبدئي ، من السهل تحديد إمكانية وقوع حدث. مع بعض الأمثلة الأخرى ، قد يكون الحساب صعبًا أو حتى غير واقعي (على سبيل المثال ، قد يتطلب سنوات عديدة من الحسابات). بالنسبة للشخص الذي يصمم نموذج التحليل الإحصائي ، يعتبر هذا التعقيد غير مقبول: لا ينبغي أن يكون تنفيذ الحسابات مستحيلًا عمليًا ومستحيلًا نظريًا.
تعريف رسمي
من الناحية الرياضية ، عادةً ما يُعتبر النموذج الإحصائي للنظام كزوج (S ، P) ، حيث S هيمجموعة الملاحظات الممكنة ، أي مساحة العينة ، و P هي مجموعة التوزيعات الاحتمالية على S.
حدس هذا التعريف على النحو التالي. من المفترض أن يكون هناك توزيع احتمالي "حقيقي" ناتج عن العملية التي تولد بيانات معينة.
تعيين
هو الذي يحدد معلمات النموذج. تتطلب المعلمة عمومًا قيمًا مختلفة لتؤدي إلى توزيعات مختلفة ، أي
يجب أن يحمل (بمعنى آخر ، يجب أن يكون عن طريق الحقن). يُقال أن المعلمات التي تفي بالمتطلبات يمكن تحديدها.
مثال
افترض أن هناك عددًا من الطلاب من مختلف الأعمار. سيكون ارتفاع الطفل مرتبطًا عشوائياً بسنة الميلاد: على سبيل المثال ، عندما يكون تلميذ يبلغ من العمر 7 سنوات ، فإن هذا يؤثر على احتمالية النمو ، فقط بحيث يكون الشخص أطول من 3 سنتيمترات.
يمكنك إضفاء الطابع الرسمي على هذا النهج في نموذج الانحدار المستقيم ، على سبيل المثال ، على النحو التالي: الارتفاع i=b 0 + b 1agei + i ، حيث b 0 هو التقاطع ، b 1 هو المعلمة التي من خلالها العمر يتم ضربه عند الحصول على مراقبة الارتفاع. هذا مصطلح خطأ. أي أنه يفترض أن الارتفاع يتم توقعه حسب العمر مع وجود خطأ معين.
يجب أن يتطابق النموذج الصالح مع جميع نقاط المعلومات. وبالتالي ، فإن الاتجاه المستقيم (المستوى i=b 0 + b 1agei) غير قادر على أن يكون معادلة لنموذج البيانات - إذا لم يجيب بشكل واضح على جميع النقاط. أيبدون استثناء ، كل المعلومات تكمن على المحك بشكل لا تشوبه شائبة. يجب إدخال هامش الخطأ i في المعادلة بحيث يتطابق النموذج تمامًا مع جميع عناصر المعلومات.
لعمل استدلال إحصائي ، نحتاج أولاً إلى افتراض بعض التوزيعات الاحتمالية لـ ε i. على سبيل المثال ، يمكن للمرء أن يفترض أن توزيعات i لها شكل غاوسي بمتوسط صفر. في هذه الحالة ، سيحتوي النموذج على 3 معلمات: b 0 ، b 1 وتباين توزيع Gaussian.
يمكنك تحديد النموذج رسميًا كـ (S ، P).
في هذا المثال ، يتم تعريف النموذج بتحديد S وبالتالي يمكن عمل بعض الافتراضات حول P. هناك خياران:
يمكن تقريب هذا النمو من خلال دالة خطية للعمر ؛
أن الأخطاء في التقريب موزعة داخل Gaussian.
ملاحظات عامة
المعلمات الإحصائية للنماذج هي فئة خاصة من الإسقاط الرياضي. ما الذي يجعل نوعًا مختلفًا عن الآخر؟ إذن فالنموذج الإحصائي غير حتمي. وبالتالي ، على عكس المعادلات الرياضية ، لا تحتوي بعض المتغيرات على قيم معينة ، ولكن بدلاً من ذلك لها توزيع للاحتمالات. وهذا يعني أن المتغيرات الفردية تعتبر عشوائية. في المثال أعلاه ، ε هو متغير عشوائي. بدونها ، سيكون الإسقاط حتميًا.
غالبًا ما يتم استخدام بناء نموذج إحصائي ، حتى لو كانت العملية المادية تعتبر حتمية. على سبيل المثال ، يعتبر رمي العملات المعدنية ، من حيث المبدأ ، إجراءً محددًا مسبقًا.ومع ذلك ، لا يزال هذا في معظم الحالات على غرار العشوائية (من خلال عملية برنولي).
وفقًا لكونيشي وكيتاجاوا ، هناك ثلاثة أهداف للنموذج الإحصائي:
- التوقعات.
- التنقيب عن المعلومات
- وصف الهياكل العشوائية.
حجم الإسقاط
افترض أن هناك نموذج توقع إحصائي ،
يسمى النموذج حدوديًا إذا كان O له بُعد محدود. في الحل يجب أن تكتب
حيث k عدد صحيح موجب (R تعني أي أرقام حقيقية). هنا يسمى k أبعاد النموذج
كمثال ، يمكننا أن نفترض أن جميع البيانات تأتي من توزيع غاوسي وحيد المتغير:
في هذا المثال ، بُعد k هو 2.
وكمثال آخر ، يمكن افتراض أن البيانات تتكون من (س ، ص) نقاط ، والتي من المفترض أن يتم توزيعها في خط مستقيم مع بقايا غاوسية (بمتوسط صفر). ثم بعد النموذج الاقتصادي الإحصائي يساوي 3: تقاطع الخط ، وميله وتباين توزيع المخلفات. وتجدر الإشارة إلى أن أبعاد الخط المستقيم في الهندسة هي 1.
على الرغم من أن القيمة أعلاه هي من الناحية الفنية المعلمة الوحيدة التي لها البعد k ، إلا أنها تعتبر أحيانًا تحتوي على قيم مميزة لـ k. على سبيل المثال ، مع توزيع Gaussian أحادي البعد ، O هي المعلمة الوحيدة بحجم 2 ، ولكنها تعتبر أحيانًا تحتوي على اثنينالمعلمة الفردية - يعني القيمة والانحراف المعياري.
نموذج العملية الإحصائية غير معلمي إذا كانت مجموعة قيم O لا نهائية الأبعاد. وهي أيضًا شبه بارامترية إذا كانت تحتوي على معلمات ذات أبعاد محدودة ولانهائية. رسميًا ، إذا كان k بعدًا لـ O و n هو عدد العينات ، فإن النماذج شبه المعلمية وغير المعلمية لها
ثم النموذج هو شبه حدودي. خلاف ذلك ، فإن الإسقاط غير حدودي.
النماذج البارامترية هي الإحصائيات الأكثر استخدامًا. فيما يتعلق بالإسقاطات شبه البارامترية واللامحدارية ، ذكر السير ديفيد كوكس:
"عادةً ما تتضمن أقل عدد من الفرضيات حول الملمس وشكل التوزيع ، لكنها تتضمن نظريات قوية حول الاكتفاء الذاتي."
نماذج متداخلة
لا تخلط بينهم وبين الإسقاطات متعددة المستويات.
يتم دمج نموذجين إحصائيين إذا كان من الممكن تحويل النموذج الأول إلى الثاني عن طريق فرض قيود على معلمات النموذج الأول. على سبيل المثال ، تحتوي مجموعة جميع توزيعات Gaussian على مجموعة متداخلة من التوزيعات ذات المتوسط الصفري:
أي أنك تحتاج إلى تحديد المتوسط في مجموعة جميع توزيعات Gaussian للحصول على التوزيعات بمتوسط صفر. كمثال ثان ، النموذج التربيعي y=b 0 + b 1 x + b 2 x 2 + ε، ε ~ N (0، σ2) له نموذج خطي مضمن y=ب0+ ب1س + ε ، ε ~ N (0 ،σ2) - أي المعلمة b2تساوي 0.
في كلا المثالين ، النموذج الأول له أبعاد أعلى من النموذج الثاني. هذا هو الحال في كثير من الأحيان ، ولكن ليس دائمًا. مثال آخر هو مجموعة التوزيعات الغوسية ذات الوسط الموجب ، والتي لها بعد 2.
مقارنة بين النماذج
يُفترض أن هناك توزيع احتمالي "حقيقي" يستند إلى البيانات المرصودة الناتجة عن العملية التي ولّدتها.
وأيضًا يمكن مقارنة النماذج مع بعضها باستخدام التحليل الاستكشافي أو التوكيد. في التحليل الاستكشافي ، يتم صياغة نماذج مختلفة ويتم إجراء تقييم لمدى جودة وصف كل منها للبيانات. في التحليل التأكيدي ، تتم مقارنة الفرضية التي تمت صياغتها مسبقًا بالفرضية الأصلية. تشمل المعايير الشائعة لهذا P2، عامل بايزي والاحتمال النسبي.
فكر كونيشي وكيتاجاوا
"يمكن التفكير في معظم المشكلات في النموذج الرياضي الإحصائي على أنها أسئلة تنبؤية. وعادة ما يتم صياغتها كمقارنات بين عدة عوامل ".
علاوة على ذلك ، قال السير ديفيد كوكس: "كترجمة من الموضوع ، غالبًا ما تكون المشكلة في النموذج الإحصائي هي الجزء الأكثر أهمية في التحليل."