معلومات إحصائية: جمع ومعالجة وتحليل

جدول المحتويات:

معلومات إحصائية: جمع ومعالجة وتحليل
معلومات إحصائية: جمع ومعالجة وتحليل
Anonim

طوال تاريخ الإحصائيات ، تم إجراء محاولات مختلفة لإنشاء تصنيف لمستويات القياس. عرّف الفيزيائي النفسي ستانلي سميث ستيفنز المقاييس الاسمية والترتيبية والفاصلة والتناسبية.

القياسات الاسمية ليس لها ترتيب مهم للترتيب بين القيم وتسمح بأي تحويل واحد إلى واحد.

الأبعاد العادية لها اختلافات غير دقيقة بين القيم المتتالية ، ولكن لها ترتيب معين لهذه القيم وتسمح بأي تحويل للحفاظ على النظام.

قياسات الفاصل الزمني لها مسافات ذات مغزى بين النقاط ، لكن القيمة الصفرية عشوائية (كما في حالة قياسات خطوط الطول ودرجة الحرارة بالدرجة المئوية أو فهرنهايت) وتسمح بأي تحويل خطي.

أبعاد النسبة لها قيمة صفرية ذات مغزى ومسافات بين أبعاد مختلفة ، وتسمح بأي تحويل للقياس.

Image
Image

المتغيرات وتصنيف المعلومات

لأن المتغيراتالمقابلة فقط للقياسات الاسمية أو الترتيبية لا يمكن قياسها عدديًا ، وأحيانًا يتم تجميعها كمتغيرات فئوية. يتم تجميع قياسات النسبة والفاصل الزمني كمتغيرات كمية ، والتي يمكن أن تكون منفصلة أو مستمرة بسبب طبيعتها العددية. غالبًا ما ترتبط هذه الفروق ارتباطًا وثيقًا بنوع البيانات في علوم الكمبيوتر ، حيث يمكن تمثيل المتغيرات الفئوية ثنائية التفرع بقيم منطقية ومتغيرات فئوية متعددة الأشكال مع أعداد صحيحة عشوائية في نوع بيانات متكامل ومتغيرات مستمرة مع مكونات حقيقية تتضمن حساب النقطة العائمة. لكن عرض أنواع بيانات المعلومات الإحصائية يعتمد على التصنيف المطبق.

معلومات إحصائية عن العمال
معلومات إحصائية عن العمال

تصنيفات أخرى

تم أيضًا إنشاء تصنيفات أخرى للبيانات الإحصائية (المعلومات). على سبيل المثال ، ميز موستيلر وتوكي بين الدرجات ، والرتب ، والأسهم المعدودة ، والأعداد ، والمبالغ ، والأرصدة. وصف Nelder في وقت واحد التهم المستمرة والنسب المستمرة وترابط الأعداد والطرق الفئوية لتوصيل البيانات. يتم استخدام كل طرق التصنيف هذه في جمع المعلومات الإحصائية.

مشاكل

مسألة ما إذا كان من المناسب تطبيق أنواع مختلفة من الأساليب الإحصائية على البيانات التي يتم الحصول عليها من خلال إجراءات القياس (التجميع) المختلفة معقدة بسبب القضايا المتعلقة بتحويل المتغيرات والتفسير الدقيق للأسئلةابحاث. العلاقة بين البيانات وما تصفه تعكس ببساطة حقيقة أن أنواعًا معينة من البيانات الإحصائية يمكن أن تحتوي على قيم حقيقة ليست ثابتة في ظل تحولات معينة. يعتمد ما إذا كان التحويل يستحق النظر فيه على السؤال الذي تحاول الإجابة عليه.

مثال على المعلومات الإحصائية
مثال على المعلومات الإحصائية

ما هو نوع البيانات

نوع البيانات هو مكون أساسي للمحتوى الدلالي للمتغير ويتحكم في أنواع التوزيعات الاحتمالية التي يمكن استخدامها منطقيًا لوصف المتغير ، والعمليات المسموح بها عليه ، ونوع تحليل الانحدار المستخدم للتنبؤ به ، إلخ. يتشابه مفهوم نوع البيانات في مفهوم مستوى القياس ، ولكنه أكثر تحديدًا - على سبيل المثال ، تتطلب أعداد البيانات توزيعًا مختلفًا (Poisson أو ذي الحدين) عن القيم الحقيقية غير السلبية ، لكن كلاهما يقع تحت نفس القيمة مستوى القياس (مقياس المعامل)

معلومات إحصائية عن القضاة
معلومات إحصائية عن القضاة

موازين

تم إجراء محاولات مختلفة لإنشاء تصنيف لمستويات القياس لمعالجة المعلومات الإحصائية. عرّف الفيزيائي النفسي ستانلي سميث ستيفنز المقاييس الاسمية والترتيبية والفاصلة والتناسبية. لا تحتوي القياسات الاسمية على ترتيب كبير للرتب بين القيم وتسمح بأي تحويل واحد إلى واحد. القياسات العادية لها اختلافات غير دقيقة بين القيم المتتالية ، ولكنها تختلف في الترتيب الهام لتلك القيم ، وتسمحأي تحول للحفاظ على النظام. قياسات الفاصل الزمني لها مسافات ذات مغزى بين القياسات ، ولكن القيمة الصفرية عشوائية (كما في حالة قياسات خطوط الطول ودرجة الحرارة بالدرجة المئوية أو فهرنهايت) وتسمح بأي تحويل خطي. أبعاد النسبة لها قيمة صفرية ذات مغزى والمسافات بين الأبعاد المحددة المختلفة ، وتسمح بأي تحويل للقياس.

نموذج الرسم البياني
نموذج الرسم البياني

غالبًا ما يتم تضمين البيانات التي لا يمكن وصفها باستخدام رقم واحد في متجهات عشوائية لمتغيرات عشوائية حقيقية ، على الرغم من وجود اتجاه متزايد لمعالجتها بنفسك. سيتم مناقشة هذه الأمثلة أدناه.

ناقلات عشوائية

العناصر الفردية قد تكون مرتبطة أو لا. من أمثلة التوزيعات المستخدمة لوصف المتجهات العشوائية المترابطة التوزيع الطبيعي متعدد المتغيرات والتوزيع t متعدد المتغيرات. بشكل عام ، يمكن أن يكون هناك ارتباطات عشوائية بين أي عناصر ، ولكن هذا غالبًا ما يتعذر إدارته فوق حجم معين ، مما يتطلب قيودًا إضافية على المكونات المرتبطة.

السمات الإحصائية
السمات الإحصائية

مصفوفات عشوائية

يمكن ترتيب المصفوفات العشوائية خطيًا ومعالجتها كمتجهات عشوائية ، ولكن قد لا تكون هذه طريقة فعالة لتمثيل الارتباطات بين العناصر المختلفة. تم تصميم بعض التوزيعات الاحتمالية خصيصًا للمصفوفات العشوائية ، مثل المصفوفة العاديةالتوزيع وتوزيع Wishart.

تسلسلات عشوائية

في بعض الأحيان تعتبر نفس المتجهات العشوائية ، ولكن في حالات أخرى يتم تطبيق المصطلح بشكل خاص على الحالات التي يرتبط فيها كل متغير عشوائي فقط بالمتغيرات القريبة (كما في نموذج ماركوف). هذه حالة خاصة لشبكة Bayesian ويتم استخدامها للتسلسلات الطويلة جدًا ، مثل سلاسل الجينات أو المستندات النصية الطويلة. تم تصميم عدد من النماذج خصيصًا لمثل هذه التسلسلات ، مثل تسلسلات ماركوف المخفية.

مخطط نموذجي
مخطط نموذجي

عمليات عشوائية

تشبه التسلسلات العشوائية ، ولكن فقط عندما يكون طول التسلسل غير محدد أو لانهائي ، وتتم معالجة العناصر في التسلسل واحدة تلو الأخرى. غالبًا ما يستخدم هذا للبيانات التي يمكن وصفها بالسلسلة الزمنية. هذا صحيح عندما يتعلق الأمر ، على سبيل المثال ، بسعر السهم في اليوم التالي.

الخلاصة

يعتمد تحليل المعلومات الإحصائية كليًا على جودة جمعها. هذا الأخير ، بدوره ، يرتبط ارتباطًا وثيقًا بإمكانيات تصنيفها. بالطبع هناك العديد من أنواع تصنيف المعلومات الإحصائية والتي يمكن للقارئ أن يراها بنفسه عند قراءة هذا المقال. ومع ذلك ، فإن وجود أدوات فعالة وإتقان جيد للرياضيات ، بالإضافة إلى المعرفة في مجال علم الاجتماع ، سيؤديان وظيفتهما ، مما يسمح لك بإجراء أي مسح أو دراسة دون تصحيحات كبيرة للخطأ. مصادر المعلومات الإحصائية في النموذجالناس والمنظمات وموضوعات علم الاجتماع الأخرى ، لحسن الحظ ، ممثلة بكثرة. ولا توجد صعوبة تقف في طريق المستكشف الحقيقي.

موصى به: