القياس متعدد المتغيرات (MDS) هو أداة لتصور مستوى التشابه للحالات الفردية في مجموعة البيانات. يشير إلى مجموعة من طرق التنسيق ذات الصلة المستخدمة في تصور المعلومات ، ولا سيما لعرض المعلومات الواردة في مصفوفة المسافة. هذا شكل من أشكال تقليل الأبعاد غير الخطية. تهدف خوارزمية MDS إلى وضع كل كائن في فضاء N-dimensional بطريقة يتم فيها الحفاظ على المسافات بين الكائنات على أفضل وجه ممكن. ثم يتم تعيين إحداثيات لكل كائن في كل من أبعاد N.
يمكن أن يتجاوز عدد أبعاد الرسم البياني MDS 2 ويتم تحديدها مسبقًا. يؤدي تحديد N=2 إلى تحسين وضع الكائن في مخطط التشتت ثنائي الأبعاد. يمكنك مشاهدة أمثلة على القياس متعدد الأبعاد في الصور في المقالة. الأمثلة مع الرموز باللغة الروسية توضيحية بشكل خاص.
جوهر
طريقة القياس متعدد الأبعاد (MMS ،MDS) عبارة عن مجموعة ممتدة من الأدوات الكلاسيكية التي تعمم إجراء التحسين لمجموعة من وظائف الخسارة ومصفوفات الإدخال للمسافات المعروفة بالأوزان وما إلى ذلك. في هذا السياق ، تسمى وظيفة الخسارة المفيدة الإجهاد ، والتي غالبًا ما يتم تصغيرها من خلال إجراء يسمى تخصص الإجهاد.
دليل
هناك عدة خيارات للقياس متعدد الأبعاد. تعمل برامج MDS تلقائيًا على تقليل الحمل للحصول على حل. جوهر خوارزمية MDS غير المترية هو عملية تحسين ذات شقين. أولاً ، يجب إيجاد التحول الأمثل عن قرب رتيب. ثانيًا ، يجب وضع نقاط التكوين على النحو الأمثل بحيث تتطابق مسافاتها مع قيم القرب المقاسة قدر الإمكان.
التوسع
امتدادًا للقياس المتري متعدد الأبعاد في الإحصائيات حيث تكون المساحة المستهدفة عبارة عن مساحة غير إقليدية سلسة عشوائية. حيث تكون الاختلافات مسافات على سطح والمساحة المستهدفة سطح مختلف. تسمح لك البرامج الموضوعية بالعثور على مرفق بأقل تشويه من سطح إلى آخر.
خطوات
هناك عدة خطوات لإجراء دراسة باستخدام مقياس متعدد المتغيرات:
- صياغة المشكلة. ما المتغيرات التي تريد مقارنتها؟ كم عدد المتغيرات التي تريد مقارنتها؟ لأي غرض ستستخدم الدراسة؟
- الحصول على بيانات الإدخال.يتم طرح سلسلة من الأسئلة على المستجيبين. لكل زوج من المنتجات ، يُطلب منهم تقييم التشابه (عادةً على مقياس ليكرت المكون من 7 نقاط من مشابه جدًا إلى مختلف تمامًا). يمكن أن يكون السؤال الأول عن Coca-Cola / Pepsi ، على سبيل المثال ، السؤال التالي للبيرة ، والسؤال التالي للدكتور Pepper ، وما إلى ذلك. يعتمد عدد الأسئلة على عدد العلامات التجارية.
مقاربات بديلة
هناك طريقتان أخريان. هناك تقنية تسمى "البيانات الإدراكية: النهج المشتق" حيث يتم تحلل المنتجات إلى سمات ويتم التقييم على مقياس تفاضلي دلالي. هناك طريقة أخرى وهي "نهج بيانات التفضيل" ، حيث يُسأل المستجيبون عن التفضيلات بدلاً من أوجه التشابه.
ويتكون من الخطوات التالية:
- إطلاق البرنامج الإحصائي MDS. يتوفر برنامج لتنفيذ الإجراء في العديد من حزم البرامج الإحصائية. غالبًا ما يكون هناك خيار بين MDS المتري (الذي يتعامل مع بيانات مستوى الفاصل الزمني أو النسبة) و MDS غير المتري (الذي يتعامل مع البيانات الترتيبية).
- تحديد عدد القياسات. يجب على الباحث تحديد عدد القياسات التي يريد إنشاؤها على الكمبيوتر. كلما زادت القياسات ، كان التوافق الإحصائي أفضل ، ولكن كلما كان تفسير النتائج أكثر صعوبة.
- اعرض النتائج وحدد القياسات - سيعرض البرنامج الإحصائي (أو الوحدة ذات الصلة) النتائج. ستعرض الخريطة كل منتج (عادة في 2D).الفراغ). يشير قرب المنتجات من بعضها إلى تشابهها أو تفضيلها ، اعتمادًا على النهج الذي تم استخدامه. ومع ذلك ، فإن الكيفية التي تتوافق بها القياسات فعليًا مع قياسات سلوك النظام ليست واضحة دائمًا. يمكن هنا إصدار حكم شخصي على المطابقة.
- تحقق من النتائج من حيث الموثوقية والصلاحية - احسب R-squared لتحديد نسبة تباين البيانات المقاسة التي يمكن حسابها بواسطة إجراء MDS. يعتبر المربع R 0.6 هو الحد الأدنى المقبول. يعتبر R تربيع 0.8 جيدًا للقياس المتري ، بينما يعتبر 0.9 جيدًا للقياس غير المتري.
اختبارات متنوعة
الاختبارات المحتملة الأخرى هي اختبارات الإجهاد من نوع Kruskal ، واختبارات البيانات المنقسمة ، واختبارات استقرار البيانات ، وإعادة اختبار الموثوقية. اكتب بالتفصيل عن النتائج في الاختبار. إلى جانب التعيين ، يجب تحديد مقياس المسافة على الأقل (على سبيل المثال ، مؤشر Sorenson ، مؤشر Jaccard) والموثوقية (مثل قيمة الإجهاد).
من المستحسن أيضًا إعطاء خوارزمية (مثل Kruskal و Mather) والتي غالبًا ما يتم تحديدها بواسطة البرنامج المستخدم (في بعض الأحيان يحل محل تقرير الخوارزمية) ، إذا كنت قد أعطيت تكوينًا أوليًا أو كان لديك اختيار عشوائي أو رقم من عمليات تشغيل البعد ، ونتائج مونت كارلو ، وعدد التكرارات ، ودرجة الاستقرار ، والتباين النسبي لكل محور (r-square).
المعلومات المرئية وطريقة تحليل البياناتالتحجيم متعدد الأبعاد
تصور المعلومات هو دراسة التمثيلات التفاعلية (المرئية) للبيانات المجردة لتعزيز الإدراك البشري. تتضمن البيانات المجردة كلاً من البيانات الرقمية وغير الرقمية مثل المعلومات النصية والجغرافية. ومع ذلك ، يختلف تصور المعلومات عن التصور العلمي: "إنه إعلامي (تصور المعلومات) عندما يتم اختيار التمثيل المكاني ، و scivis (التصور العلمي) عندما يتم إعطاء تمثيل مكاني."
نشأ مجال تصور المعلومات من البحث في التفاعل بين الإنسان والحاسوب ، وتطبيقات علوم الكمبيوتر ، والرسومات ، والتصميم المرئي ، وعلم النفس ، وأساليب العمل. يتم استخدامه بشكل متزايد كمكون أساسي في البحث العلمي والمكتبات الرقمية واستخراج البيانات والبيانات المالية وأبحاث السوق ومراقبة الإنتاج وما إلى ذلك.
الأساليب والمبادئ
تصور المعلومات يشير إلى أن طرق التصور والتفاعل تستفيد من ثراء الإدراك البشري ، مما يسمح للمستخدمين برؤية واستكشاف وفهم كميات كبيرة من المعلومات في وقت واحد. يهدف تصور المعلومات إلى إنشاء مناهج لتوصيل البيانات المجردة والمعلومات بطريقة بديهية.
تحليل البيانات جزء لا يتجزأ من جميع البحوث التطبيقية وحل المشكلات في الصناعة. معظمالمناهج الأساسية لتحليل البيانات هي التصور (الرسوم البيانية ، المخططات المبعثرة ، المؤامرات السطحية ، الخرائط الشجرية ، مخططات الإحداثيات المتوازية ، إلخ) ، الإحصائيات (اختبار الفرضيات ، الانحدار ، PCA ، إلخ) ، تحليل البيانات (المطابقة ، إلخ)..d.) وطرق التعلم الآلي (التجميع ، التصنيف ، أشجار القرار ، إلخ).
من بين هذه الأساليب ، يعتبر تصور المعلومات أو تحليل البيانات المرئية هو الأكثر اعتمادًا على المهارات المعرفية للموظفين التحليليين ويسمح باكتشاف رؤى غير منظمة وقابلة للتنفيذ لا يحدها سوى الخيال البشري والإبداع. لا يحتاج المحلل إلى تعلم أي تقنيات معقدة حتى يتمكن من تفسير تصورات البيانات. تصور المعلومات هو أيضًا مخطط لتوليد الفرضيات يمكن وعادة ما يكون مصحوبًا بمزيد من التحليل التحليلي أو الرسمي مثل اختبار الفرضيات الإحصائية.
دراسة
بدأت الدراسة الحديثة للتصور بالرسومات الحاسوبية ، والتي "كانت تستخدم منذ البداية لدراسة المشكلات العلمية. ومع ذلك ، في السنوات الأولى ، غالبًا ما حد الافتقار إلى قوة الرسومات من فائدتها. وبدأت الأولوية في التصور للتطوير في عام 1987 ، مع إصدار برنامج خاص لرسومات الكمبيوتر والتصور في الحوسبة العلمية ومنذ ذلك الحين ، تم تنظيم العديد من المؤتمرات وورش العمل بشكل مشترك من قبل IEEE Computer Society و ACM SIGGRAPH ".
لقد غطوا الموضوعات العامة لتصور البيانات وتصور المعلومات والتصور العلمي ،بالإضافة إلى مناطق أكثر تحديدًا مثل عرض الحجم.
ملخص
القياس متعدد الأبعاد المعمم (GMDS) هو امتداد للقياس المتري متعدد الأبعاد حيث تكون المساحة المستهدفة غير إقليدية. عندما تكون الاختلافات مسافات على سطح ما ، والمساحة المستهدفة هي سطح آخر ، فإن نظام GMDS يسمح لك بالعثور على تداخل سطح في آخر بأقل قدر من التشويه.
GMDS هي خط بحث جديد. حاليًا ، التطبيقات الرئيسية هي التعرف على الكائنات القابلة للتشوه (على سبيل المثال ، للتعرف على الوجوه ثلاثية الأبعاد) ورسم الخرائط.
الغرض من القياس متعدد الأبعاد هو تمثيل البيانات متعددة الأبعاد. قد يكون من الصعب تفسير البيانات متعددة الأبعاد ، أي البيانات التي تتطلب أكثر من بعدين أو ثلاثة أبعاد لتمثيلها. تتمثل إحدى طرق التبسيط في افتراض أن البيانات ذات الأهمية تكمن في مشعب غير خطي مضمن في مساحة عالية الأبعاد. إذا كان المجمع يحتوي على بُعد منخفض بدرجة كافية ، فيمكن تصور البيانات في مساحة منخفضة الأبعاد.
ترتبط العديد من طرق تقليل الأبعاد غير الخطية بالطرق الخطية. يمكن تصنيف الأساليب غير الخطية على نطاق واسع إلى مجموعتين: تلك التي توفر الخرائط (إما من الفضاء عالي الأبعاد إلى التضمين منخفض الأبعاد ، أو العكس) ، وتلك التي توفر التصور ببساطة. في سياق التعلم الآلي ، يمكن النظر إلى طرق رسم الخرائط على أنهامرحلة أولية لاستخراج الميزة ، وبعد ذلك يتم تطبيق خوارزميات التعرف على الأنماط. عادةً ما تستند تلك التي تعطي تصورات فقط إلى بيانات القرب - أي قياسات المسافة. يعد القياس متعدد الأبعاد أيضًا شائعًا جدًا في علم النفس والعلوم الإنسانية الأخرى.
إذا كان عدد السمات كبيرًا ، فإن مساحة السلاسل الفريدة الممكنة تكون أيضًا كبيرة بشكل كبير. وبالتالي ، كلما كان البعد أكبر ، أصبح تصوير الفضاء أكثر صعوبة. هذا يسبب الكثير من المشاكل. تميل الخوارزميات التي تعمل على بيانات عالية الأبعاد إلى التعقيد الزمني للغاية. غالبًا ما يؤدي تقليل البيانات إلى أبعاد أقل إلى جعل خوارزميات التحليل أكثر كفاءة ويمكن أن تساعد خوارزميات التعلم الآلي في إجراء تنبؤات أكثر دقة. هذا هو السبب في أن تحجيم البيانات متعددة الأبعاد شائع جدًا.