تنقيب البيانات هو المفهوم وتحليل الخوارزمية والغرض والتطبيق

جدول المحتويات:

تنقيب البيانات هو المفهوم وتحليل الخوارزمية والغرض والتطبيق
تنقيب البيانات هو المفهوم وتحليل الخوارزمية والغرض والتطبيق
Anonim

تطوير تكنولوجيا المعلومات يأتي بنتائج عملية. لكن مهام مثل البحث عن المعلومات وتحليلها واستخدامها لم تحصل بعد على أداة فعالة عالية الجودة. هناك تحليلات وأدوات كمية ، إنها تعمل حقًا. لكن ثورة نوعية في استخدام المعلومات لم تحدث بعد.

قبل ظهور تكنولوجيا الكمبيوتر بوقت طويل ، كان الشخص بحاجة إلى معالجة كميات كبيرة من المعلومات والتعامل مع ذلك بأفضل ما لديه من خبرة وقدرات تقنية متاحة.

إن تطوير المعرفة والمهارات يلبي دائمًا الاحتياجات الحقيقية ويتوافق مع المهام الحالية. التنقيب عن البيانات هو اسم جماعي يستخدم للإشارة إلى مجموعة من الأساليب لاكتشاف المعرفة غير المعروفة سابقًا وغير التافهة والمفيدة عمليًا والتي يمكن الوصول إليها في البيانات ، وهي ضرورية لاتخاذ القرارات في مختلف مجالات النشاط البشري.

إنسان، ذكاء، برمجة

يعرف الشخص دائمًا كيف يتصرف في أي موقف.الجهل أو الموقف غير المألوف لا يمنعه من اتخاذ القرار. يمكن التشكيك في موضوعية ومعقولية أي قرار بشري ، لكن سيتم قبوله.

الذكاء يقوم على: "آلية" وراثية ، مكتسبة ، معرفة نشطة. يتم تطبيق المعرفة لحل المشاكل التي تظهر أمام الإنسان.

  1. الذكاء هو مجموعة فريدة من المعرفة والمهارات: الفرص والأسس لحياة الإنسان وعمله.
  2. الذكاء يتطور باستمرار ، وتصرفات البشر لها تأثير على الآخرين.

البرمجة هي المحاولة الأولى لإضفاء الطابع الرسمي على تمثيل البيانات وعملية إنشاء الخوارزميات.

رجل ، ذكاء ، برمجة
رجل ، ذكاء ، برمجة

الذكاء الاصطناعي (AI) مضيعة للوقت والموارد ، لكن نتائج المحاولات الفاشلة للقرن الماضي في مجال الذكاء الاصطناعي بقيت في الذاكرة ، واستخدمت في أنظمة خبراء (ذكية) مختلفة وتم تحويلها ، على وجه الخصوص ، في الخوارزميات (القواعد) وتحليل البيانات الرياضية (المنطقية) واستخراج البيانات.

المعلومات والبحث المعتاد عن حل

المكتبة العادية هي مستودع للمعرفة ، والكلمات والرسومات المطبوعة لم تثمر راحة اليد لتكنولوجيا الكمبيوتر. كتب في الفيزياء ، والكيمياء ، والميكانيكا النظرية ، والتصميم ، والتاريخ الطبيعي ، والفلسفة ، والعلوم الطبيعية ، وعلم النبات ، والكتب المدرسية ، والدراسات ، وأعمال العلماء ، ومواد المؤتمرات ، وتقارير أعمال التطوير ، وما إلى ذلك دائمًا ما تكون ذات صلة وموثوق بها.

المكتبة هي الكثير من المصادر المختلفة التي تختلفشكل عرض المادة ، الأصل ، الهيكل ، المحتوى ، أسلوب العرض ، إلخ.

المكتبة: الكتب والمجلات والمواد المطبوعة الأخرى
المكتبة: الكتب والمجلات والمواد المطبوعة الأخرى

ظاهريًا كل شيء مرئي (يمكن قراءته ، سهل الوصول إليه) للفهم والاستخدام. يمكنك حل أي مشكلة ، أو تعيين المهمة بشكل صحيح ، أو تبرير الحل ، أو كتابة مقال أو ورقة مصطلح ، أو تحديد مادة للحصول على دبلوم ، أو تحليل المصادر حول موضوع أطروحة أو تقرير علمي وتحليلي.

يمكن حل أي مشكلة تتعلق بالمعلومات. مع المثابرة والمهارة اللازمتين ، سيتم الحصول على نتيجة دقيقة وموثوقة. في هذا السياق ، يعد استخراج البيانات نهجًا مختلفًا تمامًا.

بالإضافة إلى النتيجة ، يتلقى الشخص "روابط نشطة" لكل ما تم عرضه في عملية تحقيق الهدف. يمكن الرجوع إلى المصادر التي استخدمها في حل المشكلة ولن يجادل أحد في حقيقة وجود المصدر. هذا ليس ضمانًا للأصالة ، ولكنه شهادة أكيدة لمن "لا يُكتَبَف" بمسؤولية الأصالة. من وجهة النظر هذه ، يعني التنقيب في البيانات شكوكًا كبيرة حول الموثوقية وعدم وجود روابط "نشطة".

من خلال حل العديد من المشكلات ، يحصل الشخص على نتائج وتوسع إمكاناته الفكرية إلى العديد من "الروابط النشطة". إذا قامت مهمة جديدة "بتنشيط" ارتباط موجود بالفعل ، فسوف يعرف الشخص كيفية حلها: ليست هناك حاجة للبحث عن أي شيء مرة أخرى.

"الرابط النشط" هو ارتباط ثابت: كيف وماذا تفعل في حالة معينة. يتذكر دماغ الإنسان تلقائيًا كل ما يبدو له أنه مثير للاهتمام ومفيد.أو من المحتمل أن تكون هناك حاجة إليها في المستقبل. من نواحٍ عديدة ، يحدث هذا على مستوى اللاوعي ، ولكن بمجرد ظهور مهمة يمكن ربطها بـ "رابط نشط" ، فإنها تنبثق على الفور في العقل وسيتم الحصول على حل دون بحث إضافي عن المعلومات. يعد التنقيب عن البيانات دائمًا تكرارًا لخوارزمية البحث ولا تتغير هذه الخوارزمية.

بحث منتظم: مشاكل "فنية"

مكتبة الرياضيات والبحث عن المعلومات فيها مهمة ضعيفة نسبيًا. إن إيجاد طريقة أو بأخرى لحل تكامل أو بناء مصفوفة أو إجراء عملية إضافة رقمين تخيليين أمر شاق ولكنه بسيط. تحتاج إلى فرز عدد من الكتب ، وكثير منها مكتوب بلغة معينة ، والعثور على النص الصحيح ، ودراسته ، والحصول على الحل المطلوب.

بمرور الوقت ، سيصبح التعداد مألوفًا ، وستسمح لك الخبرة المتراكمة بالتنقل في معلومات المكتبة والمشكلات الرياضية الأخرى. هذه مساحة معلومات محدودة للأسئلة والأجوبة. ميزة مميزة: مثل هذا البحث عن المعلومات يراكم المعرفة لحل مشاكل مماثلة. بحث الشخص عن المعلومات يترك في ذاكرته آثارًا ("روابط نشطة") على الحلول الممكنة لمشاكل أخرى.

في الخيال ، ابحث عن إجابة السؤال: "كيف عاش الناس في كانون الثاني (يناير) 1248؟" صعب جدا. بل إن الإجابة عن سؤال حول ما كان موجودًا على أرفف المتاجر وكيف تم تنظيم تجارة المواد الغذائية أمر أكثر صعوبة. حتى لو كتب أحد الكتاب عن هذا بوضوح وبشكل مباشر في روايته ، إذا كان من الممكن العثور على اسم هذا الكاتب ، فإن الشكوك حول ذلكستبقى موثوقية البيانات الواردة. الموثوقية هي خاصية مهمة لأي كمية من المعلومات. المصدر والكاتب والدليل الذي يستبعد زيف النتيجة مهم

الظروف الموضوعية لحالة معينة

يرى الإنسان ، ويسمع ، ويشعر. بعض المتخصصين يجيدون شعورًا فريدًا - الحدس. يتطلب بيان المشكلة معلومات ، وغالبًا ما تكون عملية حل المشكلة مصحوبة بصقل بيان المشكلة. هذه هي المشكلة الأقل التي تأتي مع نقل المعلومات إلى أحشاء نظام الكمبيوتر.

المعلومات في الفضاء الافتراضي
المعلومات في الفضاء الافتراضي

تعد المكتبة وزملاء العمل مشاركين غير مباشرين في عملية اتخاذ القرار. تصميم الكتاب (المصدر) ، والرسومات في النص ، وميزات تقسيم المعلومات إلى عناوين ، والحواشي حسب العبارات ، وفهرس الموضوع ، وقائمة المصادر الأولية - كل شيء يثير ارتباطات في شخص تؤثر بشكل غير مباشر على عملية الحل المشكلة

وقت ومكان حل المشكلة ضروري. الشخص مرتب لدرجة أنه ينتبه بشكل لا إرادي إلى كل ما يحيط به في عملية حل المشكلة. يمكن أن يكون مشتتًا أو محفزًا. لن "يفهم" التنقيب في البيانات أبدًا.

معلومات في الفضاء الافتراضي

كان الشخص دائمًا مهتمًا فقط بالمعلومات الموثوقة حول حدث أو ظاهرة أو كائن أو خوارزمية لحل مشكلة. لطالما تخيل الإنسان بالضبط كيف يمكنه تحقيق الهدف المنشود.

ظهور أجهزة الكمبيوتر وأنظمة المعلومات كان من المفترض أن يجعل الحياة أسهل بالنسبة للإنسان ، لكن كل شيء أصبح أكثر تعقيدًا.انتقلت المعلومات إلى أحشاء أنظمة الكمبيوتر واختفت عن الأنظار. لتحديد البيانات الضرورية ، تحتاج إلى إنشاء خوارزمية صحيحة أو صياغة استعلام لقاعدة البيانات.

البيانات داخل نظام المعلومات
البيانات داخل نظام المعلومات

السؤال يجب أن يكون صحيحا. عندها فقط يمكنك الحصول على إجابة. لكن الشكوك حول صحة ما زالت قائمة. بهذا المعنى ، فإن التنقيب عن البيانات هو في الحقيقة "حفريات" ، إنه "استخراج معلومات". هذه هي الطريقة التي من المألوف ترجمة هذه العبارة. النسخة الروسية هي تقنية التنقيب عن البيانات أو تقنية التنقيب عن البيانات.

في أعمال المتخصصين المعتمدين ، يشار إلى مهام التنقيب في البيانات على النحو التالي:

  • التصنيف ؛
  • العنقودية ؛
  • ارتباط ؛
  • تسلسل ؛
  • التنبؤ.

من وجهة نظر الممارسة التي توجه الشخص في المعالجة اليدوية للمعلومات ، كل هذه المواقف قابلة للنقاش. على أي حال ، يقوم الشخص بمعالجة المعلومات تلقائيًا ولا يفكر في تصنيف البيانات أو تجميع مجموعات مواضيعية من الكائنات (التجميع) أو البحث عن الأنماط الزمنية (التسلسل) أو التنبؤ بالنتيجة.

يتم تمثيل كل هذه المواقف في العقل البشري من خلال المعرفة النشطة ، والتي تغطي المزيد من المواقف وتستخدم ديناميكيًا منطق معالجة البيانات الأولية. يلعب العقل الباطن للإنسان دورًا مهمًا ، خاصةً عندما يكون متخصصًا في مجال معرفي معين.

مثال: بيع معدات الكمبيوتر بالجملة

المهمة بسيطة. هناك العديدالعشرات من موردي أجهزة الكمبيوتر والأجهزة الطرفية. يحتوي كل منها على قائمة أسعار بتنسيق xls (ملف Excel) ، والتي يمكن تنزيلها من الموقع الرسمي للمورد. مطلوب لإنشاء مورد ويب يقرأ ملفات Excel ويحولها إلى جداول قاعدة بيانات ويسمح للعملاء بتحديد المنتجات المطلوبة بأقل الأسعار.

تظهر المشاكل على الفور. يقدم كل مورد نسخته الخاصة من هيكل ومحتوى ملف xls. يمكنك الحصول على الملف عن طريق تنزيله من موقع المورد ، أو طلبه عن طريق البريد الإلكتروني ، أو الحصول على رابط تنزيل من خلال حسابك الشخصي ، أي بالتسجيل رسميًا لدى المورد.

Virtual Computer Store
Virtual Computer Store

حل المشكلة (في البداية) بسيط من الناحية التكنولوجية. تحميل الملفات (البيانات الأولية) ، تتم كتابة خوارزمية التعرف على الملفات لكل مورد ويتم وضع البيانات في جدول واحد كبير للبيانات الأولية. بعد استلام جميع البيانات ، بعد إنشاء آلية التبادل المستمر (يوميًا أو أسبوعيًا أو عند التغيير) للبيانات الحديثة:

  • تشكيلة التغيير
  • تغير الأسعار ؛
  • توضيح الكمية في المخزون
  • تعديل شروط الضمان والمواصفات وما إلى ذلك.

هنا تبدأ المشاكل الحقيقية. الشيء هو أن المورد يمكنه كتابة:

  • دفتر ايسر ؛
  • دفتر آسوس ؛
  • كمبيوتر محمول من Dell.

نحن نتحدث عن نفس المنتج ، ولكن من مختلف الصانعين. كيفية مطابقة الكمبيوتر المحمول=كمبيوتر محمول أو كيفية إزالة Acer و Asus و Dell من خط الإنتاج؟

لالإنسان ليس مشكلة ، ولكن كيف ستفهم الخوارزمية أن أيسر ، آسوس ، ديل ، سامسونج ، إل جي ، إتش بي ، سوني هي علامات تجارية أو موردين؟ كيف يمكن مطابقة "الطابعة" والطابعة و "الماسح الضوئي" و "الطابعة متعددة الوظائف" و "الناسخة" و "الطابعة متعددة الوظائف" و "سماعات الرأس" و "سماعة الرأس" و "الملحقات" مع "الملحقات"؟

يعد إنشاء شجرة فئة بناءً على بيانات المصدر (ملفات المصدر) مشكلة بالفعل عندما تحتاج إلى ضبط كل شيء على تلقائي.

أخذ عينات البيانات: التنقيب عن "المصبوبة حديثًا"

تم حل مهمة إنشاء قاعدة بيانات لموردي أجهزة الكمبيوتر. تم بناء شجرة من الفئات ، يعمل جدول مشترك مع عروض من جميع الموردين.

المهام النموذجية لاستخراج البيانات في سياق هذا المثال:

  • ابحث عن منتج بأقل سعر ؛
  • حدد العنصر بأقل تكلفة وسعر شحن ؛
  • تحليل المنتج: الخصائص والأسعار حسب المعايير.

في العمل الحقيقي للمدير باستخدام البيانات من عدة عشرات من الموردين ، سيكون هناك العديد من الاختلافات في هذه المهام ، وحتى المزيد من المواقف الواقعية.

على سبيل المثال ، هناك مورد "A" يبيع ASUS VivoBook S15: الدفع المسبق ، والتسليم بعد 5 أيام من الاستلام الفعلي للمال. يوجد مورد "ب" لنفس المنتج من نفس الطراز: الدفع عند الاستلام ، التسليم بعد إبرام العقد خلال يوم واحد ، السعر أعلى مرة ونصف.

بدء التنقيب في البيانات - "التنقيب". التعبيرات التصويرية: "التنقيب" أو "التنقيب عن البيانات" مترادفات. يتعلق الأمر بكيفية الحصول على سبب لاتخاذ القرار.

الموردون "أ" و "ب" لديهم تاريخ من عمليات التسليم. رتبةالدفع المسبق في الحالة الأولى مقابل الدفع عند الاستلام في الحالة الثانية ، مع مراعاة أن فشل التسليم في الحالة الثانية أعلى بنسبة 65٪. مخاطر العقوبات من العميل أعلى / أقل. كيف وماذا تحدد وما هو القرار الذي يجب اتخاذه؟

من ناحية أخرى: تم إنشاء قاعدة البيانات من قبل مبرمج ومدير. إذا تغير المبرمج والمدير ، كيف تحدد الحالة الحالية لقاعدة البيانات وتتعلم كيفية استخدامها بشكل صحيح؟ سيكون عليك أيضًا القيام بالتنقيب عن البيانات. يقدم تعدين البيانات مجموعة متنوعة من الأساليب الرياضية والمنطقية التي لا تهتم بنوع البيانات التي يتم البحث عنها. هذا يعطي الحل الصحيح في بعض الحالات ولكن ليس في كل شيء.

الانتقال إلى الافتراضية وإيجاد المعنى

أساليب التنقيب في البيانات تصبح ذات مغزى بمجرد كتابة المعلومات في قاعدة البيانات واختفاءها من "مجال الرؤية". تعتبر التجارة في أجهزة الكمبيوتر مهمة مثيرة للاهتمام ، لكنها مجرد عمل تجاري. مدى تنظيمه في الشركة يعتمد على نجاحها.

التغيرات المناخية على الكوكب والطقس في مدينة معينة تهم الجميع ، وليس خبراء المناخ المحترفين فقط. الآلاف من أجهزة الاستشعار تأخذ قراءات الرياح والرطوبة والضغط وبيانات من أقمار صناعية للأرض وهناك تاريخ للبيانات لسنوات وقرون.

لا تتعلق بيانات الطقس فقط بتقرير ما إذا كنت تريد إحضار مظلة للعمل أم لا. تقنيات تعدين البيانات هي الرحلة الآمنة لطائرة ، والتشغيل المستقر للطريق السريع والإمداد الموثوق به للمنتجات البترولية عن طريق البحر.

يتم إرسال البيانات "الخام" إلى المعلوماتالنظام. تتمثل مهام التنقيب في البيانات في تحويلها إلى نظام منهجي للجداول ، وإنشاء روابط ، وتمييز مجموعات من البيانات المتجانسة ، واكتشاف الأنماط.

المناخ والطقس والبيانات الخام
المناخ والطقس والبيانات الخام

الأساليب الرياضية والمنطقية منذ أيام التحليلات الكمية أظهرت OLAP (المعالجة التحليلية عبر الإنترنت) مدى فعاليتها. هنا التكنولوجيا تتيح لك إيجاد المعنى وعدم فقدانه كما في مثال بيع أجهزة الكمبيوتر

علاوة على ذلك ، في المهام العامة:

  • شركة عبر وطنية ؛
  • إدارة النقل الجوي ؛
  • دراسة احشاء الارض او المشاكل الاجتماعية (على مستوى الولاية) ؛
  • دراسة تأثير الأدوية على الكائن الحي ؛
  • توقع عواقب إنشاء مؤسسة صناعية ، إلخ.

تقنيات منجم البيانات وتحويل البيانات "التي لا معنى لها" إلى بيانات حقيقية تتيح لك اتخاذ قرارات موضوعية هو الخيار الوحيد.

تنتهي الإمكانيات البشرية حيث توجد كمية كبيرة من المعلومات الخام. تفقد أنظمة التنقيب عن البيانات فائدتها عندما تكون مطلوبة لرؤية المعلومات وفهمها والإحساس بها.

التوزيع المعقول للوظائف والموضوعية

يجب أن يكمل الإنسان والكمبيوتر بعضهما البعض - هذه بديهية. تعد كتابة أطروحة أولوية بالنسبة لأي شخص ، ونظام المعلومات يساعد. هنا ، البيانات التي تمتلكها تقنية التنقيب عن البيانات هي الاستدلال والقواعد والخوارزميات.

إعداد توقعات الطقس الأسبوعية هو أولوية نظام المعلومات.يدير البيانات ، لكنه يبني قراراته على نتائج حسابات النظام. فهو يجمع بين أساليب التنقيب في البيانات ، وتصنيف البيانات المتخصصة ، والتحكم اليدوي في تطبيق الخوارزميات ، والمقارنة التلقائية للبيانات السابقة ، والتنبؤ الرياضي ، والكثير من المعرفة والمهارات للأشخاص الحقيقيين المشاركين في تطبيق نظام المعلومات.

الانسان والكمبيوتر
الانسان والكمبيوتر

نظرية الاحتمالات والإحصاء الرياضي ليست أكثر مجالات المعرفة "المفضلة" والمفهومة. كثير من المتخصصين بعيدون جدًا عنهم ، لكن الأساليب التي تم تطويرها في هذه المجالات تعطي نتائج صحيحة بنسبة 100٪ تقريبًا. من خلال تطبيق الأنظمة القائمة على الأفكار والأساليب والخوارزميات الخاصة باستخراج البيانات ، يمكن الحصول على الحلول بموضوعية وموثوقية. خلاف ذلك ، من المستحيل ببساطة الحصول على حل.

الفراعنة و ألغاز القرون الماضية

تمت إعادة كتابة التاريخ بشكل دوري:

  • ولايات - من أجل مصالحهم الاستراتيجية ؛
  • علماء موثوقون - من أجل معتقداتهم الذاتية.

من الصعب معرفة ما هو صحيح وما هو خطأ. يتيح لنا استخدام التنقيب في البيانات حل هذه المشكلة. على سبيل المثال ، وصف المؤرخون تقنية بناء الأهرامات ودرسها العلماء في قرون مختلفة. لم يتم الحصول على جميع المواد على الإنترنت ، وليس كل شيء فريدًا هنا ، وقد لا تحتوي العديد من البيانات على:

  • وصف النقطة الزمنية ؛
  • وقت كتابة الوصف
  • التواريخ التي يستند إليها الوصف ؛
  • مؤلف (مؤلفون) ، آراء (روابط) مأخوذة في الاعتبار ؛
  • تأكيد الموضوعية.

بمكتبات ومعابد و "أماكن غير متوقعة" يمكنك أن تجد مخطوطات من قرون مختلفة وأدلة مادية من الماضي.

هدف مثير للاهتمام: وضع كل شيء معًا واكتشاف "الحقيقة". سمة المشكلة: يمكن الحصول على المعلومات من الوصف الأول من قبل مؤرخ ، خلال حياة الفراعنة ، إلى القرن الحالي ، حيث تم حل هذه المشكلة بالطرق الحديثة من قبل العديد من العلماء.

الأساس المنطقي لاستخدام التنقيب في البيانات: العمل اليدوي غير ممكن. كميات كثيرة جدًا:

  • مصادر المعلومات ؛
  • لغات التمثيل
  • الباحثون يصفون الشيء نفسه بطرق مختلفة ؛
  • التواريخ والأحداث والشروط ؛
  • مشاكل ارتباط المصطلح ؛
  • قد يختلف تحليل الإحصائيات حسب مجموعات البيانات بمرور الوقت ، إلخ.

في نهاية القرن الماضي ، عندما أصبح إخفاقًا آخر لفكرة الذكاء الاصطناعي واضحًا ليس فقط للشخص العادي ، ولكن أيضًا لمتخصص متطور ، ظهرت الفكرة: "إعادة تكوين الشخصية".

على سبيل المثال ، وفقًا لأعمال Pushkin و Gogol و Chekhov ، يتم تشكيل نظام معين من القواعد ، يتم تشكيل منطق السلوك وإنشاء نظام معلومات يمكنه الإجابة على أسئلة معينة كما يفعل الشخص: Pushkin أو Gogol أو تشيخوف. من الناحية النظرية ، مثل هذه المهمة مثيرة للاهتمام ، ولكن من الناحية العملية يصعب تنفيذها.

ومع ذلك ، فإن فكرة مثل هذه المهمة تقترح فكرة عملية للغاية: "كيفية إنشاء بحث ذكي عن المعلومات." الإنترنت عبارة عن الكثير من الموارد النامية وقاعدة بيانات ضخمة وهذه فرصة رائعة لتطبيق التنقيب في البيانات مع البشرالمنطق في شكل التنمية المشتركة.

الآلة والرجل معا
الآلة والرجل معا

إقران آلة ورجل هي مهمة ممتازة ونجاح بلا شك في مجال "علم آثار المعلومات" ، حفريات عالية الجودة في البيانات والنتائج التي ستضع شيئًا ما موضع شك ، ولكن بدون شك ستسمح لك لاكتساب معرفة جديدة وسيكون الطلب عليها في المجتمع.

موصى به: