التحليل الإحصائي وأكثر البرامج استخداماً
ما هو التحليل الإحصائي؟
قبل كل شيء يعد التحليل الإحصائي هو الطريقة العلمية لجمع ومعالجة وتطبيق مجموعة من الأساليب الإحصائية لاكتشاف الأفكار أو النمط الأساسي للبيانات. ومع الزيادة في البيانات والعمليات البحثية المتزايدة، فإن التحليل الإحصائي يدمج الكثير من البيانات المنظمة وغير المنظمة. إلى جانب الوصول إلى الدوال الإحصائية التي تختصر هذه البيانات وتخرج النسب والقيم. وتعتبر عملية التحليل الإحصائي إحدى الانجازات التي تمت خلالها جعل البيانات غير المفيدة ذات فائدة يمكن استخدامها كبراهين للمعلومات داخل البحث. ويأتي التحليل الإحصائي بمجموعة من المنهجيات والأدوات الإحصائية لمعالجة المشكلة.
كيف يتم إجراء التحليل الإحصائي؟
التحليل الإحصائي هو عملية يتم خالها ادخال البيانات في قاعد حسابية للوصول إلى حل بعض المعادلات التي ينتج عنها نسب وقيم رقمية هامة. ودعونا نناقش الأساليب الأكثر شيوعاً لتحليل البيانات الإحصائية:
البحث عن الاتجاه المركزي:
أثناء العمل مع البيانات الهيكلية، غالباً ما تكون الخطوة الأولية هي الحصول على فكرة عن الاتجاه المركزي لمجموعة البيانات. وافترض أنك تقوم بتحليل بيانات الراتب لمؤسسة ما. إذاً قد تكون مهتماً بالأسئلة التالية مثل ما هو متوسط الراتب لمدير يعمل في المؤسسة لمدة 3 سنوات بمؤهلات فلان وكذا؟ يتم استخدام ما يلي كمقياس للاتجاه المركزي.
أولاً المتوسط هو في الأساس متوسط جميع نقاط البيانات. المتوسط هو إجمالي الراتب مقسوماً على عدد نقاط البيانات. و كذلك عندما نبحث عن معلومات مثل متوسط الراتب، سيكون الوسيط مقياساً أكثر قوة. و كذلك المنوال هو القيمة الأكثر شيوعاً في قائمة الأرقام. لنفترض أننا نتعامل مع قائمة أرقام [12، 33، 44، 55، 67، 55، 8، 55]، هنا المنوال هو 55.
البحث عن التشتت:
التشتت هو قياس التباين في البيانات. ويساعدنا التشتت على معرفة كيف تختلف نقطة البيانات عن اتجاهها المركزي. يعد العثور على التوزيع المناسب أمراً مهماً لتحديد خوارزمية التعلم الآلي التي يجب استخدامها بناءً على حالة الاستخدام. فمنها الانحراف المعياري يحدد الانحراف المعياري مدى اختلاف نقطة البيانات عن اتجاهها المركزي (التشتت). كلما انخفضت القيمة، زادت مطابقة نقاط البيانات مع قيمتها المركزية.
أما الفرق هو مربع الانحراف المعياري. يعطينا التباين انتشار (تغير) البيانات. أثناء العمل مع البيانات عالية الأبعاد، غالباً ما نتوصل إلى موقف نحتاج فيه إلى تقليل الأبعاد أو تحليل المتغيرات المهمة لمجموعة البيانات. في مثل هذه الحالات، نقوم بتحويل المحور بطريقة يتم الحفاظ على الحد الأقصى من التباين. يسمى هذا المحور الدوار الجديد بالمكونات الرئيسية. ثم بعدها نختار N مكونات مهمة (محور ذو تباين عالٍ) من المكونات الدوارة.
مشاكل الانحدار:
الانحدار هو مجموعة من المشكلات حيث يكون المتغير المستقل متغيراً مستمراً. على سبيل المثال/ لدينا بيانات المبيعات التاريخية لمصنعي السيارات وعوامل مختلفة تؤثر على عملية تصنيع السيارات والمبيعات. ومن ثم نحتاج إلى التنبؤ بمبيعات علامة تجارية معينة. سنقوم الآن بصياغة مشكلة الانحدار كـ “العثور على مبيعات ماركة سيارات ABC بناءً على العوامل x1 وx2 وx3 وما إلى ذلك.
مزايا استخدام التحليل الإحصائي:
فيما يلي النقاط التي تشرح مزايا استخدام التحليل الإحصائي:
في عصر البيانات الضخمة، أثناء تنفيذ أي حالة استخدام للتعلم الآلي من الأهمية أن نختار العينة من بحيرة البيانات الضخمة. وهكذا يساعدنا التحليل الإحصائي على تحديد منهجية أخذ العينات المناسبة (أي العشوائية، والعشوائية بدون استبدال، وأخذ العينات الطبقية، إلخ) و كذلك تقليل تحيز أخذ العينات.
على سبيل المثال/ نحن نتعامل مع مشكلة التصنيف الثنائي حيث تنتمي 80% من نقاط البيانات إلى الفئة أ و20% فقط تنتمي إلى الفئة ب. والآن إذا أردنا إجراء أي اختبار إحصائي على عينات من السكان، فيجب علينا التأكد من العينات هي أيضاً في نسبة 80:20. سواء كان أخذ العينات أو اتخاذ القرار، فإن أساس التحليل الإحصائي هو بيانات تاريخية. هذا يجعل تحليل البيانات الإحصائية أكثر قبولاً كمعيار صناعي من عملية يدوية أخرى لتحليل البيانات.
لماذا نحتاج إلى التحليل الإحصائي؟
الهدف الرئيسي من التحليل الإحصائي هو العثور على رؤى قيمة من البيانات التي يمكن استخدامها لاكتشاف اتجاهات الصناعة. ومعدل تناقص العملاء لمنتج أو خدمة، واتخاذ قرار تجاري قيم، وما إلى ذلك. من جمع البيانات للعثور على الأنماط الأساسية للبيانات. يعد التحليل الإحصائي أساس جميع المنهجيات المعتمدة على البيانات والتعلم الآلي الكلاسيكي.
نطاق التحليل الإحصائي:
فيما يلي النقاط التي توضح نطاق التحليل الإحصائي: في عالم اليوم، يتحول المزيد والمزيد من الصناعات إلى أنظمة صنع القرار القائمة على البيانات بدلاً من الأساليب التقليدية المستندة إلى القواعد الحتمية. يتم استخدام التحليل الإحصائي في الغالب لحل مشاكل الأعمال المختلفة عبر المجالات. مثل التصنيع والتأمين والخدمات المصرفية والمالية والسيارات وما إلى ذلك من وجهة نظر الصناعة. و كذلك من منظور تقني، يساعد التحليل الإحصائي في حل الانحدار الخطي وتنبؤ السلاسل الزمنية والتحليل التنبئي وما إلى ذلك.
برمجيات التحليل الإحصائي
أدام سوفت (Adam Soft):
برنامج تحليل إحصائي مجاني ومفتوح المصدر، تم تطويره في جافا. لهذا السبب يمكن تشغيل هذا البرنامج على أي نظام يدعم برنامج جافا. تم تطويره في البداية كنموذج أولي سهل الاستخدام من البرامج الإحصائية، و كذلك كان يسمى WinIDAMS في البداية. في وقت لاحق تمت إضافة العديد من الأنشطة إلى نفس المجموعة واستخدمتها المجموعة الإحصائية CASPUR التي تعد جزءاً من مجموعة Adams. عندما تمت إضافة أدوات شاملة إلى الأداة، تم إصدارها إلى مجتمع الويب كبرنامج Adam Soft. يمكن لـ Adam Soft تنفيذ مجموعة واسعة من الأساليب التحليلية مثل التنقيب عن البيانات. طرق ربط السجلات، و كذلك الانحدار، والانحدار الخطي، وتحليل الكتلة، وتحليل المراسلات، وتحرير البيانات، والرسوم البيانية وغيرها الكثير. بالإضافة إلى ذلك، يمكنه أيضاً قراءة وكتابة قيم البيانات الإحصائية من عدد من المصادر على سبيل المثال الملفات النصية وجداول بيانات اكسل.
Bayesian Filtering Library:
تعد مكتبة C ++ مفتوحة المصدر، تعد مكتبة Bayesian Filtering جزءاً من مشروعorocos. يعمل هذا النظام على منصات مختلفة بما في ذلك Mac OSX وMicrosoft وLinux. تتضمن بعض ميزات هذا النظام الأكثر ليونة الأنظمة القائمة على الشبكة.
برنامج Cbecon:
يُعرف أيضاً باسم البرامج الاقتصادية والإحصائية القائمة على السحابة، Cbecon هو برنامج مجاني للاقتصاد القياسي والإحصاء. لا يتطلب هذا البرنامج أي تنزيل أو تثبيت من جانب المستخدم لأنه يعمل بالكامل على أساس الإنترنت. كان هذا البرنامج قيد الإنشاء منذ عام 2012 وتم إطلاقه في مايو 2014. تم تصميم Cbecon ليكون سهل الاستخدام، وهو متوافق مع عدد من الأنظمة بما في ذلك متصفحات سطح المكتب والهواتف الذكية. بالإضافة إلى ذلك، يمكن أن يعمل برنامج Cbecon أيضاً كسطر أوامر أو كنقطة والنقر فوق البرنامج. تتضمن بعض خيارات المكتبة لذلك الآلة الحاسبة (العمليات الأساسية مثل الجمع والطرح والضرب بالإضافة إلى ميزات القوة والمضروب). وعمليات المصفوفة بما في ذلك الانعكاس والضرب والنقل ومعالجة SQL والتحليل الوصفي، الانحدار متعدد المتغيرات.
برنامج Mondrian:
برنامج تصور البيانات الإحصائية للأغراض العامة، يقدم Mondrian أدوات تصور البيانات التفاعلية. ويقدم هذا البرنامج مجموعة من التفاعلات والاستفسارات أيضاً. بالإضافة إلى ذلك. تتكون بعض المخططات المنفذة من Mosaic Plat وscatterplots وSPOM Maps و كذلك Barcharts وHistograms وBoxplots وغيرها. يوفر هذا النظام أيضاً دعماً أساسياً للعمل مباشرة على البيانات في قواعد البيانات. بالإضافة إلى ذلك، يقدم هذا البرنامج أيضاً إجراءات إحصائية مثل تجانس مخطط التشتت، والقياس متعدد الأبعاد، وتقدير الكثافة التفاعلي، وتحليل المكون الرئيسي.
برنامج Pandas:
مكتبة برمجية مكتوبة للغة الباندا في بايثون يستخدم في معالجة البيانات وتحليلها. توفر هذه الأداة أو البرنامج هياكل البيانات والعمليات. والتي يمكن استخدامها لمعالجة الجداول العددية والسلاسل الزمنية. يعد برنامج مجاني، تم إصدار Pandas بموجب ترخيص BSD المكون من ثلاث فقرات. و كذلك تم تطوير Pandas بواسطة Wes McKinney الذي بدأ العمل على هذا البرنامج في عام 2008. تم تطوير Pandas من الحاجة إلى إنشاء أداة عالية الأداء للتحليل الكمي للبيانات المالية. أحد أشهر برامج المكتبات داخل المجتمع. تتضمن بعض ميزات Pandas ما يلي: تحتوي Pandas على كائن إطار بيانات يمكن استخدامه لمعالجة البيانات جنباً إلى جنب مع الفهرسة المتكاملة. وهكذا يحتوي البرنامج على أدوات لقراءة البيانات وكتابتها ليس فقط في هياكل بيانات الذاكرة ولكن لمختلف تنسيقات الملفات كذلك.
برنامج Shogun (صندوق الأدوات):
صندوق أدوات مجاني ومفتوح المصدر مكتوب بلغةc++، يقدم Shogun العديد من الخوارزميات وهياكل البيانات لمشاكل التعلم الآلي. مرخصة بموجب شروط رخصة GNU العمومية العامة. يركز Shogun على آلات ناقلات الدعم لمشاكل التصنيف والانحدار. بالإضافة إلى ذلك، يوفر برنامج التحليل الإحصائي هذا أيضاً التنفيذ الكامل لنماذج Hidden Markov أيضاً.
تقدم Shogun أيضاً واجهات لـ Octave وR وJava وRuby وC # من بين آخرين وهي نشطة منذ عام 1999. تم استخدام Shogun كقاعدة لقطاعات البحث والتعليم أيضاً. تتمثل إحدى أهم ميزات Shogun في أن البرنامج قد تم تطويره باستخدام تطبيقات المعلوماتية الحيوية وهو قادر على معالجة مجموعات البيانات الضخمة التي تتكون من 10 ملايين عينة. من خلال دعم استخدام النوى المحسوبة مسبقاً، يتيح Shogun للمستخدمين إمكانية استخدام حبات مجمعة من مجموعات الخطوط المنتظمة من المجالات المختلفة أيضاً. تتضمن بعض المجالات التي يدعمها Shogun خوارزميات التعلم عبر الإنترنت مثل SGD-QN وVowpal Rabbit، ونماذج ماركوف المخفية، وتحليل التمايز الخطي، وخوارزميات تقليل الأبعاد، وغيرها.
برنامج :spss
برنامج spss هو البرنامج رقم واحد في اجراء عملية التحليل الإحصائي من حيث الجودة والسرعة ودقة المخرجات واكتمالها، وذلك لأن هذا البرنامج صنع خصيصاً للقيام بهذه العملية وفقاً لخوارزميات برمجية متقدمة تتماشى مع متطلبات العصر الحديث، وأكثر ما يميز برنامج spss في اجراء عملية التحليل الإحصائي هو وجود كافة الدوال الخاصة بمقاييس النزعة المركزية والتشتت وما إلى ذلك من دوال أخرى تدخل في عملية التحليل الإحصائي، و كذلك فإن برنامج spss يتميز بقدرته على التعامل مع كم كبير من البيانات، و كذلك أغلب الجمعات حول العالم تعتمد هذا البرنامج في اجراء التحليل الإحصائي، و كذلك فإن برنامج spss يقدم مخرجات التحليل ضمن تقرير ختامي مفصل تعتمده لجنة الاشراف والتحكيم.