ما المقصود بالقيم العشوائية في علم البيانات

اقرأ في هذا المقال


يستخدم علماء البيانات مصطلح القيم العشوائية للمتغيرات التي تعتمد قيمها الرقمية على نتيجة عملية عشوائية، ومجال القيم العشوائية هو مجموعة كل النتائج الممكنة وكل نتيجة لها احتمالية مرتبطة بها، وفي الرموز الإحصائية يتم تمثيل المتغير العشوائي بشكل عام بحرف كبير ويتم تمثيل عمليات الإدراك أو القيم المرصودة بأحرف صغيرة.

ما المقصود بالقيم العشوائية للبيانات

القيم العشوائية: هي دالة ذات قيمة حقيقية ومجالها هو مساحة العينة الكاملة للتجربة، كما يُعد المجال كمجموعة من كل القيم الممكنة التي يمكن أن تدخل في دالة، حيث تأخذ الوظيفة المجال أو الإدخال وتعالجها وتعرض إخراجًا أو نطاقًا، وبالمثل يأخذ المتغير العشوائي مجاله (مساحة عينة من التجربة)، ويعالجها ويعين لكل حدث أو نتيجة قيمة حقيقية وتسمى هذه المجموعة من القيم الحقيقية التي تم الحصول عليها من المتغير العشوائي مداها باعتماد الخوارزميات الإحصائية.

أنواع القيم العشوائية للبيانات

1) المتغيرات العشوائية المنفصلة

المتغيرات العشوائية المنفصلة هي متغيرات عشوائية ومداها عبارة عن مجموعة قابلة للعد، كما يمكن أن تكون المجموعة المعدودة إمّا مجموعة محدودة أو مجموعة لا حصر لها.

2) المتغيرات العشوائية المستمرة

المتغيرات العشوائية المتواصلة “المستمرة” لها نطاق في أشكال بعض الفواصل معينة أو غير معينة ومن الخط الحقيقي.

3) المتغيرات العشوائية المختلطة

المتغيرات العشوائية المختلطة هي عبارة عن مزيج من المتغيرات المستمرة والمتقطعة، وهذه المتغيرات أكثر تعقيدًا من المتغيرين الآخرين.

خصائص القيم العشوائية في علم البيانات

في علم البيانات غالبًا ما يتم التعامل مع البيانات التي تتأثر بالصدفة بطريقة ما تأتي البيانات من عينة عشوائية أو تتأثر البيانات بخطأ القياس أو تقيس البيانات بعض النتائج العشوائية بطبيعتها، حيث تُعد القدرة على تحديد عدم اليقين الناتج عن العشوائية إحدى أهم وظائف محلل البيانات، كما يقدم الاستدلال الإحصائي إطارًا، والإضافة إلى العديد من الأدوات العملية للقيام بذلك والخطوة الأولى هي تعلم كيفية وصف المتغيرات العشوائية رياضيًا.

غالبًا ما يبحث علماء البيانات عن نتائج أفضل قليلاً من النتائج العشوائية، وبالنظر إلى مجموعة بيانات كبيرة لا تتطلب الارتباطات سهلة التحديد تحليلاً مكثفًا، وبدلاً من ذلك يتم دفع علماء البيانات للعثور على البيانات وهي العلاقات الإيجابية التي لا يمكن استنتاجها بسهولة من النظرات العامة الواسعة أو التحليل البدائي، وهذه النتائج بالضرورة تكون أقرب إلى خط العشوائية الحقيقية كلما كانت أكثر دقة.

لكنّ تحديد ما هو عشوائي حقًا كان يمثل مشكلة في علوم الكمبيوتر وفي الرياضيات بشكل عام لفترة طويلة، كما اتضح أنّ هناك أنماطًا دقيقة في الكثير من البيانات حتى عندما تكون هذه الأنماط بلا معنى أساسًا، كما أنّ معظم الأرقام العشوائية في علوم الكمبيوتر ليست عشوائية حقًا ويمكن أن تظهر أنماطًا يمكن التنبؤ بها بناءً على الخوارزمية النواتج التي تولدها، وللحصول على العشوائية الحقيقية يتعين على المبرمجين اللجوء إلى ظواهر متعددة.

العشوائية تعني عدم القدرة على التنبؤ في النتائج، والقدرة على التنبؤ بالطبع هي بالضبط ما يبحث عنه علماء البيانات في تحليلاتهم، حيث إنّ النتيجة الأفضل فقط من النتائج العشوائية تجعل من مجرد أحداث لا يمكن التنبؤ بها والأشياء التي تحدث في كثير من الأحيان في الحياة الواقعية أكثر بقليل ممّا قد يكون صحيحًا إذا كانت محكومة بالصدفة البحتة.

لماذا القيم العشوائية مهمة في علم البيانات

تنتج القيم العشوائية توزيعات احتمالية بناءً على التجريب أو الملاحظة أو بعض عمليات توليد البيانات الأخرى، حيث تتيح القيم العشوائية بهذه الطريقة فهم العالم من حولنا بناءً على عينة من البيانات، ومن خلال معرفة احتمالية حدوث قيمة معينة في العالم الحقيقي أو في مرحلة ما في المستقبل.

القيم العشوائية سواء كانت منفصلة أو مستمرة هي مفهوم رئيسي في الإحصاء والتجريب، ونظرًا لأنّها عشوائية بقيم دقيقة غير معروفة فإنّها تسمح لنا بفهم التوزيع الاحتمالي لتلك القيم أو الاحتمال النسبي لأحداث معينة، حيث نتيجةً لذلك يمكن للمحللين اختبار الفرضيات وتقديم استنتاجات حول العالم الطبيعي والاجتماعي من حولنا.

القيم العشوائية هو المتغير الذي تكون قيمته غير معروفة مسبقًا أو يتم تعيين قيمة عشوائية بناءً على بعض عمليات توليد البيانات أو الوظيفة الرياضية، كما يجمع القيم العشوائي المختلط بين عناصر القيم العشوائية المنفصلة والمستمرة وتُشير القيم العشوائية المستمرة إلى أي مقدار ضمن نطاق معين أو مجموعة من النقاط، ويمكن أن يعكس عددًا لا حصر له من القيم المحتملة مثل متوسط ​​هطول الأمطار في المنطقة.

العلاقة بين تحليلات البيانات والقيم العشوائية

يتم حل توليد البتات العشوائية عن طريق جعل كل مستخدم يقوم بشكل عشوائي بإنشاء تبديل للطول في نص واضح وتشفير التقليب الناتج عن ذلك، وبعد ذلك يتم تسلسل التباديل المشفر في المجال المشفر لتشكيل تبديل عشوائي مشفر مشترك واحد واستخدام هذا لتبديل متجه أولي يحتوي بالضبط على (t بت)، وتتمثل إحدى المشكلات المرتبطة بهذا الحل في أنّه عندما يصبح عدد التباديل كبيرًا مثل الاختيار العشوائي من مجموعة من مليون مستخدم أو أكثر، فإنّ عملية التقليب تصبح معقدة التواصل.

والحاسوب يتطلب إنشاء البتات العشوائية عن طريق مصفوفات التقليب عمليات ضرب المصفوفة، حيث يتطلب كل مضاعفة للمصفوفة تبادل المعلومات بين أجهزة العميل المشاركة، ومع ذلك في التطبيقات العملية فإنّ أجهزة العميل هي أجهزة غير متجانسة وعادةً ما تكون أجهزة محمولة ذات موارد محدودة، ومن ثم ينبغي تقليل الاتصال والتعقيد الحسابي للبروتوكول دون المساس بأمن البروتوكول.

توفر الطريقة مخططًا فعالًا حسابيًا واتصاليًا للاختيار الآمن لمجموعة عشوائية من أجهزة العميل من مجموعة من أجهزة العميل وتعتمد الطريقة على مقايضة البتات بشكل عشوائي في متجه ثنائي في المجال المحدد، وبالإضافة إلى ذلك توفر الطريقة مخططًا فعالاً من الناحية الحسابية والتواصلية لإجراء عمليات حسابية آمنة استنادًا إلى قيم الإدخال لأجهزة العميل المختارة عشوائيًا.

يتم تنفيذ كل من الاختيار العشوائي والحسابات في المجال المبهم بحيث لا أجهزة العميل ولا الأجهزة الخارجية لأجهزة العميل كخادم لديه معرفة بالمجموعة التي تم تحديدها للحساب أو حول الحساب نفسه مثل قيم الإدخال أو نتيجة الحساب، وترتبط أنظمة اختيار المجموعة العشوائية التي تحافظ على الخصوصية وأنظمة الحساب متعددة الأطراف، مثل المستخدمة في تحليلات البيانات باستخدام اختيار المجموعة العشوائي.

وكذلك لا سيما أنظمة الحساب متعددة الأطراف، حيث قد تقوم مجموعة أجهزة العميل المحددة بشكل آمن عشوائيًا بحساب وظيفة بشكل مشترك على أساس بيانات المستخدم الحساسة للخصوصية، وقد يشتمل النظام على أجهزة العميل وخادم تجميع وقد يشتمل كل جهاز عميل على معالج يتم تكييفه لتشغيل تطبيق واحد أو أكثر، على سبيل المثال تطبيقات البرامج بما في ذلك رمز البرنامج عند تنفيذه بواسطة المعالج تكوين جهاز العميل لجمع أو إنشاء بيانات المستخدم.

عندما يتم وصف القيم في نطاق قيم عشوائية من حيث إمكانية وقوعها فإنّه تُعد بشكل رئيسي تقسيم الإمكانيات للقيم العشوائية، ويمكن تعيين التوزيع الاحتمالي لمتغير عشوائي عن طريق حساب احتمال حدوث كل قيمة في نطاق المتغير العشوائي ويتم وصف توزيع الاحتمالية للمتغيرات العشوائية المنفصلة والمستمرة بطرق متنوعة بمهارة.

المصدر: Data Science from Scratch: First Principles with Python by Joel Grus / 2nd EditionAn Introduction to Data Science By Jeffrey S. Saltz, Jeffrey M. Stanton / First EditionFoundations of Data Science By Avrim Blum, John Hopcroft, Ravindran Kannan / First EditionIntroducing Data Science: Big data, machine learning, and more, using Python tools By Davy Cielen, Arno Meysman / First Edition


شارك المقالة: