تأتي البيانات في مجموعة متنوعة من الأشكال والأحجام، حيث تستخدم توزيعات البيانات لدراسة وفهم البيانات والعديد من النماذج مبنية حول افتراضات أنّ البيانات تتبع توزيعًا معينًا وعادةً ما تفترض النماذج الخطية دائمًا التوزيع الطبيعي للبيانات.
كيفية إعادة قياس البيانات خلال العمليات
- نادرًا ما تتماشى بيانات العالم الحقيقي تمامًا مع التوزيع الطبيعي وبالتالي تكسر هذا الافتراض، وبدلاً من ذلك قد يكون هناك موقف تتبع فيه البيانات علاقة غير خطية ولا تستطيع المخططات القياسية التقاطها جيدًا.
- إن تحويل إعادة القياس هو تحول يساعد في الكشف عن البنية الكامنة في البيانات، ويستخدم ثلاث خطوات لتحويل البيانات وهي: غاوسي البيانات مع تحويل يشبه مربع (Cox).
- وكذلك (z-Score) يقوم بتحويل البيانات باستخدام تقديرات قوية للمتوسط و(sd)، وإزالة القيم المتطرفة من البيانات وتعيينها إلى (NA).
- يساعد تسلسل هذه التحولات في تركيز التحليلات الإحصائية الكلاسيكية على التباين الناتج في البيانات بدلاً من أن يهيمن التباين الناتج عن مقياس القياس أو القيم المتطرفة على التحليلات.
- المدخل إلى (Robust re-scaling) عبارة عن مصفوفة أو إطار بيانات والمخرج عبارة عن مصفوفة أو إطار بيانات من نفس الحجم ولكن مع قيم معاد قياسها.
- وتعمل (Robust re-scaling) بشكل أفضل عندما تقيس أعمدة البيانات الميزات على مقاييس مماثلة (على سبيل المثال RNA-seq أو البيانات للمصفوفة الدقيقة) وليس البيانات التي تكون فيها الأعمدة ميزات ذات مقياس مختلف اختلافًا جوهريًا.
- إنّ إعادة قياس البيانات هي ضرب كل عضو في مجموعة بيانات بمصطلح ثابت (k) وهذا يعني تحويل كل رقم (x إلى f (X))، حيث: (f (x) = kx وk وx) كلاهما أرقام حقيقية.
- ستؤدي إعادة القياس إلى تغيير انتشار بياناتك بالإضافة إلى موضع نقاط البيانات الخاصة، وما لم يتغير هو شكل التوزيع والسمات النسبية للمنحنى الخاص.