تقييم خصائص الاختبار النفسي

اقرأ في هذا المقال


عند تقييم جودة المقاييس أو الاختبارات النفسية، فإننا نهتم تقليدياً في المقام الأول بموثوقية الاختبار والصلاحية والإنصاف؛ أي تكافؤ الاستخدام عبر المجموعات.

تقييم خصائص الاختبار النفسي:

تقييم الموثوقية:

تشير الموثوقية إلى الدرجة التي تكون فيها الدرجات من الاختبار مستقرة والنتائج متسقة، عندما لا يتم قياس البنيات بشكل موثوق، فإنّ الدرجات التي تم الحصول عليها لن تقترب من القيمة الحقيقية فيما يتعلق بالمتغير النفسي الذي يتم قياسه، من المهم أن نفهم أنّ درجات الاختبار المرصودة أو التي تم الحصول عليها تعتبر مكونة من عناصر صحيحة وعناصر خطأ.

يمكن أن يؤثر عدد من العوامل على موثوقية درجات الاختبار، تشمل هذه الوقت بين إدارتين للاختبار تؤثران على موثوقية الاختبار وإعادة الاختبار والأشكال البديلة والتشابه في المحتوى وتوقعات الأشخاص فيما يتعلق بالعناصر المختلفة للاختبار في أشكال بديلة، كذلك النصف المنقسم ونهج الاتساق الداخلي، بالإضافة إلى ذلك فإنّ التغييرات في الموضوعات بمرور الوقت والتي تحدث بسبب الأمراض النفسية الجسدية أو المشاكل العاطفية أو بيئة الشخص أو العوامل القائمة على الاختبار.

غالباً ما يتم تقديم خطأ معياري في القياس لوصف ضمن مستوى من الثقة، إنّ نطاق معين من درجات الاختبار يحتوي على الدرجة الحقيقية للفرد والتي تقر بوجود درجة معينة من الخطأ في درجات الاختبار، كما أنّ ذلك درجات الاختبار التي تم الحصول عليها ليست سوى تقديرات للدرجات الحقيقية، يتم تقييم الموثوقية بشكل عام بأربع طرق:

  • اختبار إعادة الاختبار: اتساق درجات الاختبار بمرور الوقت، مثل الاستقرار والاتساق الزمني.
  • Inter-rater: اتساق درجات الاختبار بين القضاة المستقلين.
  • الأشكال الموازية أو البديلة: اتساق الدرجات عبر الأشكال المختلفة للاختبار، مثل الاستقرار والتكافؤ.
  • الاتساق الداخلي: تناسق العناصر المختلفة التي تهدف إلى قياس الشيء نفسه داخل الاختبار، حالة خاصة من موثوقية الاتساق الداخلي هي تقسيم النصف حيث تتم مقارنة الدرجات على نصفين من اختبار واحد، يمكن تحويل هذه المقارنة إلى مؤشر الموثوقية.

تقييم الصلاحية:

في حين أنّ الدرجات الناتجة عن الاختبار يمكن اعتبارها موثوقة، فإنّ هذه النتيجة لا تعني بالضرورة أن الدرجات من الاختبار لها صلاحية، تُعرّف الصلاحية على أنها الدرجة التي تدعم بها الأدلة والنظرية تفسيرات درجات الاختبار للاستخدامات المقترحة للاختبارات، عند مناقشة الصلاحية من المهم إبراز أنَّ الصلاحية لا تشير إلى المقياس نفسه؛ أي أنّ الاختبار النفسي غير صالح أو غير صالح، إنّ الدرجات المشتقة من المقياس تفسر استخدام درجات المقياس.

لكي تعتبر الاختبارات صالحة، يجب أن يستند تفسير درجات الاختبار إلى النظرية النفسية والأدلة التجريبية التي توضح العلاقة بين الاختبار وما يقصد قياسه، من الناحية التاريخية وصفت مجالات علم النفس والتعليم ثلاثة أنواع أساسية من الأدلة المتعلقة بالصحة:

  • بناء دليل على الصلاحية: الدرجة التي ترتبط بها درجات اختبار الفرد بالمفهوم النظري الذي تمّ تصميم الاختبار لقياسه؛ أي الدليل على أنّ الدرجات في الاختبار ترتبط بشكل كبير نسبياً بالدرجات على مقاييس مماثلة من الناحية النظرية، حيث تكون ضعيفة نسبياً مع الدرجات على اختلاف نظري.
  • دليل المحتوى على الصلاحية: الدرجة التي يمثل بها محتوى الاختبار الموضوع المستهدف ويدعم استخدام الاختبار للأغراض المقصودة منه.
  • دليل الصلاحية المرتبط بالمعيار: الدرجة التي ترتبط بها درجة الاختبار بمتغيرات أخرى قابلة للقياس وموثوقة وذات صلة، يعتقد أنّها تقيس نفس البنية.

أنواع الصلاحية:

يطرح كل شكل من أشكال الصلاحية التالية أسئلة معقدة فيما يتعلق باستخدام تدابير نفسية معينة، على سبيل المثال تعتبر الصلاحية البيئية مهمة بشكل خاص في استخدام الاختبارات النفسية مع (SSA) نظراً لأنّ تركيز التقييم ينصب على فحص مستويات الأداء اليومية، تم أحياناً انتقاد إجراءات مثل اختبارات الذكاء لافتقارها إلى الصلاحية البيئية، بدلاً من ذلك تشير الأبحاث إلى أنّ العديد من الاختبارات النفسية العصبية لها مستوى معتدل من الصلاحية البيئية عند التنبؤ بالأداء المعرفي اليومي.

تحولت المناقشات الحديثة حول الصلاحية نحو نهج قائم على الجدال للصلاحية، باستخدام مجموعة متنوعة من الأدلة لبناء حالة من صحة تفسير درجات الاختبار، في هذا النهج يُنظر إلى صلاحية الإنشاء على أنها نموذج شامل يتم بموجبه جمع الأدلة من مصادر متعددة لبناء حالة للتحقق من صحة تفسير درجات الاختبار، تم تقديم أنواع أخرى من الصلاحية ذات الصلة في الأدبيات، لكنّها غير مقبولة تماماً في المعايير المهنية كأنواع من الصلاحية في حد ذاتها تشمل هذه:

  • الصلاحية التشخيصية: الدرجة التي تساعد بها الاختبارات النفسية حقاً في صياغة التشخيص المناسب.
  • الصلاحية البيئية: الدرجة التي تمثل بها درجات الاختبار مستويات الأداء اليومية، على سبيل المثال تأثير الإعاقة على قدرة الفرد على العمل بشكل مستقل.
  • الصلاحية الثقافية: الدرجة التي يعكس بها محتوى الاختبار وإجراءاته بدقة السياق الاجتماعي والثقافي للموضوعات قيد الاختبار.

معايير التوحيد والاختبار:

كجزء من تطوير أي مقياس نفسي سليم، يتم تحديد الطرق والإجراءات الواضحة التي يجب إدارة المهام من خلالها وتوضيحها بوضوح، هذا هو ما يعرف بالتقييس، تشمل إجراءات أو توقعات الإدارة المعيارية النموذجية بيئة هادئة وخالية نسبياً من الإلهاء، قراءة دقيقة للتعليمات المكتوبة وتوفير الأدوات أو المحفزات الضرورية، يستخدم جميع الفاحصين مثل هذه الأساليب والإجراءات أثناء عملية جمع البيانات المعيارية، يجب استخدام هذه الإجراءات عادة في أي إدارة أخرى، ممّا يتيح تطبيق البيانات المعيارية على الفرد الذي يتم تقييمه.

توفر الاختبارات المعيارية مجموعة من البيانات المعيارية أو الدرجات المستمدة من مجموعات الأشخاص، الذين تمّ تصميم المقياس من أجلهم والتي يمكن مقارنة أداء الفرد بها، تتكون القواعد من درجات محولة مثل النسب المئوية والنسب المئوية التراكمية والنتائج القياسية، ممّا يسمح بمقارنة نتائج اختبار الفرد مع السكان المعينين، بدون إدارة موحدة قد لا يعكس أداء الفرد بدقة قدرته.

على سبيل المثال قد يتم المبالغة في تقدير قدرات الفرد إذا قدم الفاحص معلومات أو إرشادات إضافية عمّا هو موضح في دليل إدارة الاختبار، على العكس من ذلك قد يتم التقليل من قدرات المدعي إذا كانت التعليمات المناسبة، لم يتم تقديم الأمثلة أو المطالبات، عندما يجب استخدام تقنيات الإدارة غير المعيارية، يجب استخدام المعايير بحذر بسبب الخطأ المنهجي الذي قد يتم إدخاله في عملية الاختبار.

من المهم أن نفهم بوضوح المجتمع الذي يهدف إلى اختبار معين، نموذج التوحيد هو اسم آخر لمجموعة المعايير، تُمكِّن القواعد المرء من تقديم تفسيرات ذات مغزى لدرجات الاختبار التي تم الحصول عليها، مثل إجراء تنبؤات بناءً على الأدلّة، تطوير معايير مناسبة يعتمد على حجم وتمثيل العينة، بشكل عام كلما زاد عدد الأشخاص في المجموعة المعيارية، كلما اقترب التقريب من توزيع السكان طالما أنّهم يمثلون المجموعة التي ستجري الاختبار.

يجب أن تستند القواعد إلى عينات تمثيلية من الأفراد من مجتمع الاختبار المقصود، حيث يجب أن يكون لكل شخص فرصة متساوية في أن يكون في عينة التقييس، تمكن العينات الطبقية مطور الاختبار من تحديد خصائص ديموغرافية معينة ممثلة في السكان وتقريب هذه الميزات بشكل أوثق بما يتناسب مع عدد السكان، على سبيل المثال غالباً ما يتم إنشاء درجات اختبار الذكاء بناءً على المعايير إلى التعداد مع التمثيل النسبي للسمات الديموغرافية، بما في ذلك عضوية المجموعة العرقية وتعليم الوالدين والحالة الاجتماعية.

عندما يتم تطبيق الاختبارات على الأفراد الذين لم يكن الاختبار مخصص لهم، بالتالي لم يتم تضمينهم كجزء من المجموعة المعيارية، فقد ينتج عن ذلك درجات غير دقيقة وتفسيرات خاطئة لاحقة، غالباً ما تثير الاختبارات التي تُجرى للأشخاص ذوي الإعاقة قضايا معقدة، يستخدم مستخدمو الاختبار أحياناً الاختبارات النفسية التي لم يتم تطويرها أو تحديدها للأفراد ذوي الإعاقة، من الأهمية بمكان أن تشمل الاختبارات المستخدمة مع هؤلاء الأشخاص الانتباه إلى عينات معيارية تمثيلية عندما لا تتوفر مثل هذه العينات المعيارية.

قرارات الاختبارات النفسية عالية المخاطر:

غالباً ما يكون للأداء في الاختبارات النفسية آثار كبيرة ومخاطر عالية في مجتمعنا، جزء من الاختبارات حراس بوابات الفرص التعليمية والمهنية، قد يكون لنتائج الاختبار النفسي عواقب إيجابية أو سلبية على الفرد، غالباً ما تكون هذه العواقب مقصودة، مع ذلك هناك احتمال حدوث عواقب سلبية غير مقصودة، من الضروري معالجة قضايا عدالة الاختبار بحيث لا يوجد فرد أو مجموعة محرومة في عملية الاختبار بناءً على عوامل لا علاقة لها بالمناطق التي تم قياسها بواسطة الاختبار.

ببساطة لا يمكن أن توجد التحيزات في هذه الأنواع من القرارات المهنية، علاوة على ذلك من الضروري أن يوضح البحث أنّه يمكن استخدام التدابير بشكل عادل ومتكافئ مع أعضاء المجموعات الفرعية المختلفة في مجتمعنا، من المهم أن نلاحظ أنّ هناك أشخاص من العديد من المجموعات اللغوية والثقافية الذين لا توجد لهم اختبارات متاحة مع المعايير التي تمثّلهم بشكل مناسب.

في مثل هذه الحالات من المهم أن يقوم المقيمون بتضمين بيان حول هذا الموقف متى كان ينطبق والآثار المحتملة على الدرجات والتفسير الناتج، بينما تعكس جميع الاختبارات ما يتم تقييمه ضمن سياق ثقافي معين، يشير التحيز إلى وجود خطأ منهجي في قياس البنية النفسية، كما يؤدي التحيز إلى نتائج اختبار غير دقيقة نظراً لأنّ الدرجات تعكس إمّا المبالغة في التقدير أو التقليل من التقدير لما يتم قياسه، عندما يحدث التحيز بناءً على المتغيرات المرتبطة بالثقافة، فهناك دليل على تحيز الاختبار الثقافي.


شارك المقالة: