الاختبارات المعيارية وتقييم الاختبارات عالية المخاطر

اقرأ في هذا المقال


التقييم النفسي هو عملية جمع البيانات لقياس أداء الفرد أو مجموعة من الأفراد، تعد الاختبارات الكتابية لمعرفة الأشخاص شكل شائع من أشكال التقييم، لكن يمكن أيضاً استخدام بيانات من أماكن أخرى مثل الملاحظات غير الرسمية لكفاءة الفرد أو تقييمات المشروعات أو العروض التقديمية الشفوية أو عينات أخرى من عمل الفرد، يحمل تقييم الكلمات في طياته فكرة إجراء تقييم أوسع وأشمل لأداء الفرد من اختبار واحد، في عصر يكون فيه الاختبار مثير للجدل، أصبح التقييم هو المصطلح المفضل نظراً لدلالاته على الاتساع والشمول.

الاختبارات المعيارية وتقييم الاختبارات عالية المخاطر:

يعتبر التقييم الوطني للتقدم التعليمي (NAEP) مثال على التقييم الشامل الجدير بهذا الاسم، تُعرف (NAEP) أيضاً باسم بطاقة تقرير الأمة وتدير اختبارات الإنجاز لعينة تمثيلية من الأفراد، إنّ مقاييس الإنجاز المستخدمة من قبل (NAEP) في كل مجال موضوع واسعة للغاية، بحيث يأخذ كل فرد مشارك جزء صغير فقط من التقييم الإجمالي، مع ذلك ليست كل برامج التقييم عالية الجودة، يقوم البعض بإجراء اختبارات محدودة بشكل أكبر ولكن لا يزالون يستخدمون كلمة التقييم بسبب جاذبيتها الشعبية.

الاختبارات المعيارية هي اختبارات يتم إجراؤها وتصنيفها بموجب مجموعة متسقة من الإجراءات، شروط الإدارة الموحدة ضرورية لإتاحة إمكانية مقارنة النتائج عبر الأفراد، على سبيل المثال سيكون من غير العدل مقارنة أداء الأشخاص الذين أجروا اختبار في فبراير بأداء الأشخاص الذين تمّ اختبارهم في مايو، أو إذا حصل مجموعة من الأفراد على مساعدة من الآخرين بينما لم تفعل مجموعة أخرى ذلك.

الاختبارات المعيارية الأكثر شيوعاً للإنجاز هي اختبارات الاختيار من متعدد التقليدية القابلة للتسجيل بواسطة الآلة، مثل اختبار الإنجاز والاختبارات الشاملة للمهارات الأساسية (CTBS)، يمكن أيضاً توحيد العديد من التقييمات الأخرى مثل تقييمات الأداء المفتوحة ومقاييس الشخصية والمواقف، كذلك اختبارات إتقان اللغة الإنجليزية أو اختبارات مقالة المستوى المتقدم، بحيث يمكن تفسير النتائج على نطاق مشترك.

الاختبار عالي المخاطر هو مصطلح استخدم لأول مرّة في الثمانينيات لوصف برامج الاختبار التي لها عواقب وخيمة، تعتبر الاختبارات ذات مخاطر عالية إذا كانت نتائجها تحدد أشياء مهمة مثل الترقية أو أجر الاستحقاق أو التصنيفات التي يتم الإبلاغ عنها في إحدى الصحف، عندما تكون لنتائج الاختبار عواقب وخيمة تكون متطلبات إثبات صحة الاختبار أعلى بالمقابل.

أغراض التقييم:

يحدد الاستخدام المقصود للتقييم الغرض منه كل جانب آخر لكيفية إجراء التقييم، الغرض من تحديد محتوى التقييم طرق جمع البيانات، هل يجب أن تأتي البيانات من جميع الأشخاص أم من عينة من الأشخاص؟ما  هو مستوى الموثوقية والصلاحية الذي يجب تحديده؟ رهانات أو عواقب التقييم والتي بدورها تحدد أنواع الضمانات اللازمة للحماية من الضرر المحتمل، الناجم عن القرارات المستندة إلى التقييم غير الخاطئة.

في الاختبار النفسي اليوم من الممكن التمييز بين أربعة أغراض مختلفة على الأقل للتقييم، التقييم المستخدم لتوجيه وتقييم الفرد واختبار الاختيار المستخدم لتحديد الأفراد للبرامج الخاصة أو للقبول في الكلية، كذلك تقييم واسع النطاق يستخدم لتقييم البرامج ورصد الاتجاهات، أيضاً تقييم الإنجاز عالي المخاطر المستخدم لمساءلة الأفراد والمجموعات، التقييمات المصمّمة لأحد هذه الأغراض قد لا تكون مناسبة أو صالحة إذا استخدمت لغرض آخر.

يعتبر التقييم جزء لا يتجزأ من عملية الفحص، يستخدم الأفراد كل من التقييمات الرسمية وغير الرسمية لتخطيط العملية وتوجيهها، بالنسبة للأشخاص الفرديين تساعد التقييمات في قياس الأشياء التي يعرفها الأفراد ويفهمونها بالفعل وأين توجد المفاهيم الخاطئة، كذلك ما هي المهارات التي تحتاج إلى مزيد من الممارسة في السياق وما هو الدعم المطلوب لاتخاذ الخطوات التالية، يستخدم الأفراد التقييم لتقييم الممارسات الخاصة بالآخرين وذلك لتعديل المهام التي لا تساعد الأفراد على استيعاب الأفكار الرئيسية.

يمكن استخدام اختبارات الاختيار وتحديد المستوى لتحديد الأفراد للبرامج الموهوبة، أو لتقديم الخدمات للأشخاص ذوي الإعاقة، نظراً لاستخدام اختبارات الاختيار لتقييم الأفراد الذين لديهم مجموعة متنوعة من الخبرات السابقة، فإنّها تميل إلى أن تكون عامة أكثر من اختبارات الإنجاز الموحدة حتى لا تفترض التعرض لمنهج معين، مع ذلك يتأثر الأداء في إجراءات الاختيار بشدة بالفرص السابقة، على عكس اختبارات معدل الذكاء، لم يعد من المفترض أن أيّ اختبار يمكنه قياس القدرة الفطرية.

بدلاً من ذلك يتم استخدام المقاييس النفسية الحالية وقدرات التفكير كمتنبئات في المستقبل، لأنّ جميع الاختبارات بها درجة من الخطأ مرتبطة بها، تتطلب المعايير المهنية ألا تكون درجات الاختبار هي المحدد الوحيد للقرارات المهمّة، على سبيل المثال تُستخدم اختبارات القبول جنباً إلى جنب مع الدرجات والتوصيات، تُستخدم اختبارات الاستعداد أحياناً كاختبارات اختيار لتقرير ما إذا كان يجب على الأطفال في سن الخامسة بدء الدراسة، لكن هذا استخدام غير لائق للاختبارات.

التقييمات واسعة النطاق مثل التقييم الوطني للتقدم التعليمي (NAEP) أو المسح الدولي (TIMSS)، يخدم وظيفة المراقبة والمقارنة، يتم جمع بيانات التقييم حول مجموعات الأفراد بشكل إجمالي ويمكن استخدامها من قبل صانعي السياسات لاتخاذ قرارات بشأن البرامج المتعددة، نظراً لعدم وجود منهج وطني أو دولي واحد، يجب أن يكون محتوى التقييم شاملاً لجميع أهداف المناهج للعديد من الدول المشاركة، من الواضح أنّه لا يمكن أن يُتوقع من أي فرد إتقان كل المحتوى في اختبار يشمل العديد من المناهج.

تقييمات الإنجاز عالية المخاطر التي تُستخدم لمساءلة الأفراد تشبه تقييمات المراقبة واسعة النطاق، لكن من الواضح أنّ لها عواقب مختلفة تماماً، بالإضافة إلى ذلك يجب أن تكون هذه الاختبارات التي تُدار عادةً من قبل الولايات أو المناطق، أكثر توافق مع معايير المحتوى والمناهج التي يُحاسب المشاركون عليها، من الناحية العملية غالباً ما تكون تقييمات المساءلة محدودة بشكل أكبر في مجموعة متنوعة من الأشكال والمهام المضمنة؛ لأنّ كل طالب يجب أن يخضع لنفس الاختبار ولأنّ الولايات والمقاطعات قد تفتقر إلى الموارد اللازمة لتطوير وتسجيل المزيد من مقاييس الأداء المفتوحة.

تاريخ الاختبارات عالية المخاطر:

بدأ اختبار المساءلة في الولايات المتحدة في عام 1965 كجزء من نفس التشريع، الذي خصص أولاً الأموال الفيدرالية لتحسين التحصيل الأكاديمي للأطفال من الأسر ذات الدخل المنخفض، لكن حركة المساءلة المبكرة لم تفترض أنّ المدارس العامة كانت سيئة، في الواقع كانت الفكرة وراء (ESEA) هي توسيع فوائد التعليم الممتاز للأطفال الفقراء والأقليات، تغيرت نظرة الجمهور الإيجابية بشكل عام للمدارس مع انخفاض درجة اختبار (SAT) الشهير في أوائل السبعينيات.

على الرّغم من حقيقة أنّ لوحة (blueribbon) بتكليف من مجلس الكلية في عام 1977، وجدت لاحقاً أنّ ثلثي إلى ثلاثة أرباع انخفاض الدرجة كان يُعزى إلى زيادة عدد الطلاب الفقراء والأقليات، الذين حصلوا على إمكانية الالتحاق بالجامعة وليس إلى الانخفاض فيما يتعلق بجودة التعليم، كانت جميع جهود المساءلة اللاحقة مدفوعة بالاعتقاد بأنّ المدارس الحكومية الأمريكية كانت تفشل.

كانت حركة اختبار الحد الأدنى من الكفاءة في السبعينيات هي الأولى في سلسلة من الإصلاحات التعليمية، حيث تمّ استخدام الاختبارات ليس فقط كمقاييس لفعالية الإصلاحات ولكن كمحركات أساسية للإصلاح، فرض المشرعون اختبارات على الحد الأدنى من المهارات الأكاديمية أو مهارات البقاء؛ بهدف إعادة المعنى إلى دبلوم المدرسة الثانوية، بحلول عام 1980 37 دولة قد اتخذت إجراءات لفرض معايير الكفاءة الدنيا للترقية من الصف إلى الصف أو التخرج من المدرسة الثانوية.

مع ذلك لم يمض وقت طويل قبل (Nation و Risk)، لخّصو إلى أنّ اختبارات الكفاءة الدنيا كانت جزء من المشكلة وليست جزء من الحل؛ لأنّ الحد الأدنى المطلوب يميل إلى أن يصبح الحد الأقصى بالتالي يخفض المعايير التعليمية للجميع، سعت حركة التميز إلى زيادة التوقعات من خلال إعادة متطلبات التخرج المستندة إلى الدورة التدريبية وتمديد الوقت في اليوم الدراسي والعام الدراسي، الأهم من ذلك تتطلب المزيد من الاختبارات، على الرّغم من خطاب المناهج الأكاديمية الصارمة.

فإنّ الاختبارات الجديدة التي تمّ تبنيها في منتصف الثمانينيات كانت في الغالب اختبارات متعددة الاختيارات والمهارات الأساسية، هي خطوة أعلى من اختبارات الحد الأدنى من الكفاءة ولكنّها ليست واحدة، بحلول نهاية الثمانينيات بدأت الأدلة في الظهور تظهر أن المكاسب المثيرة للإعجاب في هذه الاختبارات قد لا تكون علامة على مكاسب تعليمية حقيقية، على سبيل المثال أظهرت دراسة جون كانيل في عام 1987 والتي أطلق عليها اسم “تقرير بحيرة ووبيغون”، أنّ جميع الولايات الخمسين ادعت أنّ درجات اختبارها كانت أعلى من المتوسط ​​الوطني.

كانت الإصلاحات القائمة على المعايير والتي بدأت في التسعينيات واستمرت في بداية القرن الحادي والعشرين، بمثابة رفض للإصلاحات السابقة وتمديدها، دعت حركة المعايير التي رفضت المناهج التقليدية وخاصة الأنشطة الحفظية، إلى تطوير مناهج أكثر تحديٍ، تركز على التفكير المنطقي والفهم المفاهيمي والقدرة على تطبيق المعرفة، في الوقت نفسه استمرت حركة المعايير في الاعتماد بشدة على تقييمات المساءلة واسعة النطاق؛ للاستفادة من التغييرات في التعليمات.


شارك المقالة: