المفاهيم الحالية في الصلاحية والموثوقية للأدوات السيكومترية

اقرأ في هذا المقال


تتعلق المصداقية والموثوقية في الاختبار النفسي بتفسير الدرجات من أدوات القياس النفسي، على سبيل المثال مقاييس الأعراض والاستبيانات والاختبارات التعليمية وتقييمات المراقبين، المستخدمة في الممارسة السريرية والبحث والتعليم والإدارة، كذلك النماذج الناشئة تحل محل الفروق السابقة للوجه والمحتوى وصلاحية المعيار بالمفهوم الوجدوي “صلاحية البناء”، هي الدرجة التي يمكن بها تفسير الدرجة على أنّها تمثل البنية الأساسية المقصود.

مفاهيم الصلاحية والموثوقية للأدوات السيكومترية:

يجب البحث عن الأدلة من مجموعة متنوعة من المصادر لدعم تفسير معين، فالدرجات الموثوقة ضرورية ولكنّها ليست كافية للتفسير الصحيح، زيادة الاهتمام بالجمع المنهجي لأدلة صحة الدرجات من أدوات القياس النفسي سيؤدي إلى تحسين التقييمات في البحث ورعاية المرضى والتعليم، يجب أن يكون الباحث ماهر في تقييم جودة النتائج المذكورة في الأدبيات والتي تم الحصول عليها من الأدوات في الممارسة السريرية.

في كثير من الأحيان يتم تقييم هذه النتائج باستخدام أدوات مثل المقاييس والاستبيانات واختبارات التعليم وتقييمات المراقب، التي تحاول قياس عوامل مثل الأعراض أو المواقف أو المعرفة أو المهارات في بيئات مختلفة من الممارسة الطبية، يشير مصطلح الصلاحية إلى الدرجة التي تكون فيها الاستنتاجات المستمدة من نتائج أي تقييم ذات أسس جيدة أو مبررة، مع ذلك فإنّ المهارات المطلوبة لتقييم صحة النتائج من التقييمات النفسية تختلف عن المهارات المستخدمة في تقييم الأدبيات الطبية.

في مراجعة حديثة لتقييم التدريس السريري وجدنا أنّه كثيراً ما يساء فهم المصداقية والموثوقية وإساءة استخدامهما، لقد لاحظنا أيضاً أنّ الدراسات البحثية ذات الأساليب السليمة غالباً ما تفشل في تقديم مجموعة واسعة من أدلة الصلاحية التي تدعم النتيجة الأولية، بالتالي أدركنا الحاجة إلى مزيد من المناقشة حول الصلاحية في سياق أدوات القياس النفسي وكيف يرتبط ذلك بالبحوث والممارسات السريرية.

إنّ طرق تقييم صحة نتائج التقييمات السيكومترية تُستمد من نظريات علم النفس والتقييم التربوي، يوجد تباين في المصطلحات والممارسات في الأدبيات النفسية، في محاولة لتأسيس نهج موحد للصلاحية نشرت جمعية علم النفس معايير تدمج المفاهيم الناشئة، تترجم هذه المعايير بسهولة إلى ممارسة طبية وبحث وتوفر نهج شامل لتقييم صحة النتائج المستمدة من أدوات المقياس النفسي، فهي عنصر ضروري للصلاحية في هذا الإطار.

الصلاحية والبناء والتفسير الهادف لنتائج الأداة:

إنّ النتائج من تقييمات أعراض المريض أو معرفة الطالب أو مواقف الطبيب ليس لها معنى متأصل، بدلاً من ذلك يحاولون قياس البنية الأساسية ومجموعة غير ملموسة من المفاهيم والمبادئ المجردة، نتائج أي تقييم نفسي لها معنى فقط في سياق البناء الذي يزعمون تقييمه، نظراً لأنّ صلاحية درجات الأداة تتوقف على البنية؛ فإنّ التعريف الواضح للبناء المقصود هو الخطوة الأولى في أي تقييم للصلاحية، إنّ العديد من التركيبات ستستفيد من المزيد من الدقة والوضوح.

تتطلب أفضل الممارسات السريرية والبحثية والتعليمية طرق تقييم سليمة، تقدم هذه المقالة إطار مبتكر لتقييم صحة الدرجات من الأدوات، مثل مقاييس الأعراض والاستبيانات واختبارات التعليم وتقييمات المراقبين، يُنظر إلى المصداقية على أنّها حجة منظمة بعناية تجمع أدلة من مجموعة متنوعة من المصادر لدعم أو دحض التفسيرات المقترحة لنتائج الأدوات، إنّ الفهم الشامل لهذا الإطار سيغير كيفية تعامل الأطباء مع الصلاحية.

الصلاحية ليست خاصية للأداة ولكن من خصائص الأداة وتفسيراتها، على سبيل المثال يمكن اعتبار أداة تمّ تطويرها في الأصل لفحص الاكتئاب بشكل شرعي لتقييم القلق، في المقابل نتوقع أن تقوم درجات امتحانات مجلس أمراض القلب بتقييم المعرفة بأمراض القلب بدقة، نظراً لأنّ الصلاحية هي خاصية للاستدلالات وليست الأدوات، فيجب إثبات الصلاحية لكل تفسير مقصود، في المثال أعلاه تتطلب درجات أداة الاكتئاب مزيد من الدراسة قبل استخدامها في تقييم القلق.

بالمثل قد يحتاج مقياس أعراض المريض الذي قدمت درجاته استنتاجات صحيحة في ظل ظروف الدراسة البحثية أو في مرضى مختارين للغاية، إلى مزيد من التقييم قبل استخدامه في ممارسة سريرية نموذجية، كثيراً ما نقرأ عن الأدوات التي تم التحقق من صحتها، ينطوي هذا التصور على ثنائية؛ إمّا أنّ الأداة صالحة أو ليست كذلك وهذا الرأي غير دقيق، أولاً يجب أن نتذكر أنّ الصلاحية هي خاصية للاستدلال وليست الأداة، ثانياً تكون صحة التفسيرات مسألة درجة، ستعكس نتائج الأداة البنية الأساسية بشكل أكثر دقة أو أقل دقة ولكن ليس بشكل كامل.

من الأفضل النظر إلى المصداقية على أنّها فرضية أو حجة تفسيرية، يتم من أجلها جمع الأدلة لدعم الاستنتاجات المقترحة، تطلب الصلاحية سلسلة من الأدلة تربط بوضوح تفسير الدرجات بشبكة من النظرية والفرضيات والمنطق، التي يتم تقديمها لدعم أو دحض معقولية التفسيرات المرغوبة، كما هو الحال مع أي بحث مدفوع بالفرضية، يتم تحديد الفرضية بوضوح ويتم جمع الأدلة لتقييم الافتراضات الأكثر إشكالية، كما تتم مراجعة الفرضية بشكل نقدي.

ممّا يؤدي إلى دورة جديدة من الاختبارات والأدلة حتى تصبح جميع الاستنتاجات في الحجة التفسيرية معقولة أو مرفوضة، تم تقسيم الصلاحية إلى 3 أنواع متميزة وهي المحتوى والمعيار وصلاحية الإنشاء، مع ذلك فإنّ التفكير المعاصر في هذا الموضوع يشير إلى أنّ هذه الفروق عشوائية، كما أنّه يجب تصور كل الصلاحية في إطار واحد شامل، يؤكد هذا النهج على المنطق القائل بأنّ درجات الأداة مفيدة فقط بقدر ما تعكس بنية وأنّه يجب جمع الأدلة لدعم هذه العلاقة.

عملية الاستجابة:

يمكن لمراجعة الإجراءات وعمليات التفكير لدى المتقدمين للاختبار أو المراقبين، كذلك إلقاء الضوء على التوافق بين البنية والطبيعة التفصيلية للأداء، على سبيل المثال قد يسأل المعلمون “هل يقوم الطلاب الذين يجرون اختبار يهدف إلى تقييم التفكير التشخيصي باستدعاء عمليات التفكير العليا؟”.

يمكنهم التعامل مع هذه المشكلة عن طريق مطالبة مجموعة من الطلاب بالتفكير بصوت عالي وهم يجيبون على الأسئلة، إذا تطلبت الأداة من شخص ما أن يقيم أداء شخص آخر، فقد تظهر الأدلة الداعمة لعملية الاستجابة أنّ المقيّمين قد تم تدريبهم بشكل صحيح، يشكل أمان البيانات وطرق تسجيل النتائج والإبلاغ عنها أيضاً دليلاً على هذه الفئة.

الهيكل الداخلي:

تعتبر البيانات بشكل عام دليلاً على البنية الداخلية، يجب أن تسفر الدرجات التي تهدف إلى قياس بنية واحدة عن نتائج متجانسة، في حين أنّ الدرجات التي تهدف إلى قياس البنى المتعددة يجب أن تظهر استجابات غير متجانسة في نمط تنبأ به البُنى، علاوة على ذلك يشير الاختلاف المنهجي في الاستجابات لعناصر محددة بين المجموعات الفرعية التي كان من المتوقع أن تؤدي بشكل مشابه إلى وجود خلل في الهيكل الداخلي.

بينما يوفر تأكيد الاختلافات المتوقعة أدلة داعمة في هذه الفئة، على سبيل المثال إذا أجاب ذوو الأصول الإسبانية باستمرار على سؤال بطريقة ما وأجاب القوقازيون بطريقة أخرى، بغض النظر عن الإجابات الأخرى، فإنّ هذا سيضعف أو يدعم صحة التفسيرات المقصودة، يتناقض هذا مع متغيرات المجموعة الفرعية في الدرجة الإجمالية، التي تعكس العلاقات مع المتغيرات الأخرى كما تمت مناقشته لاحقاً.

الاتساق الداخلي:

هل جميع العناصر الموجودة على الآلة تقيس نفس التركيب؟ إذا كانت الأداة تقيس أكثر من بناء واحد فلن تقيس النتيجة الفردية أي من البنائين جيداً، نتوقع ارتباط كبير بين درجات العناصر التي تقيس بنية واحدة، ربما يكون الاتساق الداخلي هو إحصائيات الموثوقية الأكثر شيوعاً جزئياً؛ لأنّه يمكن حسابه بعد إدارة واحدة لأداة واحدة، نظراً لأنّه يمكن اعتبار أنصاف الأداة أشكال بديلة، يمكن اعتبار الاتساق الداخلي بمثابة تقدير لموثوقية النماذج المتوازية.

يمكن أن يكشف تقييم العواقب المقصودة أو غير المقصودة للتقييم عن مصادر العجز التي لم يلاحظها أحد من قبل، على سبيل المثال إذا أظهر تقييم التدريس أنّ المعلمين الذكور يتم تصنيفهم باستمرار على أنّهم أقل من الإناث، فقد يمثل ذلك مصدر للتحيز غير المتوقع، قد يعني أيضاً أنّ الذكور هم مدرسون أقل فعالية، بالتالي يتطلب دليل العواقب ارتباط بربط الملاحظات بالبناء الأصلي قبل أن يُقال أنّه يؤثر على صحة الاستنتاجات.

هناك طريقة أخرى لتقييم دليل العواقب وهي استكشاف ما إذا كانت النتائج المرجوة قد تحققت وتجنب الآثار غير المقصودة، في المثال الذي تمّ الاستشهاد به للتو، إذا نبذ أعضاء هيئة التدريس ذوي التصنيف العالي أولئك الذين حصلوا على درجات أقل، فإنّ هذه النتيجة السلبية غير المتوقعة ستؤثر بالتأكيد على معنى الدرجات وبالتالي على صحتها، من ناحية أخرى إذا أدّى إصلاح أعضاء هيئة التدريس ذوي الدرجات المنخفضة إلى تحسين الأداء، فسوف يدعم صحة هذه التفسيرات.

تكامل الدليل:

إذا كان الدليل لا يدعم حجة الصلاحية الأصلية، فقد يتم رفض الحجة أو يمكن تحسينها عن طريق تعديل التفسير أو إجراء القياس، بعد ذلك يجب تقييم الحجة من جديد، في الواقع تقييم الصلاحية هو دورة مستمرة من الاختبار والمراجعة، سيختلف مقدار الأدلة اللازمة وفقاً للاستخدامات المقترحة للأداة، إنّ الظروف التي تتطلب درجة عالية من الثقة في دقة التفسيرات، سوف تتطلب أدلة أكثر من الظروف التي تكون درجة الثقة فيها أقل مقبولة.

ستعتمد بعض أنواع الأدوات بشكل أكبر على فئات معينة من أدلة الصلاحية أكثر من غيرها، على سبيل المثال يجب أن تُظهر تقييمات المراقبين دليل قوي على البنية الداخلية التي تتميز باتفاق مرتفع بين المقيمين، من ناحية أخرى يجب أن تحتوي التفسيرات الخاصة باختبارات الاختيار من متعدد على أدلة محتوى وفيرة، كلا النوعين من الأدوات بالطبع سيستفيدان بشكل كبير من مصادر الأدلة المتعددة.

المصدر: الاختبارات النفسية، سوسن شاكر مجيدالاختبارات النفسية، د.فيصل عباسالاختبارات النفسية العصبية، سعيد بن سعد زهرانأسس بناء الاختبارات والمقاييس النفسية والتربوية، سوسن شاكر مجيد


شارك المقالة: