أساسيات نظرية الاختبار. عرض أساس نظرية الاختبارات في الثقافة الفيزيائية

أساسيات نظرية الاختبار.  عرض أساس نظرية الاختبارات في الثقافة الفيزيائية
أساسيات نظرية الاختبار. عرض أساس نظرية الاختبارات في الثقافة الفيزيائية

ما هو الاختبار

وفقًا لـ IEEE Std 829-1983 اختباراتهي عملية تحليل برمجية تهدف إلى تحديد الاختلافات بين خصائصها الحالية والمطلوبة (عيب) وتقييم خصائص البرمجيات.

وفقًا لـ GOST R ISO IEC 12207-99 ، في دورة حياة البرنامج ، من بين أمور أخرى ، يتم تحديد العمليات المساعدة للتحقق والشهادة والتحليل المشترك والتدقيق. عملية التحقق هي عملية تحديد أن منتجات البرامج تعمل في الامتثال الكامل للمتطلبات أو الشروط المطبقة في العمل السابق. يمكن أن تشمل هذه العملية التحليل والتحقق والاختبار (الاختبار). عملية التصديق هي عملية تحديد مدى اكتمال الامتثال للمتطلبات المحددة أو النظام الذي تم إنشاؤه أو منتج البرنامج مع غرضها الوظيفي. عملية المراجعة التعاونية هي عملية تقييم الدول ، وإذا لزم الأمر ، نتائج العمل (المنتجات) في المشروع. عملية التدقيق هي عملية تحديد الامتثال لمتطلبات وخطط وشروط العقد. تضيف هذه العمليات إلى ما يشار إليه عمومًا باسم الاختبار.

يعتمد الاختبار على إجراءات الاختبار ذات المدخلات المحددة والظروف الأولية والنتائج المتوقعة المصممة لغرض معين ، مثل اختبار برنامج واحد أو التحقق من الامتثال لمتطلبات محددة. يمكن أن تختبر إجراءات الاختبار جوانب مختلفة من أداء البرنامج ، من التشغيل الصحيح لوظيفة واحدة إلى الوفاء الكافي بمتطلبات العمل.

عند تنفيذ المشروع ، من الضروري مراعاة المعايير والمتطلبات التي سيتم اختبار المنتج وفقًا لها. ما هي الأدوات التي سيتم استخدامها (إن وجدت) للعثور على العيوب المكتشفة وتوثيقها. إذا كنت تتذكر الاختبار منذ بداية المشروع ، فإن اختبار المنتج قيد التطوير لن يجلب أي مفاجآت غير سارة. هذا يعني أن جودة المنتج من المحتمل أن تكون عالية جدًا.

دورة حياة المنتج والاختبار

على نحو متزايد ، في عصرنا ، يتم استخدام عمليات تطوير البرامج التكرارية ، على وجه الخصوص ، التكنولوجيا RUP - عملية موحدة عقلانية(رسم بياني 1). عند استخدام هذا الأسلوب ، يتوقف الاختبار عن أن يكون عملية خارجة عن المألوف تبدأ بعد أن يكتب المبرمجون كل التعليمات البرمجية الضرورية. يبدأ العمل في الاختبارات من المرحلة الأولية لتحديد متطلبات منتج مستقبلي ويتم دمجه بإحكام مع المهام الحالية. وهذا يضع مطالب جديدة على المختبرين. لا يقتصر دورهم على مجرد تحديد الأخطاء بشكل كامل وفي أقرب وقت ممكن. يجب أن يشاركوا في العملية الشاملة لتحديد وإزالة مخاطر المشروع الأكثر أهمية. للقيام بذلك ، لكل تكرار ، يتم تحديد هدف الاختبار وطرق تحقيقه. وفي نهاية كل تكرار ، يتم تحديد مدى تحقيق هذا الهدف ، وما إذا كانت هناك حاجة لاختبارات إضافية ، وما إذا كانت المبادئ والأدوات اللازمة لإجراء الاختبارات بحاجة إلى التغيير. في المقابل ، يجب أن يمر كل عيب تم اكتشافه خلال دورة حياته الخاصة.

أرز. 1. دورة حياة المنتج وفقًا لـ RUP

عادةً ما يتم إجراء الاختبار في دورات ، ولكل منها قائمة محددة من المهام والأهداف. يمكن أن تتزامن دورة الاختبار مع تكرار أو تتوافق مع جزء معين منها. عادة ، يتم إجراء دورة الاختبار لبناء معين للنظام.

تتكون دورة حياة منتج البرنامج من سلسلة من التكرارات القصيرة نسبيًا (الشكل 2). التكرار هو دورة تطوير كاملة تؤدي إلى إصدار منتج نهائي أو نسخة مختصرة منه ، والتي تمتد من التكرار إلى التكرار لتصبح في النهاية نظامًا كاملاً.

يتضمن كل تكرار ، كقاعدة عامة ، مهام تخطيط العمل والتحليل والتصميم والتنفيذ والاختبار وتقييم النتائج المحققة. ومع ذلك ، يمكن أن تختلف العلاقة بين هذه المهام بشكل كبير. وفقًا لنسبة المهام المختلفة في التكرار ، يتم تجميعها في مراحل. المرحلة الأولى - التأسيس - تركز على مهام التحليل. تركز تكرارات المرحلة الثانية - التطوير - على تصميم واختبار حلول التصميم الرئيسية. المرحلة الثالثة - البناء - لديها النصيب الأكبر من مهام التطوير والاختبار. وفي المرحلة الأخيرة - النقل - يتم حل مهام اختبار ونقل النظام للعميل إلى أقصى حد.

أرز. 2. تكرار دورة حياة منتج البرنامج

كل مرحلة لها أهدافها الخاصة في دورة حياة المنتج وتعتبر مكتملة عند تحقيق هذه الأهداف. يتم إكمال جميع التكرارات ، باستثناء ، ربما ، التكرارات لمرحلة البداية ، مع إنشاء نسخة عاملة من النظام قيد التطوير.

فئات الاختبار

تختلف الاختبارات اختلافًا كبيرًا في المهام التي يتم حلها بمساعدتهم وفي التقنية المستخدمة.

فئات الاختبار وصف التصنيف أنواع الاختبار
الاختبار الحالي مجموعة من الاختبارات التي يتم إجراؤها لتحديد صحة ميزات النظام الجديدة المضافة.
  • اختبار الإجهاد
  • اختبار دورة العمل
  • اختبار الإجهاد.
اختبار الانحدار الغرض من اختبار الانحدار هو التحقق من أن الإضافات إلى النظام لم تقلل من إمكانياته ، أي. يتم إجراء الاختبار وفقًا للمتطلبات التي تم تلبيتها بالفعل قبل إضافة ميزات جديدة.
  • اختبار الإجهاد
  • اختبار دورة العمل
  • اختبار الإجهاد.

اختبار الفئات الفرعية

اختبار الفئات الفرعية وصف نوع الاختبار اختبار الأنواع الفرعية
اختبار الإجهاد يتم استخدامه لاختبار جميع وظائف التطبيق دون استثناء. في هذه الحالة ، لا يهم تسلسل وظائف الاختبار.
  • الاختبار الوظيفي؛
  • اختبار الواجهة
  • اختبار قاعدة البيانات
اختبار دورة الأعمال يتم استخدامه لاختبار وظائف التطبيق في التسلسل الذي يطلق عليه المستخدم. على سبيل المثال ، تقليد جميع تصرفات المحاسب لربع واحد.
  • اختبار الوحدة (اختبار الوحدة) ؛
  • الاختبار الوظيفي؛
  • اختبار الواجهة
  • اختبار قاعدة البيانات.
اختبار الإجهاد

تستخدم للاختبار

أداء التطبيق. الغرض من هذا الاختبار هو تحديد إطار العمل للتشغيل المستقر للتطبيق. خلال هذا الاختبار ، يتم استدعاء جميع الوظائف المتاحة.

  • اختبار الوحدة (اختبار الوحدة) ؛
  • الاختبار الوظيفي؛
  • اختبار الواجهة
  • اختبار قاعدة البيانات.

أنواع الاختبار

وحدة التجارب (اختبار الوحدة) - يتضمن هذا النوع اختبار وحدات التطبيق الفردية. للحصول على أقصى نتيجة ، يتم إجراء الاختبار بالتزامن مع تطوير الوحدات.

الاختبار الوظيفي - الغرض من هذا الاختبار هو التأكد من أن عنصر الاختبار يعمل بشكل صحيح. يتم اختبار صحة التنقل عبر الكائن ، وكذلك إدخال البيانات ومعالجتها وإخراجها.

اختبار قاعدة البيانات - التحقق من قابلية تشغيل قاعدة البيانات أثناء التشغيل العادي للتطبيق ، في لحظات التحميل الزائد وفي وضع المستخدمين المتعددين.

وحدة التجارب

بالنسبة إلى OOP ، فإن التنظيم المعتاد لاختبار الوحدة هو اختبار طرق كل فئة ، ثم فئة كل حزمة ، وما إلى ذلك. تدريجيًا ، ننتقل إلى اختبار المشروع بأكمله ، والاختبارات السابقة هي اختبارات انحدار.

يتضمن توثيق مخرجات هذه الاختبارات إجراءات الاختبار وبيانات الإدخال والرمز الذي ينفذ الاختبار وبيانات الإخراج. فيما يلي عرض لوثائق الإخراج.

الاختبار الوظيفي

يتم التخطيط للاختبار الوظيفي لعنصر الاختبار وتنفيذه بناءً على متطلبات الاختبار المحددة خلال مرحلة تحديد المتطلبات. المتطلبات هي قواعد العمل ، ومخططات حالة الاستخدام ، ووظائف الأعمال ، ومخططات النشاط ، إن وجدت. الغرض من الاختبارات الوظيفية هو التحقق من أن مكونات الرسومات المطورة تفي بالمتطلبات المحددة.

لا يمكن أن يكون هذا النوع من الاختبار مؤتمت بالكامل. ومن ثم تنقسم إلى:

  • الاختبار الآلي (يستخدم في حالة إمكانية التحقق من المخرجات).

الغرض: اختبار إدخال البيانات ومعالجتها وإخراجها ؛

  • الاختبار اليدوي (في حالات أخرى).

الغرض: اختبار صحة استيفاء متطلبات المستخدم.

من الضروري تنفيذ (تشغيل) كل حالة من حالات الاستخدام ، باستخدام كل من القيم الصحيحة والقيم الخاطئة عن عمد ، لتأكيد الأداء الصحيح ، وفقًا للمعايير التالية:

  • المنتج يستجيب بشكل مناسب لجميع بيانات الإدخال (يتم عرض النتائج المتوقعة استجابة للبيانات المدخلة بشكل صحيح) ؛
  • المنتج يستجيب بشكل مناسب للبيانات التي تم إدخالها بشكل غير صحيح (تظهر رسائل الخطأ المقابلة).

اختبار قاعدة البيانات

الغرض من هذا الاختبار هو التأكد من أن طرق الوصول إلى قاعدة البيانات موثوقة ومنفذة بشكل صحيح دون المساس بتكامل البيانات.

يجب أن تستخدم باستمرار أكبر عدد ممكن من استدعاءات قاعدة البيانات. يتم استخدام نهج يتكون الاختبار فيه بطريقة "تحميل" القاعدة بسلسلة من القيم الصحيحة والقيم الخاطئة عن عمد. يتم تحديد استجابة قاعدة البيانات لإدخال البيانات ، وتقدير الفترات الزمنية لمعالجتها.

الأسس الرياضية لنظرية تصميم الاختبار

أنواع عناصر الاختبار

هناك نوعان مختلفان من المهام: مغلقة (عندما يُعرض على الموضوع اختيار الإجابات) والمفتوحة (يجب أن يحصل الموضوع على إجابة بمفرده). يمكن تقسيم المهام المفتوحة ، بدورها ، إلى مجموعتين:

    المهام ذات الإجابات القصيرة المنظمة ، والتي يجب أن تولد صياغتها إجابة واحدة فقط يخطط لها المطور ؛

    المهام ذات الإجابات التي تم إنشاؤها بحرية والتي لا تحتوي على أي قيود على محتوى وشكل تقديم الإجابات.

هناك خمسة أنواع رئيسية من المهام. جميع الأنواع الأخرى عبارة عن اختلافات أو مجموعات من هذه الأنواع الخمسة.

    الاحالة مع الاختيار.يتكون نص الإحالة من سؤال. يتم تقديم العديد من خيارات الإجابة للاختيار ، منها واحد أو أكثر صحيح.

    مهمة الإضافة.في صياغة المهمة ، يوجد جزء معين من النص مفقود ، والذي يشار إليه بشرطة سفلية (أو عدة شرطات سفلية بنفس الطول ، إذا كان هناك عدة كلمات مفقودة). يمكن أن تكون الفجوة في أي جزء من النص ، لكن يوصى بعمل ذلك في النهاية. في الإجابة ، يجب أن يكتب الموضوع الكلمات المفقودة.

    مهمة تحديد التسلسل الصحيح.

    مهمة مطابقة.تحتوي صياغة المهمة على قائمتين. على اليسار ، كقاعدة عامة ، يتم إعطاء عناصر المجموعة التي تحتوي على بيان المشكلة ، على اليمين - العناصر التي سيتم تحديدها. يتم ترقيم عناصر المجموعة اليسرى ، ويتم الإشارة إلى العناصر اليمنى بالحروف. من المرغوب فيه أن تحتوي المجموعة الثانية على عناصر أكثر من المجموعة الأولى. في هذه الحالة ، يتوافق كل عنصر من المجموعة الأولى مع عنصر واحد أو أكثر من المجموعة الثانية.

    مهمة مع إجابة مفصلة.

مراحل تطوير الاختبار

    صياغة الهدف والهدف من البحث.

يجب اختبار من وماذا ولماذا

    تطوير محتوى الاختبار.

دراسة متطلبات المعيار التربوي ومحتوى الكتب المدرسية.

وضع مواصفات الاختبار:

    إبراز الأقسام (الموضوعات) ونسبتها في الاختبار

    اختيار أنواع الوظائف

    تحديد مستويات إتقان المعرفة والمهارات:

    المستوى الأول

    معرفة تعاريف المفاهيم الأساسية للانضباط ، وكذلك البيانات الأساسية حول أساليب الانضباط

    المستوى الثاني

    معرفة الصيغ والخوارزميات الأساسية ؛ القدرة على تطبيقها عند حل المشكلات القياسية

    مستوى 3

    تطبيق المعرفة المكتسبة لحل المشكلات غير النمطية

  1. تحديد العدد التقريبي للمهام في الاختبار وتوزيع هذا العدد حسب أنواع المهام.

    تطوير المهام.

نظرًا لأن الإصدار الأول من الاختبار يجب أن يكشف عن أوجه القصور في المهام (بما في ذلك المشتتات المقترحة) ، في كل مهمة ، تم اقتراح أكبر عدد ممكن من المشتتات ، بحيث يكون هناك عدد كافٍ عند استبعادهم.

    خبرة العجين النيء.

الغرض من الفحص هو تحديد وتصحيح الصياغة غير الصحيحة وغير المفهومة. نتيجة لذلك ، قد تتم إزالة بعض المهام من الاختبار (لذلك يوصى بالمهام).

    استحسان.

    حساب خصائص المهام والاختبارات.

بناءً على نتائج الاختبار ، يتم حساب الخصائص الإحصائية التالية للمهام والاختبارات.

نطاق النقاط الفرديةيقيس المسافة التي تتغير خلالها جميع قيم المؤشر في التوزيع (النقاط الفردية).

مع انتقائية نادرة(معدل) لمجموع النقاط الفردية NS 1 , NS 2 , …, NS كمجموعة كيتم حساب موضوعات الاختبار بواسطة الصيغة

.

عدد فرقبناءً على حساب انحرافات قيمة كل مؤشر عن المتوسط ​​الحسابي في التوزيع:

.

يشير التباين المنخفض إلى جودة منخفضة للاختبار ، حيث يشير الاختلاف الضعيف في النتائج إلى تمايز ضعيف بين الموضوعات وفقًا لمستوى التدريب. يعتبر التباين العالي بشكل مفرط نموذجيًا للحالة عندما يختلف جميع الطلاب في عدد المهام المكتملة ، الأمر الذي يتطلب أيضًا مراجعة الاختبار.

يتم الانتهاء من حساب خصائص الاختبار من خلال تقييم موثوقية الاختبار. لحساب عامل الأمان ، يمكنك استخدام الصيغة معامل كودر ريتشاردسون(فقط في حالة تساوي جميع أوزان المهام مع واحد):

.

من أجل إعطاء تقييم نوعي لموثوقية الاختبار بقيمة المعامل ، استخدم الجدول التالي:

قيمة عامل الأمان

تقييم الموثوقية

غير مرض

مرض

ممتاز

تقييم صعوبة المهمة يمحسوبة بالصيغة

.

لاحظ أنه كلما كانت المهمة أسهل ، زادت نسبة الإجابات الصحيحة عليها ( ص ي) ، لذلك سيكون من الطبيعي تفسير هذه المشاركة على أنها سهولة المهمة. في الاختبار الذي يكون متوازنًا جيدًا من حيث الصعوبة ، يجب أن يكون هناك العديد من المهام الصعبة ، والعديد من المهام السهلة ، ولكن يجب أن يكون الجزء الأكبر من المهام صعبًا من 0.3 إلى 0.7 ؛ في الوقت نفسه ، من المستحسن أن يتم ترتيب المهام حسب ترتيب صعودها.

صلاحية عنصر الاختباريتم تحديده من خلال درجة امتثال المهمة بهدف التمايز بين الموضوعات. لهذا ، يتم تحديد معاملات الارتباط للتقييم للمهمة مع درجة الاختبار بأكمله. يتم ذلك باستخدام معامل الارتباط وفقًا للصيغة

,

أين X أنا نتيجة الاختبار أناموضوع الاختبار ، ص أنا النتيجة أناموضوع الاختبار للمهمة. لاحظ أنه في حالة التقييم ثنائي التفرع للمهمة ، يتم تبسيط حساب المعامل إلى حد ما. لو ص< 0, то задание следует удалить из теста, т. к. в нем побеждают слабые ученики, а сильные выбирают неверный ответ либо пропускают задание при выполнении теста. Положительные значения, но близкие к нулю (незначимые), указывают на низкую прогностическую способность задания теста; такие задания требуют доработки содержания.

تظهر القدرة على التفريق بين أفضل وأسوأ مواضيع الاختبار معامل التمايز(أو مؤشر التمييز) مهام. إن أبسط طريقة لحساب مثل هذا الفهرس تسمى طريقة مجموعة التباين وهي على النحو التالي. من مجموعة كاملة من الموضوعات ، يبرز جزء معين من الأفضل وفقًا لنتائج اختبار الأشخاص (سنسميهم مجموعة فرعية قوية) ونفس العدد من الأسوأ (مجموعة فرعية ضعيفة). بعد ذلك ، لكل مجموعة من هذه المجموعات الفرعية ، يتم حساب نسبة الإجابات الصحيحة في المجموعة الفرعية. دعونا نشير بواسطة ص 1 ينصيب من الإجابات الصحيحة على ي- المهمة في مجموعة فرعية قوية ، وبعد ذلك ص 0 ي- حصة الإجابات الصحيحة في المجموعة الفرعية الضعيفة. ثم المؤشر التمييزي أنا- يتم تحديد المهمة بواسطة الصيغة:

(صديس) ي = ص 1 يص 0 ي .

للمهمة ، التي تعامل معها جميع الأشخاص الأقوياء ، وليس أي من الضعفاء ، مؤشر التمييز صسيكون dis يساوي 1 ؛ في هذه الحالة ، يكون للمهمة أقصى تأثير تمايز. بالنسبة للمهمة ، التي تعامل معها جميع الأشخاص الضعفاء ، وليس أي من الأشخاص الأقوياء ، سيكون المؤشر التمييزي مساوياً لـ –1. في حالات أخرى ، سيأخذ الفهرس قيمًا بين -1 و 1. المهام ذات القيم الصفرية والسالبة لمؤشر التمييز تفرق الطلاب بشكل سيء ، لذلك ، يجب إزالتها من الاختبار. إذا كان المؤشر موجبًا ، ولكنه أقل من 0.2 ، فإن هذه المهمة تتطلب تحليلًا دقيقًا للمحتوى.

وفقًا لهذه الخصائص ، يمكن إزالة بعض المهام من الاختبار ، وبعضها عرضة للتصحيح. بعد ذلك ، يجب تكرار الخطوتين 5 و 6.

صيغ لحساب احتمال التخمين

عند تجميع اختبار ، تحتاج إلى تحديد عدد الإجابات التي يجب تقديمها لكل سؤال بحيث يكون احتمال اجتياز الاختبار بنجاح عن طريق تخمين الإجابات الصحيحة أقل من 0.05 (أي أقل من 5٪). سيعتبر الاختبار ناجحًا إذا أجاب المتقدم للاختبار بشكل صحيح على الأقل س٪ من الأسئلة. إذا تضمن الاختبار نالأسئلة ، ثم يتم استخدام الصيغة التالية لحساب احتمال "التخمين بنجاح":

,

أين م- عدد الإجابات المقدمة لكل سؤال.

في حالة اختلاف عدد الإجابات المقترحة للأسئلة في مهام مختلفة ، فإن الصيغة لها شكل أكثر تعقيدًا:

,

أين - احتمال تخمين الإجابات على يالأسئلة التي يتم حسابها على النحو التالي. دع جميع الأسئلة في الاختبار مقسمة إلى صبحيث يتم دمج الأسئلة التي لها نفس احتمالية التخمين في مجموعة واحدة. نشير ص أنا , 0< ص أنا <1 - вероятность угадывания и ك أنا - عدد الأسئلة في أنا- تلك المجموعة (
)، و

.

ثم ل يمن عند
إلى N:

,

أين ر ص = ي  (ر 1 + ر 2 +…+ ر ص-1) ، وإذا ر ص > ك ص، ثم سننظر
= 0 .

أمثلة.

ن = 10 ، س = 2/3: م = 2 ، ص<0,2; m=3, P<0,02; m=4, P<0,004

المؤلفات

    Chelyshkova M. B. نظرية وممارسة تصميم الاختبارات التربوية: كتاب مدرسي. - م: الشعارات ، 2002. - 432 ص.

    Malygin A. A. A. ، Svettsov V. I. ، Shchanitsina S. V. التوصيات العملية لإعداد أدوات التحكم والقياس: الطريقة. دليل / ايفان. حالة كيمياء تكنول. un-t. - ايفانوفو ، 2005. - 30 ص.

    كيفية تأليف اختبار // تخيلات رياضية من Slayer K. - م: مير ، 1993. - ص.116-118.


الأسئلة الرئيسية: اختبار كأداة قياس. نظريات الاختبار الأساسية. وظائف وقدرات وقيود الاختبار. تطبيق الاختبارات في تقييم الموظفين. مزايا وعيوب استخدام الاختبارات. أشكال وأنواع عناصر الاختبار. تكنولوجيا بناء المهام. تقييم جودة الاختبار. المصداقية والصلاحية. برنامج تطوير الاختبار. 2




اختبار كأداة قياس المفاهيم الأساسية في علم الاختبار: القياس ، والاختبار ، ومحتوى وشكل المهام ، وموثوقية وصحة نتائج القياس. بالإضافة إلى ذلك ، يستخدم علم الاختبار مفاهيم العلوم الإحصائية مثل العينة وعامة السكان والمتوسطات والتباين والارتباط والانحدار وما إلى ذلك. 4




مهمة الاختبار هي وحدة فعالة تعليمية وتقنية لمواد التحكم ، وهي جزء من الاختبار يفي بمتطلبات نقاء الموضوع للمحتوى (أو بعد واحد) ، والصحة الموضوعية والمنطقية ، وصحة الشكل ، ومقبولية الصورة الهندسية للمهمة. 6




الاختبار التقليدي هو طريقة معيارية لتشخيص مستوى وهيكل التأهب. في مثل هذا الاختبار ، يجيب جميع الأشخاص على نفس المهام ، وفي نفس الوقت ، وفي ظل نفس الشروط وبنفس القواعد لتقييم الإجابات. يمكن إنشاء اختبارات لا حصر لها لتحقيق هدف الاختبار ، ويمكن أن تتطابق جميعها مع إنجاز المهمة المطروحة. ثمانية


Professiogram (من Lat. Professio Specialty + Gramma Record) هو نظام من العلامات التي تصف مهنة معينة ، بالإضافة إلى قائمة بالمعايير والمتطلبات للموظف في هذه المهنة أو التخصص. على وجه الخصوص ، قد يتضمن المخطط الاحترافي قائمة بالخصائص النفسية التي يجب أن يلتقي بها ممثلو مجموعات مهنية معينة. تسع


النظريات الرئيسية للاختبار ظهرت الأعمال العلمية الأولى حول نظرية الاختبارات في بداية القرن العشرين ، عند تقاطع علم النفس وعلم الاجتماع وعلم التربية وما يسمى بالعلوم السلوكية. يطلق علماء النفس الأجانب على هذا العلم اسم Psychometrika ، والمعلمون - القياس التربوي. إن تفسير اسم "testology" غير محاط بالأيديولوجيا والسياسة ، بسيط وشفاف: علم الاختبار. عشرة


المرحلة الأولى - عصور ما قبل التاريخ - من العصور القديمة حتى نهاية القرن التاسع عشر ، عندما انتشرت أشكال ما قبل العلم للتحكم في المعرفة والقدرات ؛ الفترة الثانية ، الكلاسيكية ، استمرت من أوائل العشرينات حتى نهاية الستينيات ، والتي تم خلالها إنشاء النظرية الكلاسيكية للاختبارات ؛ الفترة الثالثة - التكنولوجية - التي بدأت في السبعينيات - وقت تطوير أساليب الاختبار والتعلم التكيفي ، وهي منهجية للتطوير الفعال للاختبارات وعناصر الاختبار للتقييم البارامترى للموضوعات من خلال الجودة الكامنة القابلة للقياس. أحد عشر


وظائف وإمكانيات وقيود الاختبار تم تصميم الاختبارات المستخدمة في الاختيار للحصول على صورة نفسية للمرشح ، وتقييم قدراته ، وكذلك المعرفة والمهارات المهنية. تسمح لك الاختبارات بمقارنة المرشحين مع بعضهم البعض أو مع المعايير ، أي المرشح المثالي. تُستخدم الاختبارات لقياس الصفات التي يحتاجها الشخص للقيام بعمل ما بشكل فعال. تم تصميم بعض الاختبارات بحيث يقوم صاحب العمل نفسه بإدارة الاختبارات وحساب النتائج. يحتاج البعض الآخر إلى خدمات استشاريين ذوي خبرة لضمان تطبيقها بشكل صحيح. 12


ترتبط قيود استخدام الاختبارات - بإدارتها باهظة الثمن ؛ - مع الملاءمة لتقييم القدرات البشرية ؛ - الاختبارات أكثر نجاحًا في توقع النجاح في العمل الذي يحتوي على مهام مهنية قصيرة المدى ، وليست مريحة جدًا في الحالات التي تستغرق فيها المهام المراد حلها في العمل عدة أيام أو أسابيع. 13








2. يجب اختيار المصطلحات المستخدمة بناءً على جمهور مستهدف محدد. من الضروري أيضًا استبعاد المقالات أو المقالات غير الضرورية التي تتضمن سؤالين أو أكثر ، لأنها أحيانًا تربك المدعى عليه وتجعل التفسير صعبًا. 17


3. للوفاء بكل هذه المتطلبات ، يجب عليك مراجعة بنك الأسئلة بالكامل مقالة بمقالة وتحليل الغرض الذي يخدمه كل منهم. على سبيل المثال ، إذا تم تصميم اختبار لقياس القدرة التحليلية للمحاسبين المتدربين ، يجدر النظر في معنى مصطلح "القدرة التحليلية" في هذه الحالة. الثامنة عشر




5. بمجرد تحديد الأسئلة وتنسيقات الدرجات ، يجب تحويلها إلى تنسيق سهل الاستخدام ، مع تعليمات مكتوبة بوضوح وأمثلة على الأسئلة ؛ حتى يفهم المرشحون للاختبار تمامًا ما هو مطلوب منهم. عشرين


6. في كثير من الأحيان في هذه المرحلة من التطوير ، يتضمن الاختبار أسئلة أكثر من اللازم. وفقًا لبعض التقديرات ، سيبقى أكثر من ثلاثة أضعاف في الاختبار النهائي أو نظام القياس. سيكون المقياس الأولي بعد ذلك هو اختبار الاختبار قيد التطوير على عينة كبيرة نسبيًا من العمال الحاليين لضمان فهم جميع الأسئلة بسهولة. 21


7. عادةً ما تبدأ الاختبارات لتحديد المعرفة بأسئلة بسيطة ، وتصبح تدريجياً أكثر صعوبة في النهاية. عندما يتم تصميم الاختبارات لقياس المواقف والسمات الشخصية ، فقد يكون من المفيد التبديل بين المقالات ذات الصياغة السلبية والإيجابية لتجنب الاستجابات الخاطئة. 22


8. الخطوة الأخيرة هي تطبيق الاختبار على عينة تمثيلية واسعة لوضع معايير الأداء والموثوقية والصلاحية حتى قبل استخدامه كأداة اختيار. بالإضافة إلى ذلك ، يجب تحديد عدالة الاختبار للتأكد من أنه لا يميز ضد أي مجموعة فرعية من السكان (على سبيل المثال ، الاختلافات العرقية). 23


تقييم جودة الاختبار لكي تكون طرق الاختيار فعالة ، يجب أن تكون موثوقة وصحيحة وموثوقة. تتميز موثوقية طريقة الاختيار بعدم قابليتها للتأثر بالأخطاء المنهجية في القياس ، أي تناسقها في ظل ظروف مختلفة. 24


في الممارسة العملية ، تتحقق الموثوقية في الحكم من خلال مقارنة نتائج اختبارين أو أكثر من الاختبارات المماثلة التي أجريت في أيام مختلفة. هناك طريقة أخرى لتحسين الصلاحية وهي مقارنة نتائج العديد من طرق الاختيار البديلة (مثل الاختبار والمقابلة). إذا كانت النتائج متشابهة أو متشابهة ، فيمكن اعتبارها صحيحة. 25


الموثوقية تعني أن القياسات التي تم إجراؤها ستعطي نفس النتيجة مثل القياسات السابقة ، أي أن نتائج التقييم لا تتأثر بالعوامل الخارجية. تعني الصلاحية أن هذه الطريقة تقيس بالضبط ما تنوي القيام به. الحد الأقصى من الدقة الممكنة للمعلومات التي تم الحصول عليها من خلال طرق مطورة خصيصًا في البحث العلمي محدودة بالعوامل التقنية ولا تتجاوز 0.8. 26


في ممارسة اختيار الموظفين ، يلاحظ أن موثوقية طرق التقييم المختلفة تقع في فترات زمنية: 0.1 - 0.2 - المقابلة التقليدية ؛ 0.2 - 0.3 - توصيات ؛ 0.3 - 0.5 - اختبارات مهنية ؛ 0.5 - 0.6 - مقابلة منظمة ، مقابلة الكفاءة ؛ 0.5 - 0.7 - الاختبارات المعرفية والشخصية ؛ 0.6 - 0.7 - النهج القائم على الكفاءة (مركز التقييم). 27


المعقولية تشير إلى الدرجة التي تتنبأ بها نتيجة معينة أو طريقة أو معيار معين بالأداء المستقبلي للشخص الذي يجري اختباره. تشير صلاحية الطرق إلى الاستنتاجات المستخلصة من إجراء معين ، وليس الإجراء نفسه. بمعنى ، قد تكون طريقة الاختيار نفسها موثوقة ، ولكنها لا تتوافق مع مهمة محددة: القياس ليس هو المطلوب في هذه الحالة. 28


برمجيات لتطوير الاختبارات في الممارسة المحلية ، يتم تقديم برامج معقدة مختلفة مع وحدة "التشخيص النفسي" ، على سبيل المثال ، برنامج "1C: إدارة الرواتب وشؤون الموظفين 8.0" مع وحدة "التشخيص النفسي" ، تم تطويره مع مجموعة من المعلمين من قسم علم نفس الشخصية وعلم النفس العام في كلية علم النفس بجامعة موسكو الحكومية M.V. Lomonosov بتوجيه من الدكتور النفسي. العلوم ، أ. أ. ن. جوسيفا. جهاز محاكاة التدريب لتطوير أنظمة تقييم الموظفين وتكييف طرق الاختبار لكلية علم النفس بجامعة TSU ، تم تطويره أيضًا على أساس "1C: Enterprise 8.2" بواسطة Personnel Soft. 29


الأدب: اختيار الموظفين والتوظيف: تقنيات الاختبار والتقييم / دومينيك كوبر ، إيفان ت. روبرتسون ، جوردون تينلين. - م، دار النشر "فيرشينا، - 156 ص. الدعم النفسي للنشاط المهني: النظرية والتطبيق / إد. أ. جي إس نيكيفوروفا. - سب ب: الكلام - 816 ص. ثلاثين

الفصل 3. المعالجة الإحصائية لنتائج الاختبار

تسمح المعالجة الإحصائية لنتائج الاختبار ، من ناحية ، بتحديد نتائج الاختبار بموضوعية ، من ناحية أخرى ، لتقييم جودة الاختبار نفسه ، ومهام الاختبار ، ولا سيما لتقييم موثوقيتها. تحظى مشكلة الموثوقية باهتمام كبير في النظرية الكلاسيكية للاختبارات. هذه النظرية لم تفقد أهميتها في الوقت الحاضر. على الرغم من ظهور نظريات أكثر حداثة ، استمرت النظرية الكلاسيكية في التمسك بأرضيتها.

3.1. الأحكام الأساسية لنظرية الاختبار الكلاسيكي

3.2 مصفوفة نتائج الاختبار

3.3 التمثيل الرسومي لنقاط الاختبار

3.4. إجراءات الاتجاه المركزي

3.5 التوزيع الطبيعي

3.6 تشتت درجات الاختبار

3.7 مصفوفة الارتباط

3.8 موثوقية الاختبار

3.9 صلاحية الاختبار

المؤلفات

الأحكام الأساسية لنظرية الاختبار الكلاسيكي

مبتكر النظرية الكلاسيكية للاختبارات العقلية هو عالم النفس البريطاني الشهير ، ومؤلف تحليل العوامل ، تشارلز إدوارد سبيرمان (1863-1945) 1. ولد في 10 سبتمبر 1863 وخدم في الجيش البريطاني ربع عمره. لهذا السبب حصل على الدكتوراه فقط في سن 41 2. أجرى سبيرمان بحث أطروحته في مختبر لايبزيغ لعلم النفس التجريبي تحت إشراف فيلهلم فونت. خلال تلك الفترة ، تأثر تشارلز سبيرمان بشدة بعمل فرانسيس جالتون في اختبار الذكاء البشري. طلاب تشارلز سبيرمان هم ر. كاتيل ود. فيشلر. من بين أتباعه أ. أناستاسي ، ج. ب. جيلفورد ، ب. فيرنون ، س. بيرت ، أ. جنسن.

قدم لويس جوتمان (لويس جوتمان ، 1916-1987) 3 مساهمة كبيرة في تطوير نظرية الاختبار الكلاسيكية.

بشكل شامل وكامل ، تم تقديم النظرية الكلاسيكية للاختبارات لأول مرة في العمل الأساسي لهارولد جوليكسن (Gulliksen H. ، 1950) 4. منذ ذلك الحين ، تغيرت النظرية إلى حد ما ، على وجه الخصوص ، تم تحسين الجهاز الرياضي. تم تقديم النظرية الكلاسيكية للاختبارات في العرض الحديث في كتاب Crocker L.، Aligna J. (1986) 5. من بين الباحثين المحليين ، تم إعطاء الوصف الأول لهذه النظرية بواسطة V. Avanesov (1989) 6. في عمل MB Chelyshkova. (2002) 7 يقدم معلومات عن التبرير الإحصائي لجودة الاختبار.

تعتمد نظرية الاختبار الكلاسيكي على النقاط الخمس الرئيسية التالية.

1. نتيجة القياس التي تم الحصول عليها تجريبياً (X) هي مجموع نتيجة القياس الحقيقية (T) وخطأ القياس (E) 8:

س = T + E (3.1.1)

عادة ما تكون قيم T و E غير معروفة.

2. يمكن التعبير عن نتيجة القياس الحقيقية على أنها التوقع الرياضي E (X):

3. ارتباط المكونات الصحيحة والخاطئة لمجموعة الموضوعات يساوي صفرًا ، أي ρ TE = 0.

4. لا ترتبط المكونات المعيبة لأي اختبارين:

5. لا ترتبط المكونات المعيبة لاختبار واحد بالمكونات الحقيقية لأي اختبار آخر:

إلى جانب ذلك ، يتكون أساس النظرية الكلاسيكية للاختبارات من تعريفين - الاختبارات المتوازية والمعادلة.

يجب أن تفي الاختبارات الموازية بالمتطلبات (1-5) ، ويجب أن تكون المكونات الحقيقية للاختبار الواحد (T 1) مساوية للمكونات الحقيقية للاختبار الآخر (T 2) في كل عينة من الأشخاص الذين يجيبون على كلا الاختبارين. من المفترض أن T 1 = T 2 بالإضافة إلى تباينات متساوية s 1 2 = s 2 2.

يجب أن تفي الاختبارات المكافئة بجميع متطلبات الاختبارات المتوازية ، باستثناء شيء واحد: لا يجب أن تكون المكونات الحقيقية لاختبار واحد مساوية للمكونات الحقيقية لاختبار موازٍ آخر ، ولكن يجب أن تختلف بنفس الثابت مع.

يُكتب شرط معادلة اختبارين على النحو التالي:

حيث c 12 هو ثابت الفروق بين نتائج الاختبارين الأول والثاني.

بناءً على الأحكام المذكورة أعلاه ، تم بناء نظرية موثوقية الاختبار 9،10.

أي أن التباين في درجات الاختبار التي تم الحصول عليها يساوي مجموع الفروق بين المكونات الصحيحة والخطأ.

دعنا نعيد كتابة هذا التعبير على النحو التالي:

(3.1.3)

يمثل الجانب الأيمن من هذه المساواة موثوقية الاختبار ( ص). وبالتالي ، يمكن كتابة موثوقية الاختبار على النحو التالي:

على أساس هذه الصيغة ، تم اقتراح تعبيرات مختلفة لاحقًا للعثور على معامل موثوقية الاختبار. موثوقية الاختبار هي أهم ما يميزه. إذا كانت الموثوقية غير معروفة ، فلا يمكن تفسير نتائج الاختبار. تميز موثوقية الاختبار دقته كأداة قياس. الموثوقية العالية تعني إمكانية تكرار نتائج الاختبار في نفس الظروف.

في نظرية الاختبار الكلاسيكي ، تكمن المشكلة الأكثر أهمية في تحديد درجة الاختبار الحقيقية للموضوع (T). تعتمد درجة الاختبار التجريبي (X) على العديد من الشروط - مستوى صعوبة المهام ، ومستوى استعداد الموضوعات ، وعدد المهام ، وظروف الاختبار ، وما إلى ذلك. في مجموعة من الأشخاص المدربين تدريباً جيداً ، ستكون نتائج الاختبار أفضل بشكل عام. مما هو عليه في مجموعة الأشخاص ذوي التدريب السيئ. في هذا الصدد ، تظل مسألة حجم مقياس صعوبة المهام على عموم السكان من الموضوعات مفتوحة. تكمن المشكلة في أنه لا يتم الحصول على بيانات تجريبية حقيقية على جميع العينات العشوائية من الأشخاص. كقاعدة عامة ، هذه هي مجموعات الدراسة ، وهي مجموعة من الطلاب الذين يتفاعلون بشدة مع بعضهم البعض في عملية التعلم والدراسة في ظروف لا تتكرر غالبًا لمجموعات أخرى.

تجد ق همن المعادلة (3.1.4)

هنا ، يظهر اعتماد دقة القياس على الانحراف المعياري بشكل واضح ق Xوعلى موثوقية الاختبار ص.

أبلغ عن

طالب 137 غرام. إيفانوفا آي.

على اختبار فعالية طرق التدريب
باستخدام طرق الإحصاء الرياضي

تم وضع أقسام التقرير وفقًا للقوالب الواردة في هذا الدليل في نهاية كل مرحلة من مراحل اللعبة. يتم تخزين التقارير المقروءة في قسم الميكانيكا الحيوية حتى موعد الاستشارة قبل الامتحان. الطلاب الذين لم يبلغوا عن العمل المنجز ولم يسلموا دفتر الملاحظات مع التقرير إلى المعلم لا يُسمح لهم بإجراء اختبار القياس الرياضي.


المرحلة الأولى من لعبة الأعمال
التحكم والقياس في الرياضة

استهداف:

1. التعرف على الأسس النظرية للتحكم والقياس في الرياضة والتربية البدنية.

2. اكتساب مهارات قياس مؤشرات صفات السرعة لدى الرياضيين.

1. السيطرة في المادية
التعليم والرياضة

التربية البدنية والتدريب الرياضي ليست عملية تلقائية ، ولكنها عملية خاضعة للرقابة. في كل لحظة من الزمن ، يكون الشخص في حالة بدنية معينة ، والتي تحددها الصحة بشكل أساسي (امتثال مؤشرات النشاط الحيوي للمعيار ، ودرجة مقاومة الجسم للتأثيرات المفاجئة السلبية) ، واللياقة البدنية وحالة الوظائف الجسدية.

يُنصح بالتحكم في الحالة الجسدية للشخص عن طريق تغييرها في الاتجاه الصحيح. تتم هذه الإدارة عن طريق التربية البدنية والرياضة ، والتي تشمل على وجه الخصوص التمارين البدنية.

يبدو فقط أن المعلم (أو المدرب) يتحكم في الحالة الجسدية من خلال التأثير على سلوك الرياضي ، أي من خلال تقديم تمارين بدنية معينة والتحكم في صحة تنفيذها والنتائج التي يتم الحصول عليها في نفس الوقت. في الواقع ، ليس المدرب هو الذي يتحكم في سلوك الرياضي ، ولكن الرياضي نفسه. في سياق التدريب الرياضي ، يتأثر نظام الحكم الذاتي (جسم الإنسان). الفروق الفردية في حالة الرياضيين لا تعطي الثقة في أن نفس التأثير سيؤدي إلى نفس الاستجابة. لذلك ، فإن مسألة التغذية الراجعة ذات صلة: معلومات حول حالة الرياضي التي تأتي للمدرب أثناء التحكم في عملية التدريب.

يعتمد التحكم في التربية البدنية والرياضة على قياس المؤشرات واختيار أهمها ومعالجتها الرياضية.

تتكون إدارة العملية التعليمية والتدريبية من ثلاث مراحل:

1) جمع المعلومات ؛

2) تحليلها.

3) اتخاذ القرار (التخطيط).

عادة ما يتم جمع المعلومات أثناء التحكم المعقد ، وكائنات منها:

1) النشاط التنافسي.

2) أحمال التدريب ؛

3) حالة الرياضي.



يميز (V.A.Zaporozhanov) ثلاثة أنواع من حالات الرياضي ، اعتمادًا على مدة الفاصل الزمني المطلوب للانتقال من حالة إلى أخرى.

1. منعطف(حالة دائمة. يصر - يتمسك برأيه طويل نسبيًا -أسابيع أو شهور. السمة المعقدة للحالة المرحلية للرياضي ، والتي تعكس قدرته على إظهار الإنجازات الرياضية ، تسمى الاستعداد ، وحالة الاستعداد الأمثل (الأفضل لدورة تدريبية معينة) هي الزي الرياضي... من الواضح أنه في غضون يوم أو عدة أيام يكون من المستحيل تحقيق حالة رياضية أو فقدانها.

2. تيارشرط. التغييرات تحت تأثير واحد أو عدة فصول... في كثير من الأحيان ، تتأخر عواقب المشاركة في المسابقات أو العمل التدريبي الذي يتم إجراؤه في أحد الدروس لعدة أيام. في هذه الحالة ، يلاحظ الرياضي عادةً ظواهر الطبيعة غير المواتية (على سبيل المثال ، آلام العضلات) والأخرى الإيجابية (على سبيل المثال ، حالة زيادة الكفاءة). تسمى هذه التغييرات تأثير التدريب المتأخر.

تحدد الحالة الحالية للرياضي طبيعة الدورات التدريبية التالية وكمية الأحمال فيها. تسمى حالة معينة للوضع الحالي ، والتي تتميز بالاستعداد لأداء تمرين تنافسي في الأيام القادمة بنتيجة قريبة من الحد الأقصى ، الاستعداد الحالي.

3. التشغيلشرط. التغييرات تحت التأثير إعدام واحدممارسة الرياضة البدنية وهي مؤقتة (على سبيل المثال ، التعب الناجم عن الجري لمسافة مرة واحدة ؛ زيادة مؤقتة في الأداء بعد الإحماء). تتغير الحالة التشغيلية للرياضي أثناء جلسة التدريب ويجب أن تؤخذ في الاعتبار عند التخطيط لفترات الراحة بين المناهج والسباقات المتكررة عند تحديد ما إذا كان الإحماء الإضافي مناسبًا وما إلى ذلك. تسمى الحالة الخاصة لحالة التشغيل ، التي تتميز بالاستعداد الفوري لأداء تمرين تنافسي بنتيجة قريبة من الحد الأقصى ، الاستعداد التشغيلي.

وفقا للتصنيف أعلاه ، هناك هناك ثلاثة أنواع رئيسية لمراقبة حالة الرياضي:

1) التحكم في المرحلة... والغرض منه هو تقييم حالة المرحلة (الاستعداد) للرياضي ؛

2) السيطرة الحالية... وتتمثل مهمتها الرئيسية في تحديد التقلبات اليومية (الحالية) في حالة الرياضي ؛

3) السيطرة على العمليات... والغرض منه هو إجراء تقييم صريح لحالة الرياضي في الوقت الحالي.

يسمى القياس أو الاختبار الذي يتم إجراؤه لتحديد حالة أو قدرة الرياضي عجينة... يسمى إجراء القياس أو الاختبار بالاختبار.

يتضمن أي اختبار القياس. لكن ليس كل قياس هو اختبار. يمكن استخدام تلك الاختبارات فقط التي تفي بالمقاييس التالية المتطلبات:

2) التوحيد.

3) توافر نظام التصنيف ؛

4) الموثوقية ومحتوى المعلومات (عامل الجودة) للاختبارات ؛

5) نوع التحكم (المرحلة ، الحالية أو التشغيلية).

يسمى الاختبار الذي يعتمد على المهام الحركية اختبار المحرك. هناك ثلاث مجموعات من اختبارات الحركة:

1. تمارين التحكم ، والتي يؤديها اللاعب الذي يتلقى المهمة لإظهار النتيجة القصوى. نتيجة الاختبار هي إنجاز حركي. على سبيل المثال ، الوقت الذي يستغرقه الرياضي في الجري لمسافة 100 متر.

2. اختبارات وظيفية قياسية ، يتم خلالها تحديد جرعات المهمة ، والتي هي نفسها للجميع ، إما من خلال مقدار العمل المنجز أو بمقدار التحولات الفسيولوجية. نتيجة الاختبار عبارة عن معلمات فسيولوجية أو كيميائية حيوية أثناء العمل القياسي ، أو إنجازات حركية بقيمة قياسية للتحولات الفسيولوجية. على سبيل المثال ، النسبة المئوية للزيادة في معدل ضربات القلب بعد 20 قرفصاء أو السرعة التي يجري بها الرياضي بمعدل ضربات قلب ثابت يبلغ 160 نبضة في الدقيقة.

3. الاختبارات الوظيفية القصوى ، والتي يجب على الرياضي خلالها إظهار أقصى نتيجة. نتيجة الاختبار هي المعلمات الفسيولوجية أو البيوكيميائية بأقصى أداء. على سبيل المثال ، الحد الأقصى لاستهلاك الأكسجين أو الحد الأقصى لديون الأكسجين.

يتطلب اختبار الجودة العالية معرفة نظرية القياس.