Základné skúšobné ustanovenia. Hlavné ustanovenia klasickej teórie testov

Základné skúšobné ustanovenia. Hlavné ustanovenia klasickej teórie testov
Základné skúšobné ustanovenia. Hlavné ustanovenia klasickej teórie testov

Čo je testovanie

V súlade s IEEE STD 829-1983 Testovanie - Ide o proces analýzy softvéru zameraný na identifikáciu rozdielov medzi jeho skutočne existujúcimi a požadovanými vlastnosťami (defekt) a vyhodnotiť vlastnosti softvéru.

Podľa GOST R ISO IEC 12207-99 v životnom cykle softvéru sa určujú okrem iných pomocných procesov overovania, certifikácia, spoločná analýza a audit. Proces overovania je proces určovania, že softvérové \u200b\u200bprodukty fungujú v plnom súlade s požiadavkami alebo podmienkami realizovanými v predchádzajúcich prácach. Tento proces môže zahŕňať analýzu, overovanie a testovanie (testovanie). Proces certifikácie je proces určovania úplnosti zhody stanovených požiadaviek vytvorených systémom alebo softvérovým produktom byť ich funkčným určeným. Proces spoločnej analýzy je proces hodnotenia štátov av prípade potreby výsledky práce (výrobkov) na projekte. Proces auditu je proces určovania súladu s požiadavkami, plánomi a podmienkami zmluvy. Vo výške týchto procesov a tvoria to, čo sa bežne nazýva testovanie.

Testovanie je založené na skúšobných postupoch so špecifickými vstupnými údajmi, počiatočnými podmienkami a očakávaným výsledkom vyvinutým na konkrétny účel, ako napríklad kontrola samostatného programu alebo overovanie súladu s určitou požiadavkou. Skúšobné postupy môžu kontrolovať rôzne aspekty fungovania programu - od riadnej prevádzky samostatnej funkcie pred primeraným vykonávaním obchodných požiadaviek.

Pri vykonávaní projektu je potrebné zohľadniť v súlade s akým normami a požiadavky budú testované výrobkom. Aké nástroje budú (ak sú) používajú na vyhľadávanie a dokumentov zistených defektov. Ak si spomeniete na testovanie od samého začiatku projektu, testovanie vyvinutého výrobku nebude dodať nepríjemné prekvapenia. Takže kvalita výrobku bude pravdepodobne dosť vysoká.

Životný cyklus produktu a testovanie

V našom čase ho používate iteratívnymi procesmi vývoja softvéru, najmä technológie RUP - racionálny jednotný proces(Obr. 1). Keď používate tento prístup, testovanie prestane byť "na procese šité", ktorý beží potom, čo programátori napísali všetok potrebný kód. Práca na testoch začína veľmi počiatočnou fázou identifikácie požiadaviek na budúci výrobok a úzko sa integruje so súčasnými úlohami. A robí nové požiadavky pre testerov. Ich úloha nie je len znížená na identifikáciu chýb čo najskôr a čo najskôr. Mali by sa zúčastňovať na celkovom procese identifikácie a eliminovania najvýznamnejších rizík projektu. Na tento účel je určený účel testovania a metód pre jeho dosiahnutie pre každú iteráciu. A na konci každej iterácie sa určuje, koľko je tento cieľ dosiahnutý, ak sú potrebné ďalšie testy, a či nie je potrebné zmeniť zásady a testovacie nástroje. Na druhej strane musí každá zistená vada prejsť svojím životným cyklom.

Obr. 1. Životný cyklus produktu na RUP

Testovanie sa zvyčajne vykonáva cyklom, z ktorých každý má špecifický zoznam úloh a účely. Skúšobný cyklus sa môže zhodovať s iteráciou alebo zodpovedať svojej špecifickej časti. Typicky sa skúšobný cyklus vykonáva pre špecifickú zostavu systému.

Životný cyklus softvérového produktu sa skladá zo série relatívne krátkych iterácií (obr. 2). Iterácia je kompletný vývojový cyklus, ktorý vedie k uvoľneniu konečného produktu alebo niektoré z jeho skrátenej verzie, ktorá sa rozširuje z iterácie na iteráciu tak, že na konci sa stáva hotovým systémom.

Každá iterácia zahŕňa spravidla úlohy pracovného plánovania, analýzy, dizajnu, implementácie, testovania a hodnotenia dosiahnutých výsledkov. Pomery týchto úloh sa však môžu výrazne zmeniť. V súlade s pomerom rôznych úloh v iteráciách sú zoskupené do fáz. V prvej fáze - začiatok - hlavná pozornosť sa venuje úlohám analýzy. V iteráciách druhej fázy - rozvoj - zameranie je na dizajn a testovanie kľúčových rozhodnutí projektu. V tretej fáze je výstavba najväčším podielom úloh rozvoja a testovania. A v poslednom fáze - prenos - sú vyriešené najvyššie úlohy testovania a prenosu systému k zákazníkovi.

Obr. 2. Iterácie životného cyklu softvérového produktu

Každá fáza má svoje vlastné špecifické ciele v životnom cykle výrobkov a považuje sa za to, že sa dosiahnu tieto ciele. Všetky iterácie, s výnimkou, môžu byť, iterácie fázy štart sú dokončené vytvorením fungujúcej verzie vyvinutého systému.

Kategórie testu

Testy sa výrazne líšia v úlohách, ktoré sú riešené s ich pomocou a podľa použitej techniky.

Kategórie testu Popis Kategórie Typy testovania
Aktuálne testovanie Súbor testov vykonaných na určenie výkonu pridaných nových funkcií systému.
  • stresové testovanie;
  • testovanie obchodných cyklov;
  • stresové testovanie.
Regresné testovanie Účelom regresného testovania je overiť, či pridanie systému neznižuje svoje schopnosti, t.j. Testovanie sa vykonáva podľa požiadaviek, ktoré už boli ukončené pred pridaním nových funkcií.
  • stresové testovanie;
  • testovanie obchodných cyklov;
  • stresové testovanie.

Subkategory testovanie

Subkategory testovanie Popis typu testovania Testovanie poddruhov
Stresové testovanie Používa sa na testovanie všetkých bez výnimky aplikácií funkcií. V tomto prípade sekvencia testovania funkcií nezáleží.
  • funkčné testovanie;
  • testovanie rozhrania;
  • testovacia databáza
Testovanie obchodných cyklov Používa sa na testovanie funkcií aplikácie v poradí ich volania užívateľom. Napríklad imitácia všetkých účtovných akcií na 1. štvrťrok.
  • jednotkové testovanie (modulárne testovanie);
  • funkčné testovanie;
  • testovanie rozhrania;
  • testovacia databáza.
Stresové testovanie

Používa sa na testovanie

Výkonnosť aplikácií. Účelom tohto testu je určiť rámec stabilnej prevádzky aplikácie. S týmto testovaním sa nazývajú všetky dostupné funkcie.

  • jednotkové testovanie (modulárne testovanie);
  • funkčné testovanie;
  • testovanie rozhrania;
  • testovacia databáza.

Typy testovania

Testovanie jednotiek (Modulárne testovanie) - Tento druh znamená testovanie jednotlivých aplikačných modulov. Na získanie maximálneho výsledku sa testovanie vykonáva súčasne s vývojom modulov.

Funkčné testovanie - Účelom tohto testu je zabezpečiť správne fungovanie skúšobného objektu. Testuje sa správne navigácia objektu, ako aj vstupným, spracovaním a výstupom údajov.

Testovacia databáza - Skontrolujte výkon databázy s normálnou prevádzkou aplikácie, pri momentoch preťaženia a multiplayerového režimu.

Testovanie jednotiek

Pre OOP je obvyklá organizácia modulárneho testovania otestovať metódy každej triedy, potom triedu každého balenia I.T.D. Postupne sa obrátime na testovanie celého projektu a predchádzajúce testy sú typom regresie.

Vo výstupných povinnostiach, testovacie údaje zahŕňajú skúšobné postupy, vstupné údaje, kód vykonávajúci test, výstup. Nasleduje typ výstupnej dokumentácie.

Funkčné testovanie

Funkčné testovanie skúšobného objektu sa plánuje a vykonáva sa na základe požiadaviek na testovanie uvedené v etape definície. Požiadavky sú obchodné pravidlá, prípadové grafy, obchodné funkcie, ako aj ak existujú grafy aktivít. Účelom funkčných testov je skontrolovať súlad vypracovaných grafických zložiek stanovených požiadaviek.

Tento typ testovania nemôže byť plne automatizovaný. V dôsledku toho je rozdelená do:

  • Automatizované testovanie (sa použije v prípade, keď môžete skontrolovať informácie o výstupe).

Účel: Testovací vstup, spracovanie a výstup údajov;

  • Manuálne testovanie (v iných prípadoch).

Účel: Testuje správnosť vykonávania požiadaviek používateľov.

Je potrebné vykonať (prehrať) každý z použitia, s použitím verných hodnôt a samozrejme chybné, na potvrdenie správneho fungovania podľa nasledujúcich kritérií: \\ t

  • produkt reaguje primerane na všetky zadané údaje (očakávané výsledky sa zobrazia v reakcii na správne zadané údaje);
  • výrobok primerane reaguje na nesprávne zadané údaje (zobrazia sa vhodné chybové hlásenia).

Testovacia databáza

Účelom tohto testovania je zabezpečiť, aby metódy prístupu k databázam boli spoľahlivé, v ich správnom vykonávaní bez toho, aby narušili integritu údajov.

Musíte konzistentne použiť maximálny možný počet odvolaní do databázy. Používa sa prístup, v ktorom je test zostavený takým spôsobom, aby "zaťaženie" základne so sekvenciou, vernými hodnotami a samozrejme chybné. Odpoveď databázy na zadávanie údajov sa odhaduje, časové intervaly ich spracovania sa odhadujú.

Kapitola 3. Výsledky štatistického spracovania

Štatistické spracovanie výsledkov testov umožňuje na jednej strane objektívne definovať výsledky predmetov, na druhej strane - vyhodnotiť kvalitu samotného testovania, testovacích úloh, najmä na zhodnotenie jeho spoľahlivosti. Problém spoľahlivosti sa vypláca veľa pozornosti v klasickej teórii testov. Táto teória nestratila relevantnosť a teraz. Napriek vzhľadu, modernejším teóriám, klasická teória naďalej udržiava svoju pozíciu.

3.1. Hlavné ustanovenia klasickej teórie testov

3.2. Výsledky testov MATRIX

3.3. Grafická prezentácia testovacích bodov

3.4. Opatrenia ústrednej tendencie

3.5. Normálna distribúcia

3.6. Test testovacích bodov disperzie

3.7. Korelačná matrica

3.8. Spoľahlivosť skúšky

3.9. Platnosť skúšky

Literatúra

Hlavné ustanovenia klasickej teórie testov

Stvoriteľ klasickej teórie testov (klasická teória mentálnych testov) je dobre známy britský psychológ, autor faktorovej analýzy, náročné Edward Spearman (1863-1945) 1. Narodil sa 10. septembra 1863 a štvrtina jeho života bola doručená v britskej armáde. Z tohto dôvodu dostal stupeň lekára filozofie len vo veku 41 2. Dizertačná štúdia dielPirmana bola vykonaná v Lipsku laboratóriu experimentálnej psychológie pod vedením Wilhelm Wundt (Wilhelm Wundt). V tomto období bol Francis Galton (Francis Galton) silný vplyv na Ch.Pirman (Francis Galton) na testovanie ľudskej inteligencie. Žiaci PartPirman boli R.Cattell a D.wechsler. Medzi jeho nasledovníkmi, A.anastasi, J. P. Guilford, P.Vernon, C.BURT, A.Jensen môže byť nazývaný.

Veľký prínos k rozvoju klasickej teórie testov vyrobených Louis Guttman, 1916-1987) 3.

Komplexne a plné klasickej teórie testov prvýkrát je uvedené v základnej práci Harold Gullixen (Gulliksen H., 1950) 4. Odvtedy sa teória trochu modifikovala, najmä matematické zariadenie bolo zlepšené. Klasická teória testu v modernej prezentácii je uvedená v knihe Crocker L., ALIGNA J. (1986) 5. Od domácich výskumníkov bol prvýkrát uvedený opis tejto teórie v.Avanesis (1989) 6. V práci Chelyowkova M.B. (2002) 7 poskytuje informácie o štatistických odôvodnení kvality testu.

Klasická testovaná teória je založená na nasledujúcich piatich hlavných pozíciách.

1. Empiricky získaný výsledok merania (x) je súčtom skutočného výsledku merania (t) a chýb merania (E) 8:

X \u003d t + e (3.1.1)

Hodnoty t a e sú zvyčajne neznáme.

2. Skutočný výsledok merania môže byť vyjadrený ako matematické očakávania E (X):

3. Korelácia pravdivých a chybných zložiek podľa sady subjektov je nula, to znamená ρ te \u003d 0.

4. Chybné zložky dvoch akýchkoľvek testov nerealizujú: \\ t

5. Chybné zložky jedného testu nerealizujú so skutočnými zložkami akéhokoľvek iného testu:

Okrem toho je základom klasickej teórie testov dve definície - paralelné a ekvivalentné testy.

Paralelné testy musia spĺňať požiadavky (1-5), pravé zložky jedného testu (T 1) musia byť rovnaké ako skutočné zložky iného testu (T2) v každej vzorke testov, ktoré reagujú na obidva testy. Predpokladá sa, že T1 \u003d T2 a navyše sa rovnajú disperziou S 12 \u003d S22.

Ekvivalentné testy musia spĺňať celú požiadavku paralelných testov s výnimkou jedného: Skutočné zložky jedného testu sa nemusia rovnať skutočným zložkám iného paralelného testu, ale mali by sa líšiť na rovnakom konštante. z.

Podmienka ekvivalencie dvoch testov je zaznamenaná v nasledujúcom podobe:

kde C12 je konštanta rozdielov vo výsledkoch prvých a druhých testov.

Na základe uvedených ustanovení je teória spoľahlivosti skúšky 9.10.

to znamená, že disperzia získaných testovacích bodov sa rovná súčtu disperzií skutočných a chybných zložiek.

Tento výraz prepíšem takto:

(3.1.3)

Pravá strana tejto rovnosti je spoľahlivosť testu ( r.). Spoľahlivosť testu teda môže byť napísaná vo forme:

Na základe tohto vzorca boli následné výrazy na nájdenie faktora spoľahlivosti testu. Spoľahlivosť testu je jeho kľúčová charakteristika. Ak je spoľahlivosť neznáma, výsledky testov nemožno interpretovať. Spoľahlivosť testu charakterizuje svoju presnosť ako merací prístroj. Vysoká spoľahlivosť znamená vysokú opakovateľnosť výsledkov skúšok za rovnakých podmienok.

V klasickej teórii testov je najdôležitejším problémom určiť skutočný testovací bod predmetu (t). Empirický testovací bod (X) závisí od mnohých podmienok - úrovne obtiažnosti úloh, úrovne pripravenosti predmetov, počtu úloh, podmienky vykonávania testovania atď. V skupine silných, dobre vyškolených predmetov budú výsledky testov zvyčajne lepšie. v skupine slabo pripravených predmetoch. V tejto súvislosti zostáva otázka rozsahu ťažkostí úloh na všeobecnej populácii subjektov otvorená. Problém spočíva v tom, že skutočné empirické údaje sa získajú na všetkých náhodných vzorkách predmetov. Sú to pravidlo, že ide o vzdelávacie skupiny, ktoré sú mnoho študentov pomerne dôrazne spolupracovať medzi sebou v procese učenia a študentov v podmienkach, ktoré sa často neopakujú pre iné skupiny.

Nájsť s E. Z rovnice (3.1.4)

Tu výslovne ukazuje závislosť presnosti merania zo štandardnej hodnoty odchýlky. s X. a od spoľahlivosti testu r..

Aplikačné oblasti, ciele a úlohy testovania sa líšia, takže testovanie sa odhaduje a vysvetľuje rôznymi spôsobmi. Niekedy sa testers samotní, je ťažké vysvetliť, aké testovanie na "ako je". Existuje nejasnosť.

Ak chcete rozlúštiť tento zmätok, Alexey Barancers (prax, tréner a konzultant v softvérových testoch; Odchod z Ústavu systému programovania Ruskej akadémie vied) predpovedá svoje školenia o testovaní úvodného videa o hlavných testoch testovania.

Zdá sa mi, že v tejto správe by lektor mohol najviac primerane a Weigly vysvetliť "Čo je testovanie" z hľadiska vedeckého a programátora. Je divné, že tento text ešte neobjavil na Habrejovi.

Uvádzam tu komprimovaný oprávnenie tejto správy. Na konci textu existujú odkazy na plnú verziu, ako aj uvedené video.

Hlavné pozície testovania

Drahí kolegovia,

Po prvé, skúsme to pochopiť, aké testovanie nie je.

Testovanie Nie je vývoj,

Aj keď sú testeri schopní naprogramovať, vrátane testov (testovanie automatizácie \u003d programovanie), môžu vyvinúť niektoré pomocné programy (pre seba).

Testovanie však nie je vývojové aktivity softvéru.

Testovanie nie je analýza,

A nie zbierať a analyzovať požiadavky.

Aj keď v procese testovania, niekedy musíte objasniť požiadavky a niekedy ich musíte analyzovať. Táto činnosť však nie je hlavnou, skôr je potrebné urobiť len v prípade potreby.

Testovanie nie je riadenie,

Napriek tomu, že v mnohých organizáciách existuje taká úloha "Test Manager". Samozrejme, testeri musia byť spravované. Sám o sebe nie je kontrolované.

Testovanie nie je technické zapojenie,

Testery však musia dokumentovať svoje testy a ich prácu.

Testovanie sa nedá zvážiť žiadnu z týchto činností jednoducho preto, že v procese vývoja (alebo analyzovania požiadaviek alebo písanie dokumentácie pre svoje testy) testeri robia všetky tieto práce pre seba, nie pre niekoho iného.

AKTIVITY Význam len vtedy, keď je v dopyte, to znamená, že držitelia testov by mali vytvoriť niečo "pre export". Čo robia "pre export"?

Defekty, popisy chýb alebo skúšobné správy? Čiastočne je to pravda.

Ale toto nie je celá pravda.

Hlavné testy aktivity

Je to, že účastníkom projektu poskytujú rozvíjať softvér negatívny spätnú väzbu o kvalite softvérového produktu.

"Negatívna spätná väzba" nenesie nejaký záporný odtieň, a neznamená, že držiaky testov robia niečo zlé, alebo že robia niečo zlé. Je to len technický termín, ktorý znamená pomerne jednoduchú vec.

Ale táto vec je veľmi významná, a pravdepodobne jediná najvýznamnejšia zložka činností testerov.

Tam je veda - "teória systému". Definuje taký koncept ako "spätnú väzbu".

"Spätná väzba" je niektoré údaje, ktoré sa uvoľňujú späť na vstup, alebo niektoré časti údajov, ktoré z výstupu sa vrátia späť na vstup. Táto spätná väzba môže byť pozitívna a negatívna.

A ten, a ostatné odrody spätnej väzby sú rovnako dôležité.

Vo vývoji softvérových systémov s pozitívnou spätnou väzbou, samozrejme, sú niektoré informácie, ktoré dostávame od koncových užívateľov. Toto sú požiadavky na niektoré nové funkcie, toto zvýšenie predaja (ak produkujeme kvalitný produkt).

Negatívna spätná väzba môže tiež pochádzať od koncových používateľov vo forme niektorých negatívnych recenzií. Buď môže pochádzať z testerov.

Predpokladá sa, že skoršia negatívna spätná väzba je za predpokladu, že menšia energia je potrebná na modifikáciu tohto signálu. Preto je potrebné začať začať čo najskôr, v najskorších etapách projektu a poskytovať túto spätnú väzbu a v štádiu návrhu, a tiež možno skôr, v štádiu zberu a analyzovania požiadaviek.

Mimochodom, teda pochopenie, že testerov nie sú zodpovední za kvalitu. Pomáhajú tým, ktorí sú za neho zodpovední.

Synonymá termín "testovanie"

Z hľadiska skutočnosti, že testovanie je poskytovanie negatívnej spätnej väzby, svetoznámejšia QA skratka (angličtina. Slúži na zabezpečenie kvality) Synonymum pre výraz "testovanie" nie je presne určite.

Nie je možné zvážiť jednoduché zabezpečenie kvality negatívnej spätnej väzby, pretože ustanovenie je niektoré pozitívne opatrenia. Rozumie sa, že v tomto prípade poskytujeme kvalitu, včas udeľujeme určité opatrenia, aby sa zvýšila kvalita vývoja softvéru.

"Kontrola kvality" - kontrolu kvality, možno zvážiť v širšom zmysle synonymom pre termín "testovanie", pretože kontrolu kvality je toto a existuje poskytovanie spätnej väzby v širokej škále svojich odrôd, v rôznych štádiách Projektový projekt.

Niekedy sa testovanie myslí ako nejaká samostatná forma kontroly kvality.

Zmätok pochádza z histórie testovania. Termín "testovanie" bol v rôznych časoch určený na rôzne akcie, ktoré možno rozdeliť na 2 veľké triedy: externé a interné.

Externé definície

Definície, ktoré v rôznych časoch dostali myers, hýri, Kaner, opisujú testovanie len z hľadiska jeho vonkajšieho významu. To znamená, že z ich pohľadu je testovanie aktivita, ktorá je pre niečo určené, a nie je pozostáva z niečoho. Všetky tri z týchto definícií môžu byť zovšeobecnené ako negatívna spätná väzba.

Vnútorné definície

Ide o definície, ktoré sú uvedené v štandarde terminológie používanej v softvérovom inžinierstve, napríklad v štandarde de facto s názvom Swebok.

Takéto definície sú konštruktívne vysvetlené, čo je testovanie činností, ale neposkytujú žiadnu predstavu, že je potrebné testovať, na ktoré všetky výsledky overovania súladu medzi skutočným správaním programu a jeho očakávaným správnym správaním sa použijú.

testovanie je

  • skontrolujte zhodu požiadaviek programu
  • vykonaním jeho práce
  • v špeciálnom, umelo vytvorených situáciách vybraných určitým spôsobom.
Odtiaľ a potom to považujeme za pracovnú definíciu "testovania".

Celková skúšobná schéma približne takto: \\ t

  1. Vstupný tester prijíma program a / alebo požiadavky.
  2. On robí niečo s nimi, sleduje prácu programu v určitých, sofistikovaných situáciách vytvorených ním.
  3. Na výstupe prijíma informácie o korešpondentoch a nezrovnalostiach.
  4. Ďalej sa tieto informácie používajú na zlepšenie už existujúceho programu. Aby ste mohli zmeniť požiadavky na vytvorenie iného programu.

Čo je test

  • Toto je špeciálna, umelo vytvorená situácia zvolená určitým spôsobom,
  • a opis toho, aké pripomienky programu je potrebné urobiť
  • overiť jeho zhodu s určitou požiadavkou.
Nie je potrebné predpokladať, že situácia je niečo viac simultánne. Test môže byť dostatočne dlhý, napríklad pri testovaní výkonu, táto umelo vytvorená situácia môže pokračovať dostatočne dlhé časové zaťaženie systému. A pripomienky, ktoré musia robiť s týmto, je súbor rôznych grafov alebo metrík, ktoré merajú v procese vykonávania tohto testu.

Test vývojár je zapojený do skutočnosti, že je to z obrovského potenciálne nekonečného testu testov Vyberte si nejaký obmedzený súbor.

No, tak môžeme dospieť k záveru, že tester robí dve veci v procese testovania.

1. Po prvé, riadi vykonávanie programu a vytvára tieto najdôležitejšie situácie, v ktorých sa chystáme kontrolovať správanie programu.

2.i, po druhé, on sleduje správanie programu a porovnáva to, čo vidí s tým, čo sa očakáva.

Ak tester automatizuje testy, nepozerá sa na správanie programu - deleguje túto úlohu na špeciálny nástroj alebo osobitný program, ktorý napísal. Je to ona, ktorá poznamenáva, porovnáva pozorované správanie s očakávaným, a tester dáva len nejaký konečný výsledok - či pozorované správanie sa zhoduje s očakávaným, alebo sa nezhoduje.

Akýkoľvek program je mechanizmus na spracovanie informácií. Záznam prichádza do záznamu v jednej forme, výstupné informácie v inej forme. V rovnakej dobe, programové vstupy a výstupy môžu byť veľa, môžu byť rôzne, to znamená, že program môže mať niekoľko rôznych rozhraní a tieto rozhrania môžu mať rôzne typy:

  • Užívateľské rozhranie (UI)
  • Softvérové \u200b\u200brozhranie (API)
  • Sieťový protokol
  • Systém súborov
  • Podmienka životného prostredia
  • Diania
Najbežnejšie rozhrania sú
  • vlastný
  • grafika,
  • text
  • konzolový,
  • a reč.
Použitie všetkých týchto rozhraní, tester:
  • nejako vytvára umelé situácie,
  • a kontroluje v týchto situáciách ako program.

Toto je testovanie.

Ďalšie klasifikácie typov testovania

Najčastejšie sa používa na rozdelenie troch úrovní, to
  1. modulárne testovanie
  2. integračné testovanie
  3. testovanie systému.
Pri modulárnom testovaní sa testovanie zvyčajne chápe pomocou pomerne nízkej úrovni, to znamená, že testovanie jednotlivých operácií, metód, funkcií.

V rámci testovania systému znamená testovanie na úrovni používateľského rozhrania.

Niekedy sa používajú aj niektoré ďalšie termíny, ako napríklad "testovanie komponentu", ale radšej prideľujem tieto tri, vzhľadom k tomu, že technologické oddelenie modulárnych a systémových testov nerobí veľa zmyslu. Na rôznych úrovniach je možné použiť rovnaké nástroje, rovnaké techniky. Podmienečne oddelenie.

Prax ukazuje, že nástroje, ktoré sú umiestnené výrobcom ako modulárne testovacie nástroje, sa môžu aplikovať s rovnakým úspechom a na úrovni skúšky celej aplikácie ako celku.

A nástroje, ktoré otestujú celú aplikáciu ako celok na úrovni používateľského rozhrania, niekedy chcú vyzerať napríklad do databázy alebo spôsobujú určitý samostatný uložený postup.

To znamená, že rozdelenie na systémové a modulárne testovanie je všeobecne čisto podmienené, ak hovoríme z technického hľadiska.

Používajú sa rovnaké nástroje, čo je normálne, rovnaké techniky sa používajú, na každej úrovni môžete hovoriť o testovaní rôznych typov.

Kombinovať:

To znamená, že môžete hovoriť o modulárnom testovaní funkčnosti.

Môžete hovoriť o testovaní systémovej funkčnosti.

Môžete hovoriť o modulárnom testovaní, napríklad účinnosť.

Môžete hovoriť o systémovej testovaní efektívnosti.

Alebo považujeme účinnosť určitého samostatného algoritmu, alebo považujeme efektívnosť celého systému ako celku. To znamená, že technologická separácia modulárneho a systémového testovania nerobí veľa zmyslu. Pretože na rôznych úrovniach je možné použiť rovnaké nástroje, rovnaké techniky.

Nakoniec, s integračným testovaním skontrolujeme, či ako súčasť systému, moduly vzájomne spolupracujú. To znamená, že v skutočnosti vykonávame tie isté testy ako v testovaní systému, len ďalej venujte pozornosť tomu, ako moduly vzájomne spolupracujú. Vykonávať ďalšie kontroly. Toto je jediný rozdiel.

Skúsme to znova pokúsiť sa pochopiť rozdiel medzi systémovým a modulárnym testovaním. Vzhľadom k tomu, že toto oddelenie sa zistilo, že tento rozdiel musí byť.

A tento rozdiel sa prejavuje, keď nevykonáme technologickú klasifikáciu, ale klasifikáciu podľa cieľov Testovanie.

Klasifikácia na účely je vhodná na vykonávanie s použitím "magického námestia", čo pôvodne vymyslel Brian Marik a potom zlepšil Erie Tannen.

V tomto magickom námestí sa všetky druhy testovania nachádzajú na štyroch kvadrantoch, v závislosti od toho, čo je pozornosť je viac zameraná na tieto testy.

Vertikálne - Čím vyšší je typ testovania, tým viac pozornosti sa venuje niektorým vonkajším prejavom správania programu, tým nižšia je, tým viac venujeme pozornosť svojmu internému technologickému zariadeniu programu.

Horizontálne - vľavo Naše testy sú umiestnené, tým viac pozornosti ich zaplatíme na programovanie, tým viac je, tým viac sa venujeme za manuálne testovanie a výskum programu osobou.

Najmä na tomto námestí môžete ľahko zadať takéto výrazy ako testovanie akceptacie, testovanie prijatia, modulárne testovanie presne v tomto porozumení, v ktorom sa najčastejšie používa v literatúre. Toto je nízkoúrovňové testovanie s veľkým, s ohromujúcim podielom programovania. To znamená, že sú to naprogramované všetky testy, úplne automaticky vykonané a pozornosť sa venuje predovšetkým interným zariadením programu, je to jeho technologické znaky.

V pravom hornom rohu budeme mať ručné testy zamerané na vonkajšie správanie programu, najmä testovanie jednoduchosti používania a v pravom dolnom rohu, s najväčšou pravdepodobnosťou boli kontrolované rôznymi nefunkčnými vlastnosťami: výkon, a tak ďalej.

Na základe klasifikácie podľa cieľov sa ukážeme na modulárne testovanie v najvyššom kvadrante a všetky ostatné kvadranty sú testovanie systému.

Ďakujem za pozornosť.

základy teórie testov

Základné pojmy teórie testov

Meranie alebo testovanie vykonané s cieľom určiť stav alebo schopnosti športovca cesto .

Nie všetky merania môžu byť použité ako testy, ale iba tie, ktoré spĺňajú špeciálne požiadavky. Tie obsahujú:

1. Štandardizácia (postup a testovacie podmienky by mali byť rovnaké vo všetkých prípadoch použitia testu);
2. Spoľahlivosť;
3. informatívne;
4. Prítomnosť ratingového systému.

Testy, ktoré spĺňajú požiadavky spoľahlivosti a informatizity sobota alebo autentický (Grécka. Autentický - spoľahlivý spôsob).

Testovací proces sa nazýva testovanie ; \\ T Číselná hodnota získaná ako výsledok - výsledky testu (alebo výsledok testu). Napríklad, beží 100 m je test, postup na vykonávanie príležitosti a načasovania - testovanie, čas pretekov je výsledkom testu.

Testy založené na motorových úloh sa nazývajú motor alebo motor . Výsledky ich môžu byť buď motorové úspechy (čas prechodu vzdialenosti, počet opakovaní prešiel cez vzdialenosť, atď.), Alebo fyziologické a biochemické ukazovatele.

Nie je niekedy používaný nie, ale niekoľko testov, ktoré majú jediný cieľový cieľ (napríklad posúdenie stavu športovca v súťažnej dobe odbornej prípravy). Takáto skupina testov sa nazýva komplexný alebo testovacia batéria .

Rovnaký test aplikovaný na rovnakú štúdiu by sa malo uviesť v rovnakých podmienkach, ktoré sa zhodujú s výsledkami (pokiaľ nezmenili študované). S najprísnejšími štandardizačnými a presnými zariadeniami sú však výsledky testov vždy trochu líšia. Výsledná dynamometria, ktorá práve ukázala výsledok 215 kg v teste dynamometrie, s opakovaným vykonávaním ukazuje len 190 kg.

2. Spoľahlivosť testov a spôsobov určenia

Spoľahlivosť Test sa nazýva stupeň náhody výsledkov pri opätovnom testovaní tých istých ľudí (alebo iných predmetov) za rovnakých podmienok.

Variant výsledkov pri opätovnom testovaní sa nazýva vnútri jednotlivca alebo vnútri skupiny alebo intrasklass.

Štyri hlavné dôvody spôsobujú túto zmenu:

1. Zmena stavu študovaného (únava, práca, učenie, zmena motivácie, koncentrácie pozornosti atď.).
2. Nekontrolované zmeny vonkajších podmienok a zariadení (teplota, vetra, vlhkosť, napätie v elektrickej sieti, prítomnosť neoprávnených osôb atď.), T.j. Všetko, čo kombinuje termín "Náhodná chyba merania".
3. Zmena stavu osoby, ktorá vykonáva alebo vyhodnocuje test (a samozrejme, nahradenie jedného experimentátora alebo sudca iným).
4. Nedokonalosť cesta (Existujú také testy, ktoré sú vedome nepohodlné. Napríklad, ak testy vykonávajú voľné hody do basketbalového koša, potom aj basketbalový hráč, ktorý má vysoké percento hitov, sa môže náhodne mýliť pri prvom hádzaní).

Hlavným rozdielom v teórii testovacej spoľahlivosti na teóriu chýb merania je, že v teórii chýb sa nameraná hodnota považuje za nezmenenú a v teórii testov spoľahlivosti sa predpokladá, že sa zmení z merania k meraniu. Napríklad, ak potrebujete merať výsledok pokusu o dĺžku dĺžky z dráhy, nemôže výrazne a časom zmeniť. Samozrejme, vzhľadom na náhodné príčiny (napríklad nerovnaké napätie rulety), je nemožné merať tento výsledok s ideálnou presnosťou (povedzme až 0,0001 mm). Avšak, pomocou presnejšieho meracieho prístroja (napríklad laserového merača), môžete zvýšiť ich presnosť na požadovanú úroveň. Zároveň, ak je úlohou určiť pripravenosť jumpera v určitých štádiách ročného tréningového cyklu, najpresnejšie meranie výsledkov, ktoré im ukázali Little, pomôže: Koniec koncov, budú sa meniť, že sa snažia vyskúšať.

Na riešenie myšlienky metód používaných na posúdenie spoľahlivosti testov, zvážte zjednodušený príklad. Predpokladajme, že musíte porovnať výsledky skokov v dĺžke z miesta v dvoch športovcov na dvoch dokončených pokusoch. Predpokladajme, že výsledky každého športovcov sa líšia v rozmedzí ± 10 cm od priemernej hodnoty a sú rovnaké, resp. 230 ± 10 cm (tj 220 a 240 cm) a 280 ± 10 cm (tj 270 a 290 cm). V tomto prípade bude záver, samozrejme, úplne jednoznačne: druhý športovec presahuje prvý (rozdiely medzi priemerom v 50 cm je jasne vyššie ako náhodné oscilácie ± 10 cm). Ak s rovnakou variáciou intragroup (± 10 cm) bude rozdiel medzi priemernými hodnotami študovaného (variácia medziskupiny) malá, potom bude oveľa ťažšie urobiť výstup. Predpokladajme, že priemerné hodnoty budú približne 220 cm (v jednom pokuse - 210, v ostatných - 230 cm) a 222 cm (212 a 232 cm). Zároveň sa prvýkrát študoval v prvom pokuse skočí na 230 cm a druhá je len pri 212 cm; A zdá sa, že prvý je v podstate silnejší ako druhý. Z tohto príkladu je možné vidieť, že hlavnou hodnotou nie je samo osebe variabilita intra trhu, ale jeho pomer s rozdiely medzi interlace. Rovnaká intraklasická variabilita dáva rôznu spoľahlivosť s rovnakými rozdielmi medzi triedami (v konkrétnom prípade medzi študovanými, obr. 14).

Obr. 14. Pomer medzi-a intra-triednych variácií s vysokou (hornou) a nízkou (nižšou) spoľahlivosťou:

krátke vertikálne ťahy - údaje o individuálnych pokusoch;

Priemerné výsledky troch študovaných.

Teória spoľahlivosti skúšky pokračuje zo skutočnosti, že výsledok akéhokoľvek merania vykonaného na osobu je súčtom dvoch hodnôt:

kde: - tzv. TRUE výsledok, ktorý chcú opraviť;

Chyba spôsobená nekontrolovateľnými zmenami v stave skúšobných a náhodných chýb merania.

Pod skutočným výsledkom je priemerná hodnota X s nekonečne veľkému počtu pozorovaní v rovnakých podmienkach (na to, v X, vložili znamenie).

Ak sú chyby náhodné (ich suma je nulová, a v rovnakých pokusoch, ktoré nie sú závislé od seba), potom z matematických štatistík nasleduje:

tí. Registrovaný v experimente výsledkov disperzie sa rovná množstvu disperzií skutočných výsledkov a chýb.

Koeficient spoľahlivosti Pomer skutočnej disperzie k disperzii je registrovaný v experimente:

Okrem spoľahlivosti koeficientu, stále použitie index spoľahlivosti:

ktorý sa považuje za teoretický korelačný koeficient registrovaných testovacích hodnôt s TRUE.

Koncept skutočného výsledku testu je abstrakcia (v skúsenostiach je to nemožné). Preto musíte použiť nepriame metódy. Najvýhodnejšie na hodnotenie analýzy disperzie spoľahlivosti, po ktorej nasleduje výpočet intracelačných korelačných koeficientov. Disperzná analýza umožňuje rozkladať variáciu výsledkov testu do zložiek v dôsledku vplyvu jednotlivých faktorov. Napríklad, ak zaregistrujete výsledky v štúdii výsledkov v akomkoľvek teste, opakuje sa tento test v rôznych dňoch a každý deň vykonajte niekoľko pokusov, pravidelne sa meniacich experimentátorov, potom budú variácie:

a) od subjektu subjektu;

b) od každodenného dňa;

c) Od experimentátora na experimentátor;

d) Od sa snaží vyskúšať.

Disperzná analýza umožňuje vyčleniť a vyhodnotiť tieto variácie.

Je teda potrebné odhadnúť prakticky spoľahlivosť testu, najprv vykonať disperznú analýzu, po druhé vypočítať identifikátor korelačného koeficientu (pomer spoľahlivosti).

S dvoma pokusmi, hodnota korelačného koeficientu v rámci triedy prakticky zhoduje s hodnotami zvyčajného korelačného koeficientu medzi výsledkami prvého a druhého pokusu. Preto v takýchto situáciách sa môže použiť konvenčný korelačný koeficient na posúdenie spoľahlivosti (odhaduje spoľahlivosť jedného, \u200b\u200bnie dva pokusy).

Hovoriť o spoľahlivosti testov, je potrebné rozlišovať svoju stabilitu (reprodukovateľnosť), konzistenciu, rovnocennosť.

Pod stabilita Testy chápu reprodukovateľnosť výsledkov, keď sa opakuje po určitom čase za rovnakých podmienok. Opakované testovanie sa zvyčajne nazýva opakovať.

Konzistencia Skúška je charakterizovaná nezávislosťou výsledkov testu z osobných vlastností osoby vykonávajúcej alebo hodnotiacej skúšky.

Pri výbere skúšky z určitého počtu testov rovnakého typu (napríklad sprint, ktorý beží o 30, 60 a 100 m) paralelnými formami, odhaduje sa stupeň náhody výsledkov. Vypočítané medzi výsledkami korelačného koeficientového volania pomer ekvivalencie.

Ak sú všetky testy zahrnuté v akomkoľvek type testov vysoko ekvivalentné, sa nazýva homogénny. Toto komplexné meria jeden z majetku ľudskej motility (napríklad komplex pozostávajúci z skákania z miesta v dĺžke, hore a trojitým; odhaduje sa, že úroveň vývoja kvalitných vlastností vysokej rýchlosti). Ak nie sú žiadne ekvivalentné testy v komplexe, to znamená, že testy zahrnuté v nej sú merané rôzne vlastnosti, potom sa nazýva heterogénny (Napríklad komplex pozostávajúci z dynamometrie, vyskočte Acalac, beží na 100 m).

Spoľahlivosť testovania sa môže v určitej miere zvýšiť:

a) prísnejšia štandardizácia testovania;

b) zvýšiť počet pokusov;

c) zvýšiť počet odhadcov (sudcov, experimentov) a zlepšenie súdržnosti ich názorov;

d) zvýšiť počet ekvivalentných testov;

e) najlepšiu motiváciu študovaného.

Príklad 10.1.

Určite spoľahlivosť výsledkov trojitého skoku z miesta pri hodnotení rýchlosti a výkonových schopností športovcov Sprint, ak sú tieto vzorky nasledovné:

Rozhodnutie:

1. Aplikujte výsledky testov do pracovného stola:

2. Nahrádzame výsledky získané vo výpočtovom vzorec koeficientu korelácie hodnosti:

3. Definujeme počet stupňov slobody podľa vzorca:

Výkon: Výsledná hodnota zúčtovania je preto s dôverou 99% môžeme povedať, že test Triple Jump je spoľahlivý.

Prvá zložka, teória testov, obsahuje opis štatistických diagnostických modelov spracovania údajov. Tu sú odpovede analytické modely v testovaných úlohách a výpočtový model celkových výsledkov testov. Mellenberg (1980, 1990) nazval to "psychometria". Klasická teória testu, moderná teória testu (alebo model analýza odpovedí na testovacie úlohy - IRT) a model


vzorky úloh tvoria tri najdôležitejšie typy modelov tepovej teórie. Predmetom psychodiagnostiky je prvých dvoch modelov.

Klasická teória testu. Na základe tejto teórie bola vyvinutá väčšina intelektuálnych a osobných testov. Ústredným konceptom tejto teórie je koncepcia "spoľahlivosti". Pod spoľahlivosťou je chápaná ako súdržnosť výsledkov počas opätovného hodnotenia. V referenčných príručkách je táto koncepcia zvyčajne veľmi stručná, a potom je uvedený podrobný opis prístrojov matematickej štatistiky. V tomto, úvodná kapitola predstavíme komprimovaný opis hlavnej hodnoty zistenej koncepcie. V klasickej teórii testov je spoľahlivým opakovaním výsledkov niekoľkých meracích postupov (najmä meraní s testmi). Koncepcia spoľahlivosti zahŕňa výpočet chyby merania. Výsledky získané počas procesu testovania môžu byť reprezentované ako súčet pravého výsledku a chybovosti merania:

XI \u003d Ti.+ EJ.

kde Xi- Hodnotenie získaných výsledkov TI je skutočným výsledkom a EJ.- Chyba merania.

Hodnotenie získaných výsledkov je spravidla počet správnych odpovedí na úlohy testu. Skutočný výsledok je možné považovať za skutočné hodnotenie v platonickom zmysle (Gulliksen, 1950). Koncepcia očakávaných výsledkov je rozšírená, t.j. Reprezentácie bodov, ktoré možno získať v dôsledku veľkého počtu opakovaní postupov merania (Pána & NOVICH, 1968). Ale implementácia rovnakého postupu posudzovania s jednou osobou nie je možná. Preto potrebujete hľadať iné riešenia problému (WITLMAN, 1988).

V rámci tejto koncepcie sa niektoré predpoklady uskutočňujú v porovnaní s pravými výsledkami a chybami merania. Posledne uvedené sú prijímané ako nezávislý faktor, ktorý je samozrejme dobre založený predpoklad, pretože náhodné výkyvy výsledkov neposkytujú coviants: r to \u003d 0.

Predpokladá sa, že korelácia medzi pravými hodnotami a chybami merania neexistuje: r ee \u003d 0.


Celková chyba je 0, pretože Ako skutočný odhad je prijatý aritmetický význam:

Tieto predpoklady nás vedú v dôsledku určitej definície spoľahlivosti ako pomer skutočného výsledku k spoločnej disperzii alebo výrazom: 1 mínus vo vzťahu, v ktorom chybové číslo merania a v denominátor - celková disperzia:


Alebo

Z tohto vzorca definície spoľahlivosti získavame túto chybu disperzie S 2 (e)je rovná celkovú disperziu medzi prípadmi (1 - R xx "); teda štandardná chyba merania je stanovená vzorcom:

Po teoretických odôvodnení spoľahlivosti a jej derivátov je potrebné určiť index spoľahlivosti testu. Existujú praktické postupy na posúdenie spoľahlivosti testovania, ako je použitie zameniteľných foriem (paralelné testy), rozdelenie úloh do dvoch častí, opätovné testovanie a meranie vnútornej konzistencie. Každý adresár obsahuje indexy konstandy výsledkov testov:

r xx '\u003d r (x 1, x 2)

kde r xx ' - koeficient stability a x 1 a x 2 - výsledky dvoch rozmerov.

Koncepcia spoľahlivosti zameniteľných foriem bola zavedená a vyvinutá Gullixen (1950). Tento postup je dosť pracný, pretože súvisí s potrebou vytvoriť paralelnú sériu úloh.

r xx '\u003d r (x 1, x 2)

kde r xx ' - koeficient rovnocennosti a x 1 a x 2 - dve paralelné testy.

Nasledujúci postup je rozdelenie hlavnej skúšky na dve časti A a B je jednoduchšie používať. Indikátory získané na oboch častiach testu sú korelované. S pomocou spearman-hnedého vzorca sa odhaduje spoľahlivosť testu ako celku:

kde a b - dve paralelné časti testu.

Nasledujúca metóda je definícia vnútornej konzistencie testovacích úloh. Táto metóda je založená na definícii covariantov jednotlivých úloh. SG - Disperzia ľubovoľne vybranej práce a SGH - Covariance dvoch ľubovoľne vybraných úloh. Najčastejšie používaný koeficient na definovanie vnútornej konzistencie je "alfa koeficient" Kronbachu. Používa sa tiež vzorec KR20 a λ-2(Lambda-2).

V klasickej koncepcii spoľahlivosti sa určia chyby merania, ktoré vznikajú v procese testovania, ako aj v procese pozorovaní. Zdroje týchto chýb sú odlišné: Môžu to byť aj osobné funkcie a vlastnosti testovacích podmienok a samotné skúšobné úlohy. Existujú špecifické metódy výpočtu chýb. Vieme, že naše pozorovania môžu byť chybné, naše metodické nástroje sú nedokonalé rovnako ako samotní ľudia sú nedokonalí. (Ako si pamätať Shakespeare: "Ste nespoľahlivý, ktorých meno je osoba"). Významným pozitívnym bodom je skutočnosť, že v klasickom meradle chybových skúšok merania je dôležitým pozitívnym bodom.

Klasická testovaná teória má niekoľko základných funkcií, ktoré možno považovať za svoje nevýhody. Niektoré z týchto charakteristík sú uvedené v referenčných knihách, ale ich význam (z každodenného hľadiska) je zriedkavý, ako nie a skutočnosť, že by sa mali zvážiť nedostatky z teoretického alebo metodického hľadiska.

Najprv. Klasická teória testovacej teórie a koncepcia spoľahlivosti sú zamerané na výpočet celkových indikátorov testov, ktoré sú výsledkom pridania odhadov získaných v samostatných úlohách. Takže, keď pracujete


Druhý. Faktor spoľahlivosti znamená hodnotenie rozptylu nameraných ukazovateľov. Z toho vyplýva, že faktor spoľahlivosti bude nižší, ak (s rovnosťou iných indikátorov) vzorka je homogénnejšia. Neexistuje jeden koeficient vnútornej súdržnosti testovacích úloh, tento koeficient je vždy "kontextový". Crocker a Aldjina (1986), napríklad ponúkajú špeciálny vzorec "korekcia pre homogénnu vzorku" určenú na najvyššie a najnižšie výsledky získané testovaním. Pre diagnostiku je dôležité poznať vlastnosti variácií v súbore vzorky, inak nebude môcť používať koeficienty vnútornej konzistencie uvedenej v príručke pre tento test.

Tretí. Fenomén informácií o priemernom aritmetickom indikátore je logickým dôsledkom klasického konceptu spoľahlivosti. Ak ocenenie v teste kolíše (t.j. nie je dostatočne spoľahlivé), je celkom možné, že keď opakovanie postupu dostanú subjekty, ktoré majú nízke indikátory, dostanú vyššie body a naopak, predmety s vysokými indikátormi sú nízke. Tento artefakt meracích postupov nemožno sa mýliť za skutočnú zmenu alebo prejav vývojových procesov. Ale v rovnakom čase ich nie je ľahké, pretože Nemôžete nikdy eliminovať možnosť zmeny počas vývoja. Na úplnú dôveru je potrebné "porovnanie s kontrolnou skupinou.

Štvrtá charakteristika testov vyvinutých v súlade so zásadami klasickej teórie je prítomnosť regulačných údajov. Znalosť skúšobných pravidiel umožňuje výskumnému pracovníkovi primerane interpretovať výsledky testu. Mimo normy sú odhady testov zbavené významu. Rozvoj testovacích noriem je pomerne drahý podnik, pretože psychológ by mal dostávať výsledky testov na reprezentatívnej vzorke.

2 J. Ter Laak

Ak hovoríme o nedostatkoch klasického konceptu spoľahlivosti, potom je výkaz SIY TSMA vhodný (1992, R. 123-125). Poznamenáva, že prvý a najdôležitejší predpoklad klasickej teórie testov je, že výsledky testov podliehajú princípu intervalu. Avšak, žiadny výskum potvrdzujúci tento predpoklad nie je. V skutočnosti je "meranie na ľubovoľne stanovené pravidlo." Táto funkcia dáva klasickú teóriu testov v menej priaznivej pozícii v porovnaní s meraciami váhami a samozrejme v porovnaní s modernou teóriou testov. Mnohé metódy analýzy dát (disperzná analýza. Regresná analýza, korelácia a faktor analýza) sú založené na existencii intervalu. Nemá však pevné odôvodnenie. Zvážte rozsah skutočných výsledkov ako rozsah hodnôt psychologických charakteristík (napríklad aritmetické schopnosti, inteligencia, neurotizmus) môže byť pravdepodobne.

Druhá poznámka sa týka výsledkov testov testu - tieto nie sú absolútne ukazovatele jednej alebo inej psychologickej charakteristiky testovaných, musia sa posudzovať len ako výsledky vykonávania testu. Na štúdium rovnakých psychologických charakteristík (napríklad inteligencie, verbálne schopnosti, extroverzie), ale to neznamená, že tieto dva testy sú ekvivalentné a majú rovnaké schopnosti. Porovnanie ukazovateľov dvoch ľudí, ktorí boli testované rôznymi testmi, nesprávne. To isté platí pre plnenie dvoch rôznych testov s jedným predmetom. Tretia poznámka odkazuje na predpoklad, že štandardná chyba merania je rovnaká vo vzťahu k akejkoľvek úrovni meraných jednotlivých schopností. Neexistuje však žiadne empirické overenie tohto predpokladu. Takže napríklad neexistuje žiadna záruka, ktorá testovala s dobrými matematickými schopnosťami pri práci s relatívne jednoduchým aritmetickým testom dostane vysoké body. V tomto prípade bude vysoko cenená osoba s nízkymi alebo strednými schopnosťami.

V rámci súčasnej tesovej teórie alebo teórie analýzy odpovedí v testovacích úlohách je popis opísaný vo veľkom


počet modelov možných odpovedí respondentov. Tieto modely sa líšia vo svojich predpokladoch nadácie, ako aj požiadavky na získané údaje. Model Rasha sa často považuje za synonymum pre teórie analýzy odpovedí v testovaných úlohách (1RT). V skutočnosti je to len jeden z modelov. Vzorec predstavoval v ňom na opis charakteristickej krivky úlohy G je nasledovná:

kde g.- samostatná úloha testu; eJR- funkcia exponenciálov (nelineárna závislosť); δ (Delta) - úroveň ťažkostí mesta Cesto.

Iné úlohy testu, napríklad h,tiež dostať svoje vlastné charakteristické krivky. Podmienky stavu Δ H\u003e δ g (gznamená to h.- zložitejšia úloha. V dôsledku toho pre akúkoľvek hodnotu indikátora Θ ("Theta" - latentné vlastnosti schopností skúšky) pravdepodobnosť úspešnej úlohy h.menej. Tento model sa nazýva prísny, pretože je zrejmé, že s nízkym stupňom závažnosti je pravdepodobnosť úlohy blízka nulu. V tomto modeli nie je miesto na hádanie a predpoklady. Pre úlohy s možnosťami nie je potrebné uviesť predpoklady o pravdepodobnosti úspechu. Okrem toho je tento model prísny v tom zmysle, že všetky úlohy skúšky musia mať rovnakú diskriminačnú schopnosť (vysoká diskriminačná reflexia v strmosti krivky; tu je možné vybudovať stupnicu GUT-TMAN, podľa ktorého na každom Charakteristická krivka, pravdepodobnosť úlohy sa mení z až 1). Z tohto dôvodu, že podmienky nie sú všetky úlohy môžu byť zahrnuté do testov vytvorených na základe modelu Rasha.

Existuje niekoľko možností pre tento model (napríklad Birnbaura, 1968, pozri Lord & Novik). Je to existencia úloh s rôznymi diskriminačnými

schopnosť.

Dutch Explorer Mokken (1971) vyvinul dva modely na analýzu odpovedí v úlohách skúšky, ktorých požiadavky nie sú také prísne ako v modeli zhonu, a preto môžu byť realistickejšie. Ako hlavný stav

vIYA MOKKEN VYPNUTIE POZNÁMKA, ŽE CHAKTISTICKÁ KRÁTKA ÚLOHU MÔŽE SA MONTORONUSLY, BEZPEČNOSŤ. Všetky úlohy testu sú súčasne zamerané na štúdium rovnakých psychologických charakteristík, ktoré by sa mali merať v.Akákoľvek forma tejto závislosti je povolená, kým nebude prerušená. V dôsledku toho sa tvar charakteristickej krivky nestanoví žiadnou špecifickou funkciou. Takáto "sloboda" umožňuje používať viac testovacích úloh a úroveň odhadu nie je vyššia ako obvyklá.

Metodika modelov odpovedí na úlohy testu (IRT) sa líši od metodiky väčšiny experimentálnych a korelačných štúdií. Matematický model je navrhnutý tak, aby študoval behaviorálne, kognitívne, emocionálne vlastnosti, ako aj vývojové javy. Tieto javy posudzované sú často obmedzené na reakcie na úlohy, ktoré umožnili Mel-Lenberg (1990) nazvať teóriu IRT "Mini-teória o mini-správaní." Výsledky štúdie môžu byť prezentované do určitej miery ako krivky konzistencie, najmä v prípadoch, keď teoretické myšlienky o študovaných vlastnostiach chýbajú. Doteraz má naša likvidácia len jednotky spravodajských testov, schopností a osobných testov vytvorených na základe mnohých modelov teórie IRT. Varianty modelu Rasha sa častejšie používajú vo vývoji skúšok dosiahnutia (Verhelst, 1993) a model posmechu je vhodnejší pre vývojové javy (pozri tiež CH. 6).

Odpoveď je testovaná na úlohe testu je hlavná jednotka modelov IRT. Typ odozvy je určený stupňom závažnosti u ľudí študovaných charakteristík. Takáto charakteristika môže byť napríklad aritmetické alebo priestorové schopnosti. Vo väčšine prípadov je to jeden alebo iný aspekt spravodajstva, charakteristík úspechov alebo osobných prvkov. Predpokladá sa, že medzi postavením tejto konkrétnej osoby v určitej škále charakteristík a pravdepodobnosti úspešnej implementácie jednej alebo inej úlohy existuje nelineárna závislosť. Nelinearita tejto závislosti v určitom zmysle je intuitívna. Slávne frázy "každý začiatok je ťažké" (pomaly


lineárny štart) a "stáva sa posvätný nie je taký jednoduchý," znamená, že ďalšie zlepšenie po dosiahnutí určitej úrovne je ťažké. Krivka sa pomaly približuje, ale takmer nikdy nedosiahne 100% úrovne úspechu.

Niektoré modely skôr odporujú nášmu intuitívnemu pochopeniu. Take taký príklad. Osoba s ľubovoľným charakteristickým indexom 1,5 má približne 60% pravdepodobnosť úspechu pri vykonávaní úlohy. To je v rozpore s naším intuitívnym pochopením takejto situácie, pretože môže byť buď úspešne vyrovnať s úlohou, alebo nie na to, aby sa s ním vôbec vyrovnal. Urobte si tento príklad: 100-násobok osoby sa snaží prejavovať výšku 1 m 50 cm. Úspechy ho sprevádza 60 krát, t.j. Má 60% pravdepodobnosť úspechu.

Na posúdenie stupňa závažnosti musia charakteristiky aspoň dve úlohy. Model Rasha predpokladá definíciu závažnosti charakteristík bez ohľadu na obtiažnosť úlohy. To tiež odporuje nášmu intuitívnemu pochopeniu: Predpokladajme, že osoba má pravdepodobnosť 80% na skok nad 1,30 m. Ak áno, potom v súlade s charakteristickou krivkou úlohy má 60% pravdepodobnosť skočiaca nad 1,50 m a 40% pravdepodobnosť pravdepodobnosti Skok hore je 1,70 m. V dôsledku toho, bez ohľadu na hodnotu nezávislej premennej (výška), môžete odhadnúť schopnosť človeka skočiť na výšku.

Existuje asi 50 modelov IRT (Goldstein & Wood, 1989). Existuje mnoho nelineárnych funkcií popisujúcich (vysvetľuje) pravdepodobnosť úspechu pri vykonávaní úlohy alebo skupiny úloh. Požiadavky a obmedzenia týchto modelov sú odlišné a tieto rozdiely môžu byť zistené pri porovnávaní modelu zhonu a stupnice močníka. Požiadavky týchto modelov zahŕňajú:

1) potreba určiť študované charakteristiky a posúdenie pozície osoby v rozsahu tejto funkcie;

2) Posúdenie stanovenia úloh;

3) Skontrolujte špecifické modely. V psychometrii bolo vyvinutých mnoho postupov na overenie modelu.

V niektorých referenčných príručkách sa teória IRT považuje za formu analýzy testovacích úloh (pozri napríklad,

CroKer & Alina, J 986). Je však možné obhajovať názor, že teória IRT je "mini-správanie mini-teória". Podporovatelia IRT teórie upozornenia, že ak nedokonalé koncepty (modely) strednej úrovne, potom to, čo možno povedať o zložitejšej konštrukcii v psychológii?

Klasická a moderná teória testu. Ľudia nemôžu porovnávať veci, ktoré vyzerajú takmer rovnaké. (Možno každodenné ekvivalentné psychometrie a spočíva najmä v porovnaní s ľuďmi za zmysluplné vlastnosti a voľby medzi nimi). Každá z prezentovaných teórií - a teória chýb vyhodnotenia merania a matematický model odpovedí na úlohy testu - má svojim priaznivcom (Goldstein & Wood, 1986).

IRT modely nespôsobujú výčitky v tom, že je "hodnotenie podľa pravidiel", na rozdiel od klasickej teórie testov. Model IRT je zameraný na analýzu hodnotených charakteristík. Charakteristiky jednotlivca a charakteristík úloh sa odhadujú na stupnice (ordinál alebo interval). Okrem toho je možné porovnať výkon rôznych testov zameraných na učenie podobných charakteristík. Nakoniec, spoľahlivosť nerovnakých pre každú hodnotu na stupnici, a priemerné ukazovatele sú zvyčajne spoľahlivejšie ako ukazovatele umiestnené na začiatku a na konci stupnice. IRT modely v teoretických vzťahoch sú teda znášateľná. Tam sú tiež rozdiely v praktickom využívaní modernej teórie testov a klasickej teórie (Sijstma, 1992, s. 127-130). Moderná teória testov je zložitejšia v porovnaní s klasickým, takže nie sú menej často používané nešpecifikovanými. Okrem toho IRT umiestni osobitné požiadavky na úlohy. To znamená, že úlohy musia byť vylúčené z testu, ak nespĺňajú požiadavky modelu. Toto pravidlo sa ďalej vzťahuje na tieto úlohy, ktoré boli súčasťou široko používaných testov postavených na princípoch klasickej teórie. Test sa stáva kratším, a preto sa znižuje spoľahlivosť.

IRT ponúka matematické modely na štúdium skutočných javov. Modely by nám mali pomôcť pochopiť kľúčové aspekty týchto javov. Hlavná teoretická otázka tu však spočíva. Modely možno zvážiť


watikak prístup k štúdiu komplexnej reality, v ktorej žijeme. Ale model a realita nie je to isté. Podľa pesimistického vzhľadu je možné simulovať len jeden (a moreantný nie je najzaujímavejšie) typy správania. Môžete tiež splniť vyhlásenie, že realita nie je predmetom modelovania vôbec, pretože To nie je jedným z príčinného zákona. V najlepšom prípade je možné simulovať jednotlivé (ideálne) behaviorálne javy. Tam je ďalší, optimistickejší, pozrite sa na možnosť modelovania. Vyššie uvedená pozícia blokuje možnosť hlbokého pochopenia povahy javov ľudského správania. Použitie konkrétneho modelu vyvoláva niektoré z najzákladnejších otázok. Podľa nášho názoru nie je nepochybne, že IRT je koncepcia teoreticky a technicky lepší k klasickej teórii testov.

Praktický účel testov, pre akýkoľvek teoretický základ, nie sú vytvorené, je identifikovať významné kritériá a vytvorenie charakteristík určitých psychologických konštruktov na nich. Má IRT model výhody av tomto ohľade? Je možné, že testy vytvorené na základe tohto modelu nedávajú presnejšiu prognózu v porovnaní s testmi vytvorenými na základe klasickej teórie, a je možné, že ich prínos k rozvoju psychologických konštruktov nie je významnejší. Diagnózy uprednostňujú takéto kritériá, ktoré sa priamo týkajú samostatnej osoby, inštitútu alebo komunite. Model, dokonalý vo vedeckom vzťahu, "ipso facto" * nedefinuje vhodnejšie kritérium a je určitá rozsah obmedzená na vysvetlenie vedeckých konštruktov. Je zrejmé, že vývoj testov založených na klasickej teórii bude pokračovať, ale súčasne sa vytvoria nové modely IRT, ktoré sa rozširujú na štúdium väčšieho počtu psychologických javov.

V klasickej teódiu testov sa rozlišujú koncepcie "spoľahlivosti" a "platnosti". Výsledky TESZESHAI musia byť spoľahlivé, t.j. Výsledky počiatočného a opätovného testovania by sa mali koordinovať. Okrem toho,

* ipso facto.(lak) - sám (cca. Trans.).

výsledky musia byť zdarma (čo najviac) z chýb hodnotenia. Prítomnosť platnosti je jednou z požiadaviek na získané výsledky. V tomto prípade sa spoľahlivosť považuje za nevyhnutnú, ale ešte nie je dostatočná podmienka pre platnosť testu.

Koncepcia platnosti predpokladá, že získané výsledky patria do čohokoľvek dôležitého v praktických alebo teoretických vzťahoch. Závery na základe odhadov testov by mali byť platné. Najčastejšie hovoriť o dvoch typoch platnosti: prognostické (kritériá) a štrukturálne. Existujú aj iné typy platnosti (pozri CH 3). Okrem toho možno platnosť definovať v prípade kvázi-experimentu (Campbell, 1976, variť & Shadish, 1994). Hlavný typ platnosti je však stále prognostická platnosť, pod ktorou je chápaná ako schopnosť predpovedať niečo významné o správaní v budúcnosti, ako aj možnosť hlbšieho pochopenia jedného alebo iného psychologického vlastnosti alebo kvality.

Prezentované typy platnosti sú uvedené v každom adresári a sú sprevádzané popisom metódach analýzy platnosti testu. Faktorová analýza je vhodnejšia na určenie konštrukčnej validácie a lineárne regresné rovnice sa používajú na analýzu prognostickej platnosti. Tieto alebo iné charakteristiky (výkon, terapeutická účinnosť) možno predpovedať na základe jedného alebo viacerých ukazovateľov, polovičných vedcov pri práci s intelektuálnymi alebo osobnými testami. Takéto techniky spracovania údajov, ako korelácia, regresia, analýza disperzie, analýza čiastočných korelácií a disperzií, slúžia na určenie prognostickej platnosti testu.

Tiež opisuje zmysluplnú platnosť. Predpokladá sa, že všetky úlohy a úlohy testu by mali patriť do konkrétnej oblasti (mentálne vlastnosti, správanie atď.). Koncepcia vecnej platnosti charakterizuje korešpondenciu každej skúšobnej úlohy nameranej oblasti. Vecná platnosť sa niekedy považuje za súčasť spoľahlivosti alebo "generalizovaných" (Cronbach, Gleseser, Nanda & Rajarát, 1972). Aspekt


výber úloh na úspechy testov v konkrétnom predmete je tiež dôležité venovať pozornosť pravidlám úlohy v teste.

V klasickej teódiu testov sa spoľahlivosť a platnosť považujú za relatívne nezávislé od seba. Ale existuje ďalšie pochopenie pomeru týchto konceptov. Moderná teória testov je založená na používaní modelov. Parametre sa odhadujú vo vnútri určitého modelu. Ak úloha nespĺňa požiadavky modelu, potom v rámci tohto modelu sa vykazuje ako neplatný. Štrukturálna valizácia je súčasťou samotného modelu. Táto valizácia sa vzťahuje hlavne na kontrolu existencie jednorozmernej latentnej línie podľa štúdia so známymi charakteristikami váhy. Stáčky sa nepochybne použijú na určenie zodpovedajúcich kritérií a ich korelácia je možná s indikátormi iných konštruktov na zhromažďovanie informácií o konvergentnej a odlišnej platnosti konštruktu.

Psychodiagnóza je podobná jazyku opísanému ako jednota štyroch zložiek prezentovaných na troch úrovniach. Prvá zložka, teória testov, podobne ako syntax, gramatika jazyka. Generovanie (generatívna) gramatika je na jednej strane vtipný model, na strane druhej, systém podriadený pravidlá. Pomocou týchto pravidiel sú komplikované na základe jednoduchých afektívnych návrhov. Zároveň však tento model opustí popis toho, ako je organizovaný komunikačný proces (ktorý je prenášaný a čo je vnímané), a s akými druhmi cieľov sa vykonáva. Na pochopenie to vyžaduje ďalšie vedomosti. To isté možno povedať o teórii testov: je potrebné v psychodiagnostike, ale nie je schopný vysvetliť, že psychodiagnoste robí a čo je jeho cieľom.

1.3.2. Psychologické teórie a psychologické konštrukty

Psychodiagnostika je vždy diagnózami niečoho špecifického: osobné charakteristiky, správanie, myslenie, emócie. Testy sú určené na vyhodnotenie individuálnych rozdielov. Existuje niekoľko konceptov

individuálne rozdiely, z ktorých každý má svoje vlastné charakteristické vlastnosti. Ak sa uznáva, že psychodiagnostika nie je obmedzená na posúdenie individuálnych rozdielov, potom sú pre psychodiagnostiku nevyhnutné aj iné teórie. Príkladom je zhodnotenie rozdielov v procesoch mentálneho rozvoja a rozdielov v sociálnom prostredí. Hoci hodnotenie jednotlivých rozdielov nie je nevyhnutným atribútom psychodiagnostiky, avšak v tejto oblasti existujú určité tradície výskumu. Psychodiagnostika začala posúdením rozdielov spravodlivosti. Hlavnou úlohou testov bola "určenie dedičného prenosu génia" (galón) alebo výber detí na školenie (Binet, Simon). Meranie koeficientu intelektivity dostal teoretické porozumenie a praktický vývoj v dielach Spirmend (Spojené kráľovstvo) a Terestone (USA). Raymond b.qottel to urobil podobné posudzovania osobných charakteristík. Psychodiagnostika sa stáva neoddeliteľne spojený s teóriami a myšlienkami o individuálnych rozdieloch v úspechoch (hodnotenie obmedzení) a foriem správania (úroveň typického fungovania). Táto tradícia je dnes naďalej efektívna. Pri výučbových výhodách na psychodiagnostiku, rozdiely v sociálnom prostredí sú oveľa menšie hodnotené v porovnaní s ohľadom na osobitosti samotných vývojových procesov. Na to neexistujú žiadne rozumné vysvetlenia. Na jednej strane sa diagnóza neobmedzuje na určité teórie a koncepty. Na druhej strane, potrebuje teórie, pretože je presne v nich diagnostický obsah (t.j. "to" je diagnostikovaná). Napríklad inteligencia môže byť tiež považovaná za všeobecnú charakteristiku a ako základ pre rôzne nezávislé schopnosti. Ak sa psychodiagnostika pokúša "odísť" z jednej alebo inej teórie, potom sa základom psychodiagnostického procesu stáva myšlienkami zdravého rozumu. Štúdie používajú rôzne spôsoby analyzovať údaje a všeobecná logika výskumu určuje výber matematického modelu a určuje štruktúru psychologických konceptov. Takéto metódy matematických štatistík


ki, ako analýza disperzie, regresná analýza, faktorová analýza, počítanie korelácií zahŕňa existenciu lineárnych závislostí. V prípade nesprávneho použitia týchto metód, "prinášajú" štruktúru na získané údaje a použité konštrukty.

Myšlienky o rozdieloch v sociálnom prostredí a rozvoj osobnosti takmer neovplyvnili psychodiagnostiku. V učebniciach (pozri napríklad Murphy & Davidshofer, 1988), klasická teória testovacou terénou sa považuje za diskutované príslušné spôsoby štatistického spracovania, sú opísané dobre známe testy, používanie psychodiagnostiky v praxi sú opísané: v \\ t Psychológia manažmentu, pri výbere personálu, pri posudzovaní psychologických charakteristík osoby.

Teórie jednotlivých rozdielov (ako aj myšlienky o rozdieloch medzi sociálnym prostredím a mentálnym vývojom) sú podobné štúdiu sémantiky jazyka. Toto je štúdia a subjekt a obsah a hodnoty. Hodnoty sú štruktúrované určitým spôsobom (ako psychologické konštrukty), napríklad v podobnosti alebo kontrast (analógia, konvergencia, divergencia).

1.3.3. Psychologické testy a iné metodické prostriedky

Tretia zložka navrhovaného obvodu - skúšky, postupy a metodické prostriedky, ktorými sa zhromažďujú informácie o vlastnostiach osobnosti. Draza a Seitsa (1990, s. 31) Uveďte nasledujúce testy definície: "Psychologický test sa považuje za klasifikáciu podľa určitého systému alebo ako postup merania, ktorý vám umožní urobiť určitý úsudok o jednom alebo viacerých empiricky vyhradených alebo teoreticky rozumné charakteristiky konkrétnej osoby ľudského správania (pre rámy skúšobnej situácie). Zároveň sa reakcia respondentov považuje za určitý počet starostlivo vybraných stimulov a prijaté odpovede sa porovnávajú s testovacími normami. "

Diagnostika vyžaduje testy a techniky na zber spoľahlivých, presných a validálnych informácií o funkciách.

a charakteristické vlastnosti osoby, myslenia, emócií a ľudského správania. Okrem vývoja skúšobných postupov táto zložka obsahuje aj nasledujúce otázky: Ako sa vytvoria testy, ako formulovať a úlohy sú vybrané, pretože proces testovania pokračuje, aké sú požiadavky na testovacie podmienky, pretože chyby merania sú zohľadnené výsledky testov sa počítajú a interpretujú.

V procese rozvojových testov sa racionálne a empirické stratégie líšia. Uplatňovanie racionálnej stratégie začína definíciou základných pojmov (napríklad koncepcia inteligencie, extroverzie) av súlade s týmito myšlienkami sú úlohy skúšky formulované. Príkladom takejto stratégie môže byť koncept analýzy aspektov (teória aspektu) Guttman (1957, 1968, 1978). Po prvé, sú určené rôzne aspekty hlavného konštruktu, potom sú úlohy a úlohy vybrané tak, že každý z týchto aspektov sa berie do úvahy. Druhou stratégiou je, že úlohy sú vybrané na empirickom základe. Napríklad, ak výskumný pracovník sa snaží vytvoriť test odborných záujmov, ktoré by umožnili diferenciáciu lekárov od inžinierov, potom by mal byť tento postup taký. Obe skupiny respondentov musia reagovať na všetky úlohy skúšky a tieto položky, v odpovediach, na ktoré sú zistené štatisticky významné rozdiely, sú zahrnuté do konečnej verzie testu. Ak napríklad existujú rozdiely medzi skupinami v odpovediach na schválenie "Milujem chytiť ryby", toto vyhlásenie sa stáva prvkom testu. Hlavnou pozíciou tejto knihy je, že test je spojený s koncepčnou alebo taxonomickou teóriou, ktorá definuje tieto charakteristiky.

Testovacia úloha je zvyčajne definovaná v pokynoch na jeho použitie. Test musí byť štandardizovaný, aby bolo možné odhadnúť rozdiely medzi ľuďmi a nie medzi testovacími podmienkami. Existujú však odchýlky od normalizácie v postupoch nazývaných "testovanie hraníc možností" (testovanie limitov) a "testovanie potenciálnych testov" testy "(učenie sa potenciálne testy). Za týchto podmienok je respondent pomôcť v procese.


testovanie a potom sa odhaduje vplyv takéhoto postupu na výsledok. Počítanie bodov pre odpovede na úlohy sú objektívne, t.j. Vykonáva sa v súlade so štandardným postupom. Výklad získaných výsledkov je tiež striktne definovaný a vykonáva sa na základe testovacích noriem.

Tretia zložka psychodiagnostiky je psychologické testy, nástroje, postupy - obsahuje určité úlohy, ktoré sú najnižšie jednotky psychodiagnostiky av tomto zmysle úlohy sú podobné jazykom. Počet možných kombinácií telefónu je obmedzený. Iba určité fonderatické štruktúry môžu tvoriť slová a návrhy na zabezpečenie informácií pre poslucháča. Tiež askúšobné úlohy: Len v určitej kombinácii navzájom sa môžu stať účinným prostriedkom na posúdenie zodpovedajúceho konštruktu.