Typy vzoriek. Malá vzorka

Metóda malej vzorky má oproti metóde veľkej vzorky množstvo výhod. Jeho hlavnými výhodami sú po prvé zníženie množstva výpočtovej práce a po druhé možnosť sledovať dynamiku zmien presnosti procesu v čase, čo nie je možné vykonať metódou veľkých vzoriek. Metóda veľkej vzorky môže poskytnúť iba predstavu o presnosti a stabilite procesu počas obdobia odberu vzoriek, ktoré môže zostať v budúcnosti, ak sa podmienky procesu po odbere vzorky nezmenia. V skutočnosti sa takáto nemennosť výrobných podmienok nedá vopred predvídať. Napríklad pri práci na tyčovom stroji sa počas zmeny materiál niekoľkokrát vymieňa (výmena tyče), nástroj sa mení z dôvodu opotrebovania, stroj sa nastavuje atď., čím sa môžu výrazne upraviť predtým získané distribučných parametrov. Metóda malých vzoriek, ak sa tieto odoberajú pravidelne počas zmeny v určitých intervaloch, vám umožňuje získať úplný obraz o stave procesu počas skúmaného obdobia, určiť stupeň jeho stability a tiež identifikovať dôvody. pre nedostatočnú stabilitu procesu v čase, ak existuje.

Štatistická analýza s malými vzorkami sa uskutočňuje nasledovne. Ukážky z n = 5-10 ks. užívané v určitých pevných intervaloch (napríklad po 15-30 minútach). Časový úsek odberu vzoriek je stanovený empiricky a závisí od produktivity stroja, veľkosti vzorky a stupňa stability technologického procesu. Pre každú vzorku je potrebné vypočítať a S. Ďalej je potrebné pre každé dve susedné vzorky otestovať hypotézu homogenity rozptylov vzoriek pomocou F - Fisherovo kritérium.

Ak sa hypotéza potvrdí, potom to naznačuje stabilitu disperzie alebo to, že porovnávané vzorky sú odobraté z rovnakej populácie. Pri potvrdení hypotézy homogenity rozptylov dvoch vzoriek by sa mala testovať hypotéza homogenity priemeru dvoch vzoriek. t - Študentský test.

Potvrdenie hypotézy o rovnosti dvoch susedných vzoriek znamená, že stred ladenia zariadenia sa v čase odberu tejto vzorky nezmení a zostáva rovnaký ako pri odbere predchádzajúcej vzorky, t.j. proces je v stabilnom stave. Keď sa hypotéza o rovnosti dvoch priemerných vzoriek nepotvrdí, indikuje to posun v centre ladenia stroja v čase odberu tejto vzorky. Keďže vzorky sú odoberané v určitých intervaloch, ak sa zistí posun ladiaceho centra alebo zmena rozptylovej zóny, je možné určiť časové obdobie, po ktorom došlo k narušeniu stability procesu.

Po zistení skutočnosti narušenia stability procesu je možné určiť oblasť, v ktorej treba hľadať príčinu tohto javu. Heterogenita disperzií vzoriek, indikujúca nestabilitu disperzie, naznačuje, že dôvod by sa mal hľadať v stroji alebo v mechanických vlastnostiach spracovávaného materiálu. Heterogenita priemeru vzorky naznačuje posun v strede ladenia (príčinu hľadajte v nástroji).

Takže odoberaním malých vzoriek z aktuálneho výkonu stroja počas zmeny v určitých časových intervaloch sa vypočítajú priemery a rozptyly vzoriek porovnaním a vyhodnotením ich nezrovnalostí pomocou F a t-kritérií, je možné stanoviť momenty poruchy procesov a dokonca aj zdroje týchto porúch.

Pri kontrole kvality tovaru v ekonomickom výskume možno vykonať experiment na základe malej vzorky malá vzorka sa vzťahuje na nekontinuálne štatistické zisťovanie, v ktorom je výberová populácia vytvorená z relatívne malého počtu jednotiek vo všeobecnej populácii. Objem malej vzorky zvyčajne nepresahuje 30 jednotiek a môže dosiahnuť 4 - 5 jednotiek Priemerná chyba malej vzorky sa vypočíta podľa vzorca:, kde je rozptyl malej vzorky Pri určovaní rozptylu sa počet stupňov voľnosti je n-1: . Hraničná chyba malej vzorky je určená vzorcom V tomto prípade hodnota koeficientu spoľahlivosti t nezávisí len od danej pravdepodobnosti spoľahlivosti, ale aj od počtu jednotiek vzorky n. Pre jednotlivé hodnoty t a n sa pravdepodobnosť spoľahlivosti malej vzorky určuje pomocou špeciálnych študentských tabuliek (tabuľka 9.1.), ktoré uvádzajú rozdelenia štandardizovaných odchýlok: Keďže pri vykonávaní malej vzorky je hodnota 0,59 alebo 0,99 je prakticky akceptovaná ako pravdepodobnosť spoľahlivosti, potom sa na určenie hraničnej chyby malej vzorky použijú nasledujúce hodnoty študentského rozdelenia:

Spôsoby zovšeobecnenia charakteristík vzorky na populáciu. Výberová metóda sa najčastejšie používa na získanie charakteristík populácie podľa zodpovedajúcich výberových ukazovateľov. V závislosti od účelu výskumu sa to robí buď priamym prepočtom výberových ukazovateľov pre všeobecnú populáciu, alebo výpočtom korekčných faktorov. Metóda priameho prepočtu. Spočíva v tom, že ukazovatele podielu vzorky alebo priemeru sú rozšírené na všeobecnú populáciu s prihliadnutím na výberovú chybu.V obchode sa teda zisťuje počet neštandardných výrobkov prijatých v zásielke. Na tento účel (berúc do úvahy akceptovaný stupeň pravdepodobnosti) sa ukazovatele podielu neštandardných výrobkov vo vzorke vynásobia počtom výrobkov v celej dávke tovaru. Metóda korekčných faktorov. Používa sa v prípadoch, keď je účelom výberovej metódy objasnenie výsledkov úplného sčítania.V štatistickej praxi sa táto metóda používa na spresnenie údajov z ročných sčítaní hospodárskych zvierat vo vlastníctve obyvateľstva. Na tento účel sa po zovšeobecnení údajov z úplného sčítania používa 10 % výberové zisťovanie na určenie takzvaného „percenta podhodnotenia“. Metódy výberu jednotiek z bežnej populácie. V štatistike sa využívajú rôzne metódy tvorby výberových populácií, čo je determinované cieľmi štúdie a závisí od špecifík predmetu štúdia Hlavnou podmienkou vykonania výberového zisťovania je predchádzanie systematickým chybám vznikajúcim porušením princíp rovnakých príležitostí pre každú jednotku všeobecnej populácie, ktorá má byť zahrnutá do vzorky. Prevencia systematických chýb sa dosahuje použitím vedecky podložených metód na vytvorenie vzorky populácie. Na výber jednotiek z bežnej populácie sa používajú tieto metódy: 1) individuálny výber - do vzorky sa vyberajú jednotlivé jednotky; 2) skupinový výber - do vzorky sú zahrnuté kvalitatívne homogénne skupiny alebo série študovaných jednotiek; 3) kombinovaný výber - ide o kombináciu individuálneho a skupinového výberu. Metódy výberu sú určené pravidlami pre tvorbu výberovej populácie.Výber môže byť: - čisto náhodný, - mechanický, - typický, - sériový, - kombinovaný. Správny náhodný odber vzoriek spočíva v tom, že výberová populácia vzniká ako výsledok náhodného (neúmyselného) výberu jednotlivých jednotiek zo všeobecnej populácie. V tomto prípade sa počet jednotiek vybraných v populácii vzorky zvyčajne určuje na základe akceptovaného podielu vzorky. Podiel vzorky je pomer počtu jednotiek vo výberovej populácii n k počtu jednotiek vo všeobecnej populácii N, t.j. pri 5 % vzorke zo série tovarov 2 000 jednotiek. veľkosť vzorky n je 100 jednotiek. (5*2000:100) a pri 20% vzorke to bude 400 jednotiek. (20*2000:100) atď. Mechanický odber vzoriek spočíva v tom, že výber jednotiek vo výberovej populácii sa robí zo všeobecnej populácie, rozdelenej do rovnakých intervalov (skupín). V tomto prípade sa veľkosť intervalu vo všeobecnej populácii rovná prevrátenej hodnote podielu vzorky. Pri 2% vzorke sa teda vyberie každá 50. jednotka (1:0,02), pri 5% vzorke sa vyberie každá 20. jednotka (1 : 0,05) atď. Všeobecná populácia je teda v súlade s akceptovaným podielom selekcie akoby mechanicky rozdelená do rovnakých skupín. Z každej skupiny sa pre vzorku vyberie iba jedna jednotka Dôležitou črtou mechanického vzorkovania je, že vytvorenie vzorky vzorky sa môže uskutočniť bez použitia zostavovania zoznamov. V praxi sa často používa poradie, v ktorom sa jednotky obyvateľstva skutočne nachádzajú. Napríklad postupnosť výstupu hotových výrobkov z dopravníka alebo výrobnej linky, poradie umiestnenia jednotiek dávky tovaru počas skladovania, prepravy, predaja atď. Typická vzorka. Pri typickom vzorkovaní sa populácia najprv rozdelí do homogénnych typických skupín. Potom sa z každej typickej skupiny použije čisto náhodná alebo mechanická vzorka na individuálny výber jednotiek do vzorky vzoriek.Typické vzorkovanie sa zvyčajne používa pri štúdiu komplexných štatistických populácií. Napríklad vo výberovom zisťovaní produktivity práce pracovníkov obchodu, ktorý pozostáva zo samostatných skupín podľa kvalifikácie. Dôležitým znakom typickej vzorky je, že poskytuje presnejšie výsledky v porovnaní s inými metódami výberu jednotiek vo výberovej populácii. priemerná chyba typickej vzorky, používajú sa vzorce: opätovný výber , neopakovateľný výber , Rozptyl je určený nasledujúcimi vzorcami: , O jednostupňový Vo vzorke je každá vybraná jednotka okamžite študovaná podľa danej charakteristiky. To je prípad čisto náhodného a sériového odberu vzoriek viacstupňový Vo vzorke sú jednotlivé skupiny vybrané z bežnej populácie a jednotlivé jednotky sú vybrané zo skupín. Takto sa vytvorí typická vzorka mechanickou metódou výberu jednotiek do súboru vzoriek. Kombinované odber vzoriek môže byť dvojstupňový. V tomto prípade je populácia najskôr rozdelená do skupín. Potom sa vyberú skupiny av rámci nich sa vyberú jednotlivé jednotky.

Pri štúdiu variability sa rozlišujú kvantitatívne a kvalitatívne charakteristiky, ktorých štúdium sa uskutočňuje variačnou štatistikou, ktorá je založená na teórii pravdepodobnosti. Pravdepodobnosť označuje možnú frekvenciu stretnutia jednotlivca s určitou črtou. P=m/n, kde m je počet jedincov s danou hodnotou znaku; n je počet všetkých jedincov v skupine. Pravdepodobnosť sa pohybuje od 0 do 1 (napríklad pravdepodobnosť je 0,02 - výskyt dvojčiat v stáde, t.j. na 100 otelení sa objavia dve dvojčatá). Predmetom skúmania biometrie je teda premenlivá charakteristika, ktorej štúdium sa uskutočňuje na určitej skupine objektov, t.j. totality. Existujú všeobecné a vzorové populácie. Populácia Ide o veľkú skupinu jednotlivcov, ktorí nás zaujímajú na základe skúmanej vlastnosti. Všeobecná populácia môže zahŕňať druh zvieraťa alebo plemeno rovnakého druhu. Všeobecná populácia (plemeno) zahŕňa niekoľko miliónov zvierat. Zároveň sa plemeno rozchádza do mnohých skupín, t.j. stáda jednotlivých fariem. Keďže všeobecná populácia pozostáva z veľkého počtu jedincov, je technicky náročné ju študovať. Preto neskúmajú celú populáciu, ale len jej časť, ktorá je tzv voliteľný alebo vzorová populácia.

Na základe vzorky populácie sa urobí úsudok o celej populácii ako celku. Odber vzoriek sa musí vykonávať podľa všetkých pravidiel, ktoré musia zahŕňať jedincov so všetkými hodnotami premenlivého znaku. Výber jedincov z bežnej populácie prebieha podľa princípu náhody alebo žrebovaním. V biometrii existujú dva typy náhodného výberu vzoriek: veľký a malý. Veľká vzorka nazývajú taký, ktorý zahŕňa viac ako 30 jedincov alebo pozorovaní, a malá vzorka menej ako 30 osôb. Existujú rôzne metódy spracovania údajov pre veľké a malé populácie vzoriek. Zdrojom štatistických informácií môžu byť údaje zo zootechnickej a veterinárnej evidencie, ktoré poskytujú informácie o každom zvierati od narodenia až po likvidáciu. Ďalším zdrojom informácií môžu byť údaje z vedeckých a produkčných experimentov uskutočnených na obmedzenom počte zvierat. Po získaní vzorky sa začne spracovanie. To umožňuje získať vo forme matematických veličín množstvo štatistických veličín alebo koeficientov, ktoré charakterizujú charakteristiky záujmových skupín zvierat.

Pomocou biometrickej metódy sa získajú tieto štatistické parametre alebo ukazovatele:

1. Priemerné hodnoty premennej charakteristiky (aritmetický priemer, modus, medián, geometrický priemer).

2. Koeficienty, ktoré merajú množstvo variácií t.j. (variabilita) študovanej charakteristiky (štandardná odchýlka, variačný koeficient).

3. Koeficienty, ktoré merajú veľkosť vzťahu medzi charakteristikami (korelačný koeficient, regresný koeficient a korelačný pomer).

4. Štatistické chyby a spoľahlivosť získaných štatistických údajov.

5. Podiel variácií vznikajúcich pod vplyvom rôznych faktorov a iných ukazovateľov, ktoré sú spojené so štúdiom genetických a selekčných problémov.

Pri štatistickom spracovaní vzorky sú členovia populácie organizovaní vo forme variačných radov. Séria variácií je zoskupenie jednotlivcov do tried v závislosti od hodnoty študovanej vlastnosti. Séria variácií pozostáva z dvoch prvkov: tried a série frekvencií. Séria variácií môže byť prerušovaná alebo kontinuálna. Funkcie, ktoré môžu mať iba celé číslo, sa nazývajú prerušované číslo hlavy, počet vajec, počet prasiatok a iné. Funkcie, ktoré možno vyjadriť v zlomkových číslach, sa nazývajú nepretržitý(výška cm, dojivosť kg, % tuku, živá hmotnosť a iné).

Pri zostavovaní série variácií sa dodržiavajú tieto zásady alebo pravidlá:

1. Určite alebo spočítajte počet jedincov, pre ktoré sa zostaví variačná séria (n).

2. Nájdite maximálnu a minimálnu hodnotu skúmanej charakteristiky.

3. Určte triedny interval K = max - min / počet tried, počet tried sa berie ľubovoľne.

4. Zostrojte triedy a určte hranicu každej triedy, min+K.

5. Členov obyvateľstva rozdelia do tried.

Po zostrojení tried a rozdelení jednotlivcov do tried sa vypočítajú hlavné ukazovatele variačných radov (X, σ, Cv, Mх, Мσ, Мcv). Priemerná hodnota atribútu získala najväčšiu hodnotu pri charakterizácii populácie. Pri riešení všetkých zootechnických, veterinárnych, medicínskych, ekonomických a iných problémov sa vždy zisťuje priemerná hodnota znaku (priemerná dojivosť pre stádo, % tuku, plodnosť v chove ošípaných, produkcia vajec u kurčiat a iné znaky). Medzi parametre charakterizujúce priemernú hodnotu charakteristiky patria:

1. Aritmetický priemer.

2. Vážený aritmetický priemer.

3. Geometrický priemer.

4. Móda (Po).

5. Medián (Me) a ďalšie parametre.

Aritmetický priemer nám ukazuje, akú hodnotu vlastností mali jednotlivci danej skupiny, ak by bola rovnaká pre všetkých, a je určená vzorcom X = A + b × K

Hlavnou vlastnosťou aritmetického priemeru je, že eliminuje variáciu charakteristiky a robí ju spoločnou pre celú populáciu. Zároveň si treba uvedomiť, že aritmetický priemer nadobúda abstraktný význam, t.j. pri jej výpočte sa získajú zlomkové ukazovatele, ktoré v skutočnosti nemusia existovať. Napríklad: úžitkovosť teliat na 100 kráv je 85,3 teliat, plodnosť prasníc je 11,8 prasiatok, produkcia vajec kurčiat je 252,4 vajec a ďalšie ukazovatele.

Hodnota aritmetického priemeru je v praxi chovu hospodárskych zvierat a charakteristikách populácie veľmi vysoká. V praxi chovu zvierat, najmä chovu dobytka, sa na stanovenie priemerného obsahu tuku v mlieku počas laktácie používa vážená aritmetická hodnota.

Geometrická stredná hodnota sa vypočíta, ak je potrebné charakterizovať rýchlosť rastu, rýchlosť prírastku populácie, keď aritmetický priemer skresľuje údaje.

Móda pomenujte najčastejšie sa vyskytujúcu hodnotu rôznej charakteristiky, kvantitatívnej aj kvalitatívnej. Modálne číslo pre kravu je číslo struku-4. Hoci existujú kravy s piatimi alebo šiestimi strukami. V sérii variácií bude modálna trieda trieda, kde je najväčší počet frekvencií a definujeme ju ako nulovú triedu.

Medián sa nazýva variant, ktorý rozdeľuje všetkých členov populácie na dve rovnaké časti. Polovica členov populácie bude mať hodnotu variabilnej vlastnosti menšiu ako je medián a druhá polovica bude mať hodnotu väčšiu ako medián (napríklad: štandard plemena). Medián sa najčastejšie používa na charakterizáciu kvalitatívnych charakteristík. Napríklad: tvar vemena je miskovitý, okrúhly, kozí. Pri správnej možnosti odberu vzoriek by mali byť všetky tri indikátory rovnaké (t. j. X, Mo, Me). Prvou charakteristikou populácie sú teda priemerné hodnoty, ktoré však na posúdenie populácie nestačia.

Druhým dôležitým ukazovateľom každej populácie je variabilita alebo variabilita znaku. Variabilita znaku je daná mnohými faktormi prostredia a vnútornými faktormi, t.j. dedičné faktory.

Určenie variability znaku má veľký význam tak v biológii, ako aj v praxi chovu zvierat. Pomocou štatistických parametrov, ktoré merajú mieru variability znaku, je teda možné stanoviť rozdiely medzi plemenami v stupni variability rôznych ekonomicky užitočných znakov, predpovedať úroveň selekcie v rôznych skupinách zvierat, ako aj jej účinnosť. .

Súčasný stav štatistickej analýzy umožňuje nielen stanoviť mieru prejavu fenotypovej variability, ale aj rozdeliť fenotypovú variabilitu na jej komponentné typy, a to genotypovú a paratypickú variabilitu. Tento rozklad variability sa robí pomocou analýzy rozptylu.

Hlavnými ukazovateľmi variability sú tieto štatistické hodnoty:

1. Limity;

2. štandardná odchýlka (σ);

3. Koeficient variability alebo variácie (Cv).

Najjednoduchší spôsob, ako prezentovať množstvo variability vlastnosti, sú limity. Limity sú určené nasledovne: rozdiel medzi maximálnymi a minimálnymi hodnotami atribútu. Čím väčší je tento rozdiel, tým väčšia je variabilita tohto znaku. Hlavným parametrom na meranie variability znaku je štandardná odchýlka alebo (σ) a je určený vzorcom:

σ = ±K ∙ √∑ Pa 2- b 2

Hlavné vlastnosti smerodajnej odchýlky t.j. (σ) sú nasledovné:

1. Sigma je vždy pomenovaná hodnota a je vyjadrená (v kg, g, metroch, cm, ks).

2. Sigma je vždy kladná hodnota.

3. Čím väčšia je hodnota σ, tým väčšia je variabilita znaku.

4. V sérii variácií sú všetky frekvencie zahrnuté v ±3σ.

Pomocou štandardnej odchýlky môžete určiť, do ktorej série variácií daný jedinec patrí. Metódy na určenie variability charakteristiky pomocou limitov a štandardnej odchýlky majú svoje nevýhody, pretože nie je možné porovnávať rôzne charakteristiky na základe veľkosti variability. Je potrebné poznať variabilitu rôznych znakov u toho istého zvieraťa alebo tej istej skupiny zvierat, napr.: variabilita dojivosti, obsah tuku v mlieku, živá hmotnosť, množstvo mliečneho tuku. Preto porovnaním variability opačných charakteristík a identifikáciou stupňa ich variability sa koeficient variability vypočíta pomocou nasledujúceho vzorca:

Hlavnými metódami hodnotenia variability charakteristík medzi členmi populácie sú teda: limity; smerodajná odchýlka (σ) a koeficient variácie alebo variability.

V chovateľskej praxi a experimentálnom výskume sa často musíme zaoberať malými vzorkami. Malá vzorka nazývajú počet jedincov alebo zvierat nepresahujúcich 30 alebo menej ako 30. Zavedené vzorce využívajúce malú vzorku sa prenášajú na celú populáciu. Pre malú vzorku sa stanovia rovnaké štatistické parametre ako pre veľkú vzorku (X, σ, Cv, Mx). Ich vzorce a výpočty sa však líšia od veľkej vzorky (t. j. od vzorcov a výpočtov variačného radu).

1. Aritmetický priemer X = ∑V

V - absolútna hodnota opcie alebo charakteristiky;

n je počet variantov alebo počet jedincov.

2. Smerodajná odchýlka σ = ± √ ∑α 2

α = x-¯x, to je rozdiel medzi hodnotou opcie a aritmetickým priemerom. Tento rozdiel α je na druhú a α 2 n-1 je počet stupňov voľnosti, t.j. počet všetkých variantov alebo jedincov znížený o jeden (1).

Kontrolné otázky:

1.Čo je to biometria?

2.Aké štatistické parametre charakterizujú populáciu?

3.Aké ukazovatele charakterizujú variabilitu?

4.Čo je malá vzorka

5. Čo je modus a medián?

Prednáška č.12

Biotechnológia a transplantácia embryí

1. Pojem biotechnológie.

2. Výber kráv darcov a príjemcov, transplantácia embryí.

3. Význam transplantácií v chove zvierat.

Rozšírenie charakteristík vzorky na všeobecnú populáciu na základe zákona veľkých čísel vyžaduje dostatočne veľkú veľkosť vzorky. V praxi štatistického výskumu sa však často stretávame s nemožnosťou z toho či onoho dôvodu zvýšiť počet jednotiek vzorky, ktoré majú malú veľkosť. Platí to pre štúdium činností podnikov, vzdelávacích inštitúcií, komerčných bánk atď., ktorých počet v regiónoch je spravidla zanedbateľný a niekedy predstavuje iba 5 až 10 jednotiek.

V prípade, že výberová populácia pozostáva z malého počtu jednotiek, menej ako 30, volá sa výberová vzorka malý V tomto prípade nie je možné použiť Ljapunovovu vetu na výpočet výberovej chyby, pretože výberový priemer je výrazne ovplyvnený hodnotou každej z náhodne vybraných jednotiek a jej rozdelenie sa môže výrazne líšiť od normálu.

V roku 1908 V.S. Gosset dokázal, že odhad nezrovnalosti medzi výberovým priemerom malej vzorky a všeobecným priemerom má špeciálny distribučný zákon (pozri kapitolu 4). Pri riešení problému pravdepodobnostného odhadu výberového priemeru s malým počtom pozorovaní ukázal, že v tomto prípade je potrebné uvažovať nie o rozložení samotných výberových priemerov, ale o veľkosti ich odchýlok od priemeru pôvodné obyvateľstvo. V tomto prípade môžu byť závery celkom spoľahlivé.

Študentov objav je tzv teória malej vzorky.

Pri posudzovaní výsledkov malej vzorky sa pri výpočtoch nepoužíva hodnota všeobecného rozptylu. V malých vzorkách sa na výpočet priemernej vzorkovacej chyby používa „opravený“ rozptyl vzorky:

tie. na rozdiel od veľkých vzoriek v menovateli P náklady (a - 1). Výpočet priemernej výberovej chyby pre malú vzorku je uvedený v tabuľke. 5.7.

Tabuľka 5.7

Výpočet priemernej chyby malej vzorky

Hraničná chyba malej vzorky je: kde t- faktor dôvery.

Rozsah t súvisí inak s pravdepodobným odhadom ako s veľkou vzorkou. V súlade so študentským rozdelením závisí pravdepodobný odhad od oboch hodnôt t, a na veľkosti vzorky I v prípade, že hraničná chyba neprekročí r-násobok priemernej chyby v malých vzorkách. Do veľkej miery to však závisí od počtu vybraných jednotiek.

V.S. Gosset zostavil tabuľku rozdelenia pravdepodobnosti v malých vzorkách zodpovedajúcich daným hodnotám koeficientu spoľahlivosti t a rôzne objemy malej vzorky a výňatok z nej je uvedený v tabuľke. 5.8.

Tabuľka 5.8

Fragment študentskej pravdepodobnostnej tabuľky (pravdepodobnosti vynásobené 1000)

Tabuľkové údaje 5.8 naznačujú, že pri neobmedzenom zvyšovaní veľkosti vzorky (i = °°) sa Studentovo rozdelenie prikláňa k zákonu normálneho rozdelenia a pri i = 20 sa od neho len málo líši.

Tabuľka rozdelenia študentov sa často uvádza v inej forme, vhodnejšej pre praktické použitie (tabuľka 5.9).

Tabuľka 5.9

Niektoré hodnoty (študentské t-rozdelenia

Počet stupňov voľnosti

pre jednosmerný interval

pre obojsmerný rozstup

P= 0,99

Pozrime sa, ako používať distribučnú tabuľku. Každá pevná hodnota P vypočítajte počet stupňov voľnosti k, Kde k = n - 1. Pre každú hodnotu stupňa voľnosti je uvedená hraničná hodnota t p (t 095 alebo t 0 99), čo s danou pravdepodobnosťou R nebudú prekročené v dôsledku náhodných výkyvov vo výsledkoch odberu vzoriek. Na základe veľkosti t p hranice dôvery sú určené

interval

Úroveň spoľahlivosti používaná pri obojstrannom testovaní je spravidla P = 0,95 resp P = 0,99, čo nevylučuje výber iných hodnôt pravdepodobnosti. Hodnota pravdepodobnosti sa vyberá na základe špecifických požiadaviek úloh, pri ktorých sa používa malá vzorka.

Pravdepodobnosť, že všeobecné priemerné hodnoty prekročia interval spoľahlivosti, sa rovná q, Kde q = 1 - R. Táto hodnota je veľmi malá. Podľa toho pre uvažované pravdepodobnosti R je to 0,05 a 0,01.

Malé vzorky sú rozšírené v technických vedách a biológii, ale v štatistickom výskume sa musia používať s veľkou opatrnosťou, len s príslušným teoretickým a praktickým skúmaním. Malú vzorku možno použiť len vtedy, ak je rozloženie charakteristiky v populácii normálne alebo sa jej blíži a priemerná hodnota sa vypočíta z údajov vzorky získaných ako výsledok nezávislých pozorovaní. Okrem toho majte na pamäti, že presnosť výsledkov z malej vzorky je nižšia ako z veľkej vzorky.

štatistiky s malou vzorkou

Všeobecne sa uznáva, že začiatok S. m.v. alebo, ako sa to často nazýva, štatistika „malého n“, vznikla v prvej dekáde 20. storočia publikovaním práce W. Gosseta, do ktorej umiestnil t-distribúciu postulovanú „študentom“, ktorý svetovú slávu získal o niečo neskôr. V tom čase Gossett pracoval ako štatistik v pivovaroch Guinness. Jednou z jeho povinností bolo analyzovať po sebe nasledujúce šarže sudov čerstvo uvareného portera. Z dôvodu, ktorý nikdy nevysvetlil, Gossett experimentoval s myšlienkou výrazne znížiť počet vzoriek odobratých z veľmi veľkého počtu sudov v skladoch pivovaru, aby náhodne kontroloval kvalitu vrátnika. To ho viedlo k postulovaniu t-distribúcie. Keďže stanovy pivovarov Guinness zakazovali svojim zamestnancom zverejňovať výsledky výskumu, Gossett zverejnil výsledky svojho experimentu porovnávajúceho odber vzoriek kontroly kvality pomocou t-distribúcie pre malé vzorky a tradičnej z-distribúcie (normálna distribúcia) anonymne, pod pseudonymom „Student “ – odtiaľ názov Študentovo t-rozdelenie).

t-distribúcia. Teória t-distribúcie, podobne ako teória z-distribúcie, sa používa na testovanie nulovej hypotézy, že dve vzorky sú jednoducho náhodné vzorky z tej istej populácie, a preto vypočítané štatistiky (napr. priemer a smerodajná odchýlka) sú nestranné odhady parametrov populácie. Na rozdiel od teórie normálneho rozdelenia však teória t-distribúcie pre malé vzorky nevyžaduje apriórne znalosti alebo presné odhady očakávanej hodnoty a rozptylu populácie. Navyše, hoci testovanie rozdielu medzi priemermi dvoch veľkých vzoriek na štatistickú významnosť vyžaduje základný predpoklad, že charakteristiky populácie sú normálne rozdelené, teória t distribúcie nevyžaduje predpoklady o parametroch.

Je dobre známe, že normálne rozložené charakteristiky sú opísané jednou jedinou krivkou – Gaussovou krivkou, ktorá spĺňa nasledujúcu rovnicu:

Pri t-distribúcii je celá skupina kriviek reprezentovaná nasledujúcim vzorcom:

To je dôvod, prečo rovnica pre t obsahuje gama funkciu, čo v matematike znamená, že pri zmene n bude iná krivka spĺňať danú rovnicu.

Stupne slobody

V rovnici pre t písmeno n označuje počet stupňov voľnosti (df) spojených s odhadom rozptylu populácie (S2), ktorý predstavuje druhý moment funkcie generujúcej akýkoľvek moment, ako je rovnica pre rozdelenie t . V S. počet stupňov voľnosti udáva, koľko charakteristík zostáva voľných po ich čiastočnom použití v konkrétnom type analýzy. Pri t-rozdelení je jedna z odchýlok od priemeru vzorky vždy pevná, pretože súčet všetkých takýchto odchýlok sa musí rovnať nule. To ovplyvňuje súčet štvorcov pri výpočte rozptylu vzorky ako nezaujatého odhadu parametra S2 a vedie k tomu, že df sa rovná počtu meraní mínus jedno pre každú vzorku. Vo vzorcoch a postupoch na výpočet t-štatistiky na testovanie nulovej hypotézy je teda df = n - 2.

F-pacndivízia. Nulová hypotéza testovaná t testom je, že tieto dve vzorky boli náhodne vybraté z rovnakej populácie alebo boli náhodne vybraté z dvoch rôznych populácií s rovnakým rozptylom. Ale čo ak potrebujete analyzovať viac skupín? Odpoveď na túto otázku sa hľadala dvadsať rokov po tom, čo Gosset objavil t-distribúciu. Na jeho výrobe sa priamo podieľali dvaja najvýznamnejší štatistici 20. storočia. Jedným je najväčší anglický štatistik R. A. Fisher, ktorý navrhol prvé teórie. formulácie, ktorých vývoj viedol k výrobe F-distribúcie; jeho práca o teórii malých vzoriek, rozvíjajúca Gossetove myšlienky, bola publikovaná v polovici 20. rokov (Fisher, 1925). Ďalším je George Snedecor, jeden z galaxie raných amerických štatistikov, ktorý vyvinul spôsob, ako porovnať dve nezávislé vzorky ľubovoľnej veľkosti pomocou výpočtu pomeru dvoch odhadov rozptylu. Tento vzťah nazval F-pomer podľa Fischera. Výsledky výskumu Snedecor viedol k tomu, že F-distribúcia sa začala špecifikovať ako rozdelenie pomeru dvoch štatistík c2, z ktorých každá má svoje vlastné stupne voľnosti:

Z toho pochádza Fisherova klasická práca o analýze rozptylu, štatistickej metóde výslovne zameranej na analýzu malých vzoriek.

Rozdelenie odberu vzoriek F (kde n = df) je reprezentované nasledujúcou rovnicou:

Rovnako ako pri t-distribúcii, gama funkcia naznačuje, že existuje rodina rozdelení, ktoré spĺňajú rovnicu pre F. V tomto prípade však analýza zahŕňa dve df veličiny: počet stupňov voľnosti pre čitateľa a pre menovateľ F-pomeru.

Tabuľky pre odhad t- a F-štatistiky. Pri testovaní nulovej hypotézy pomocou S., založenej na teórii veľkých vzoriek, je zvyčajne potrebná iba jedna vyhľadávacia tabuľka - tabuľka normálnych odchýlok (z), ktorá umožňuje určiť oblasť pod normálnou krivkou medzi ľubovoľnými dvoma hodnotami z na osi x. Avšak tabuľky pre t- a F-rozdelenia sú nevyhnutne prezentované v súbore tabuliek, pretože tieto tabuľky sú založené na rôznych rozdeleniach vyplývajúcich z meniaceho sa počtu stupňov voľnosti. Hoci t- a F-distribúcie sú distribúcie hustoty pravdepodobnosti, podobne ako normálne rozdelenie pre veľké vzorky, líšia sa od nich štyrmi spôsobmi, ktoré sa používajú na ich opis. Napríklad distribúcia t je symetrická (poznámka t2 v jej rovnici) pre všetky df, ale s klesajúcou veľkosťou vzorky sa zvyšuje. Vrcholové krivky (tie so špičatosťou väčšou ako normálna) majú tendenciu byť menej asymptotické (t. j. menej blízko k osi x na koncoch rozdelenia) ako krivky s normálnou špičatosťou, ako je napríklad Gaussova krivka. Tento rozdiel má za následok výrazné rozdiely medzi bodmi na osi x zodpovedajúcimi hodnotám t a z. Pri df = 5 a obojstrannej hladine α 0,05 je t = 2,57, pričom zodpovedajúce z = 1,96. Preto t = 2,57 označuje štatistickú významnosť na 5 % hladine. V prípade normálnej krivky však z = 2,57 (presnejšie 2,58) už bude indikovať 1% hladinu štatistickej významnosti. Podobné porovnania je možné urobiť s distribúciou F, pretože t sa rovná F, keď sú dve vzorky.

Čo predstavuje „malú“ vzorku?

Kedysi sa objavila otázka, aká veľká by mala byť vzorka, aby sa dala považovať za malú. Na túto otázku jednoducho neexistuje jednoznačná odpoveď. Za konvenčnú hranicu medzi malou a veľkou vzorkou sa však považuje df = 30. Základom tohto trochu svojvoľného rozhodnutia je výsledok porovnania t-rozdelenia s normálnym rozdelením. Ako je uvedené vyššie, rozdiel medzi hodnotami t a z má tendenciu narastať, keď df klesá, a znižovať, keď sa df zvyšuje. V skutočnosti sa t začína tesne približovať k z dlho pred obmedzujúcim prípadom, kde t = z pre df = ∞. Jednoduché vizuálne preskúmanie tabuľkových hodnôt t ukazuje, že táto aproximácia je pomerne rýchla, počnúc df = 30 a viac. Porovnávacie hodnoty t (pri df = 30) a z sú rovnaké: 2,04 a 1,96 pre p = 0,05; 2,75 a 2,58 pre p = 0,01; 3,65 a 3,29 pre p = 0,001.

Ďalšie štatistiky pre „malé“ vzorky

Hoci štatistiky ako t a F sú špeciálne navrhnuté na použitie s malými vzorkami, sú rovnako použiteľné aj na veľké vzorky. Existuje však mnoho ďalších štatistických metód určených na analýzu malých vzoriek a často sa používajú na tento účel. Týka sa to tzv. neparametrické alebo distribučné metódy. V zásade sú stupnice uvedené v týchto metódach určené na použitie pri meraniach získaných pomocou mierok, ktoré nespĺňajú definíciu pomerových alebo intervalových mierok. Najčastejšie ide o ordinálne (hodnostné) alebo nominálne merania. Neparametrické škály nevyžadujú predpoklady týkajúce sa distribučných parametrov, najmä pokiaľ ide o odhady rozptylu, pretože ordinálne a nominálne škály eliminujú samotný koncept rozptylu. Z tohto dôvodu sa neparametrické metódy používajú aj na merania získané pomocou intervalových a pomerových škál, keď sa analyzujú malé vzorky a je pravdepodobné, že budú porušené základné predpoklady potrebné na použitie parametrických metód. Tieto testy, ktoré možno primerane použiť na malé vzorky, zahŕňajú: Fisherov test presnej pravdepodobnosti, Friedmanov dvojfaktorovú neparametrickú (poradovú) analýzu rozptylu, Kendallov t rank korelačný koeficient, Kendallov koeficient zhody (W), Kruskalov H test - Wallace pre neparametrickú (hodnotovú) jednosmernú analýzu rozptylu, Mann-Whitneyho U-test, mediánový test, znamienkový test, Spearmanov koeficient poradovej korelácie r a Wilcoxonov t-test.