Pravdepodobnostné a štatistické metódy modelovania ekonomických systémov. Pravdepodobnostné a štatistické metódy rozhodovania Teoretické frekvencie preferencií

3. Podstata pravdepodobnostno-štatistických metód

Ako sa využívajú prístupy, myšlienky a výsledky teórie pravdepodobnosti a matematickej štatistiky pri spracovaní údajov - výsledkov pozorovaní, meraní, testov, rozborov, experimentov s cieľom robiť prakticky dôležité rozhodnutia?

Základom je pravdepodobnostný model reálneho javu alebo procesu, t.j. matematický model, v ktorom sú objektívne vzťahy vyjadrené z hľadiska teórie pravdepodobnosti. Pravdepodobnosti sa používajú predovšetkým na popis neistôt, ktoré treba brať do úvahy pri rozhodovaní. Týka sa to tak nežiaducich príležitostí (rizík), ako aj atraktívnych („šťastná šanca“). Niekedy je náhodnosť zámerne zavedená do situácie, napríklad pri žrebovaní, náhodnom výbere jednotiek na kontrolu, pri lotériách alebo pri spotrebiteľských prieskumoch.

Teória pravdepodobnosti umožňuje použitie jednej pravdepodobnosti na výpočet iných, ktoré sú pre výskumníka zaujímavé. Napríklad pomocou pravdepodobnosti získania erbu môžete vypočítať pravdepodobnosť, že pri 10 hodoch mincou získate aspoň 3 erby. Takýto výpočet je založený na pravdepodobnostnom modeli, podľa ktorého sa hádzanie mincou opisuje vzorom nezávislých pokusov; okrem toho sú erb a značky hash rovnako možné, a preto je pravdepodobnosť každej z týchto udalostí rovnaká. do ½. Zložitejší model je ten, ktorý zvažuje kontrolu kvality výrobnej jednotky namiesto hádzania mince. Zodpovedajúci pravdepodobnostný model je založený na predpoklade, že kontrola kvality rôznych výrobných jednotiek je popísaná nezávislou skúšobnou schémou. Na rozdiel od modelu hodu mincou je potrebné zaviesť nový parameter – pravdepodobnosť Rže výrobok je chybný. Model bude úplne opísaný, ak predpokladáme, že všetky výrobné jednotky majú rovnakú pravdepodobnosť, že budú chybné. Ak je posledný predpoklad nesprávny, počet parametrov modelu sa zvyšuje. Môžete napríklad predpokladať, že každá výrobná jednotka má svoju vlastnú pravdepodobnosť, že bude chybná.

Poďme diskutovať o modeli riadenia kvality s pravdepodobnosťou defektov spoločnou pre všetky výrobné jednotky R. Aby ste sa pri analýze modelu „dostali k číslu“, je potrebné ho vymeniť R na nejakú konkrétnu hodnotu. K tomu je potrebné prejsť za pravdepodobnostný model a obrátiť sa na údaje získané pri kontrole kvality. Matematická štatistika rieši inverzný problém vo vzťahu k teórii pravdepodobnosti. Jeho cieľom je na základe výsledkov pozorovaní (meraní, analýz, testov, experimentov) získať závery o pravdepodobnostiach, na ktorých je založený pravdepodobnostný model. Napríklad na základe frekvencie výskytu chybných výrobkov počas inšpekcie možno vyvodiť závery o pravdepodobnosti chyby (pozri diskusiu vyššie s použitím Bernoulliho vety). Na základe Chebyshevovej nerovnosti boli vyvodené závery o zhode frekvencie výskytu chybných výrobkov s hypotézou, že pravdepodobnosť chyby má určitú hodnotu.

Aplikácia matematickej štatistiky je teda založená na pravdepodobnostnom modeli javu alebo procesu. Používajú sa dve paralelné série pojmov – tie, ktoré súvisia s teóriou (pravdepodobnostný model) a tie, ktoré súvisia s praxou (vzorkovanie výsledkov pozorovania). Napríklad teoretická pravdepodobnosť zodpovedá frekvencii zistenej zo vzorky. Matematické očakávanie (teoretický rad) zodpovedá výberovému aritmetickému priemeru (praktický rad). Vzorové charakteristiky sú spravidla odhady teoretických. Zároveň veličiny súvisiace s teoretickým radom „sú v hlavách výskumníkov“, súvisia so svetom myšlienok (podľa starogréckeho filozofa Platóna) a nie sú k dispozícii na priame meranie. Výskumníci majú k dispozícii iba vzorové údaje, pomocou ktorých sa snažia stanoviť vlastnosti teoretického pravdepodobnostného modelu, ktorý ich zaujíma.

Prečo potrebujeme pravdepodobnostný model? Faktom je, že len s jeho pomocou možno vlastnosti zistené analýzou konkrétnej vzorky preniesť na iné vzorky, ako aj na celú takzvanú všeobecnú populáciu. Termín "populácia" sa používa, keď sa odkazuje na veľký, ale konečný súbor skúmaných jednotiek. Napríklad o totalite všetkých obyvateľov Ruska alebo o totalite všetkých spotrebiteľov instantnej kávy v Moskve. Cieľom marketingových či sociologických prieskumov je preniesť výpovede získané zo vzorky stoviek či tisícok ľudí na populáciu niekoľkých miliónov ľudí. Pri kontrole kvality sa šarža produktov správa ako všeobecná populácia.

Prenos záverov zo vzorky na väčšiu populáciu si vyžaduje určité predpoklady o vzťahu charakteristík vzorky s charakteristikami tejto väčšej populácie. Tieto predpoklady sú založené na vhodnom pravdepodobnostnom modeli.

Samozrejme je možné spracovať vzorové dáta bez použitia jedného alebo druhého pravdepodobnostného modelu. Môžete napríklad vypočítať vzorový aritmetický priemer, spočítať frekvenciu splnenia určitých podmienok atď. Výsledky výpočtu sa však budú týkať len konkrétnej vzorky, prenos záverov získaných s ich pomocou na akúkoľvek inú populáciu je nesprávny. Táto činnosť sa niekedy nazýva „analýza údajov“. V porovnaní s pravdepodobnostno-štatistickými metódami má analýza údajov obmedzenú vzdelávaciu hodnotu.

Podstatou pravdepodobnostno-štatistických metód rozhodovania je teda používanie pravdepodobnostných modelov založených na odhade a testovaní hypotéz pomocou charakteristík vzorky.

Zdôrazňujeme, že logika používania vzorových charakteristík na rozhodovanie na základe teoretických modelov zahŕňa súčasné použitie dvoch paralelných sérií konceptov, z ktorých jeden zodpovedá pravdepodobnostným modelom a druhý vzorovým údajom. Žiaľ, v množstve literárnych zdrojov, zvyčajne zastaraných alebo písaných v receptovom duchu, sa nerozlišuje medzi vzorovými a teoretickými charakteristikami, čo vedie čitateľov k zmätkom a chybám pri praktickom používaní štatistických metód.

Predchádzajúce

V baníctve je v mnohých prípadoch potrebné študovať nielen deterministické, ale aj náhodné procesy. Všetky geomechanické procesy prebiehajú za neustále sa meniacich podmienok, kedy k určitým udalostiam môže alebo nemusí dôjsť. V tomto prípade je potrebné analyzovať náhodné spojenia.

Napriek náhodnej povahe udalostí podliehajú určitým vzorcom, o ktorých sa hovorí v teória pravdepodobnosti , ktorá študuje teoretické rozdelenia náhodných premenných a ich charakteristiky. Iná veda, takzvaná matematická štatistika, sa zaoberá metódami spracovania a analýzy náhodných empirických udalostí. Tieto dve príbuzné vedy tvoria jednotnú matematickú teóriu hromadných náhodných procesov, ktorá je široko používaná vo vedeckom výskume.

Prvky teórie pravdepodobnosti a matematickej štatistiky. Pod totality pochopiť množinu homogénnych udalostí náhodnej premennej X, ktorý predstavuje primárny štatistický materiál. Populácia môže byť všeobecná (veľká vzorka N), ktorý obsahuje širokú škálu možností pre hromadný jav a selektívny (malá vzorka N 1), ktorá predstavuje len časť bežnej populácie.

Pravdepodobnosť R(X) diania X nazývaný pomer počtu prípadov N(X), ktoré vedú k výskytu udalosti X, k celkovému počtu možných prípadov N:

V matematickej štatistike je analógom pravdepodobnosti pojem frekvencia udalostí, čo je pomer počtu prípadov, v ktorých sa udalosť vyskytla, k celkovému počtu udalostí:

S neobmedzeným nárastom počtu udalostí má frekvencia tendenciu k pravdepodobnosti R(X).



Povedzme, že existujú nejaké štatistické údaje prezentované vo forme distribučného radu (histogramu) na obr. 4.11, potom frekvencia charakterizuje pravdepodobnosť výskytu náhodnej premennej v intervale і a hladká krivka sa nazýva distribučná funkcia.

Pravdepodobnosť náhodnej premennej je kvantitatívnym hodnotením možnosti jej výskytu. Spoľahlivá udalosť má R=1, nemožná udalosť – R=0. Preto pre náhodnú udalosť a súčet pravdepodobností všetkých možných hodnôt.

Vo výskume nestačí mať distribučnú krivku, ale musíte poznať aj jej charakteristiky:

a) aritmetický priemer – ; (4,53)

b) rozsah – R= X max – X min , ktorý možno použiť na približný odhad variácie udalostí, kde X max a X min – extrémne hodnoty nameranej hodnoty;

c) matematické očakávanie – . (4,54)

Pre spojité náhodné premenné sa matematické očakávanie zapisuje vo forme

, (4.55)

tie. rovná skutočnej hodnote pozorovaných udalostí X a úsečka zodpovedajúca očakávaniu sa nazýva stred rozloženia.

d) disperzia – , (4.56)

ktorý charakterizuje rozptyl náhodnej premennej vo vzťahu k matematickému očakávaniu. Rozptyl náhodnej premennej sa nazýva aj centrálny moment druhého rádu.

Pre spojitú náhodnú premennú sa rozptyl rovná

; (4.57)

e) štandardná odchýlka alebo štandard –

e) variačný koeficient (relatívny rozptyl) –

, (4.59)

ktorý charakterizuje intenzitu rozptylu v rôznych populáciách a slúži na ich porovnanie.

Plocha pod distribučnou krivkou zodpovedá jednotke, čo znamená, že krivka pokrýva všetky hodnoty náhodných premenných. Dá sa však zostrojiť veľké množstvo takýchto kriviek, ktoré budú mať plochu rovnú jednotke, t.j. môžu mať rôzny rozptyl. Mierou disperzie je disperzia alebo štandardná odchýlka (obr. 4.12).


Vyššie sme skúmali hlavné charakteristiky teoretickej distribučnej krivky, ktoré sú analyzované teóriou pravdepodobnosti. V štatistike operujú s empirickými rozdeleniami a hlavnou úlohou štatistiky je výber teoretických kriviek podľa existujúceho empirického distribučného zákona.

Nech získame variačný rad ako výsledok n meraní náhodnej premennej X 1 , X 2 , X 3 , …x n. Spracovanie takýchto sérií je obmedzené na tieto operácie:

– skupina x i v intervale a pre každú z nich nastaviť absolútne a relatívne frekvencie;

– na základe hodnôt sa vytvorí krokový histogram (obr. 4.11);

– vypočítať charakteristiky empirickej distribučnej krivky: aritmetický priemer, rozptyl D= ; smerodajná odchýlka.

hodnoty D A s empirické rozdelenie zodpovedá hodnotám, D(X) A s(X) teoretické rozdelenie.



Pozrime sa na základné teoretické distribučné krivky. Najčastejšie sa vo výskume používa zákon normálneho rozdelenia (obr. 4.13), ktorého rovnica má tvar:

(4.60)

Ak spojíte súradnicovú os s bodom m, t.j. súhlasiť m(X)=0 a akceptujte, zákon normálneho rozdelenia bude opísaný jednoduchšou rovnicou:

Na odhad rozptylu sa zvyčajne používa množstvo . Menej s,čím menší rozptyl, t.j. pozorovania sa od seba len málo líšia. S nárastom s rozptyl sa zvyšuje, zvyšuje sa pravdepodobnosť chýb a maximum krivky (ordináta) sa rovná , klesá. Preto hodnota pri=1/ pri 1 sa nazýva miera presnosti. Smerodajné odchýlky zodpovedajú inflexným bodom (tieňovaná oblasť na obr. 4.12) distribučnej krivky.

Pri analýze mnohých náhodných diskrétnych procesov sa používa Poissonovo rozdelenie (krátkodobé udalosti vyskytujúce sa za jednotku času). Pravdepodobnosť výskytu počtu zriedkavých udalostí X=1, 2, ... za dané časové obdobie vyjadruje Poissonov zákon (pozri obr. 4.14):

, (4.62)

Kde X– počet udalostí za dané časové obdobie t;

λ – hustota, t.j. priemerný počet udalostí za jednotku času;

– priemerný počet udalostí v priebehu času t;

Pre Poissonov zákon sa rozptyl rovná matematickému očakávaniu počtu výskytov udalostí v priebehu času t, t.j. .

Na štúdium kvantitatívnych charakteristík niektorých procesov (čas porúch strojov a pod.) sa používa zákon exponenciálneho rozdelenia (obr. 4.15), ktorého hustota rozdelenia je vyjadrená závislosťou.

Kde λ – intenzita (priemerný počet) udalostí za jednotku času.

Pri exponenciálnom rozdelení intenzita λ je prevrátená k matematickému očakávaniu λ = 1/m(X). Okrem toho je vzťah platný.

Weibullov zákon rozdelenia je široko používaný v rôznych oblastiach výskumu (obr. 4.16):

, (4.64)

Kde n, μ , – parametre zákona; X– argument, najčastejšie čas.

Pri štúdiu procesov spojených s postupným znižovaním parametrov (pokles pevnosti horniny v čase a pod.) sa uplatňuje zákon gama rozloženia (obr. 4.17):

, (4.65)

Kde λ , a- možnosti. Ak a=1, funkcia gama sa zmení na exponenciálny zákon.

Okrem vyššie uvedených zákonov sa používajú aj iné typy distribúcií: Pearson, Rayleigh, beta distribúcia atď.

Analýza rozptylu. Pri výskume sa často objavuje otázka: Do akej miery ovplyvňuje ten či onen náhodný faktor skúmaný proces? Metódy stanovenia hlavných faktorov a ich vplyvu na skúmaný proces sú diskutované v špeciálnej časti teórie pravdepodobnosti a matematickej štatistiky - analýza rozptylu. Existuje rozdiel medzi jednofaktorovou a multifaktorovou analýzou. Analýza rozptylu je založená na použití zákona normálneho rozdelenia a na hypotéze, že stredy normálnych rozdelení náhodných premenných sú rovnaké. Preto všetky merania možno považovať za vzorku z rovnakej normálnej populácie.

Teória spoľahlivosti. Metódy teórie pravdepodobnosti a matematickej štatistiky sa často používajú v teórii spoľahlivosti, ktorá je široko používaná v rôznych odvetviach vedy a techniky. Spoľahlivosť sa chápe ako vlastnosť objektu vykonávať stanovené funkcie (udržiavať stanovené ukazovatele výkonnosti) počas požadovaného časového obdobia. V teórii spoľahlivosti sa poruchy považujú za náhodné udalosti. Pre kvantitatívny popis porúch sa používajú matematické modely - distribučné funkcie časových intervalov (normálne a exponenciálne rozdelenie, Weibullovo, gama rozdelenie). Úlohou je nájsť pravdepodobnosti rôznych ukazovateľov.

Metóda Monte Carlo. Na štúdium zložitých procesov pravdepodobnostného charakteru sa používa metóda Monte Carlo, pomocou ktorej sa riešia problémy hľadania najlepšieho riešenia z rôznych uvažovaných možností.

Metóda Monte Carlo sa nazýva aj metóda štatistického modelovania. Ide o numerickú metódu, je založená na použití náhodných čísel, ktoré simulujú pravdepodobnostné procesy. Matematickým základom metódy je zákon veľkých čísel, ktorý je formulovaný takto: pri veľkom počte štatistických testov pravdepodobnosť, že aritmetický priemer náhodnej premennej smeruje k svojmu matematickému očakávaniu, sa rovná 1:

, (4.64)

kde ε je akékoľvek malé kladné číslo.

Postupnosť riešenia problémov metódou Monte Carlo:

– zber, spracovanie a analýza štatistických pozorovaní;

– výber hlavných a vyradenia sekundárnych faktorov a zostavenie matematického modelu;

– zostavovanie algoritmov a riešenie problémov na počítači.

Na riešenie úloh metódou Monte Carlo potrebujete mať štatistický rad, poznať zákon jeho rozloženia, strednú hodnotu, matematické očakávanie a smerodajnú odchýlku. Riešenie je účinné len s použitím počítača.

Ako sa používa teória pravdepodobnosti a matematická štatistika? Tieto disciplíny sú základom pravdepodobnostných a štatistických metód rozhodovania. Na využitie ich matematického aparátu je potrebné vyjadrovať rozhodovacie problémy z hľadiska pravdepodobnostno-štatistických modelov. Aplikácia konkrétnej pravdepodobnostno-štatistickej metódy rozhodovania pozostáva z troch etáp:

Prechod od ekonomickej, manažérskej, technologickej reality k abstraktnej matematickej a štatistickej schéme, t.j. konštrukcia pravdepodobnostného modelu riadiaceho systému, technologického postupu, rozhodovacieho postupu najmä na základe výsledkov štatistickej kontroly a pod.

Vykonávanie výpočtov a vyvodzovanie záverov čisto matematickými prostriedkami v rámci pravdepodobnostného modelu;

Interpretácia matematických a štatistických záverov vo vzťahu k reálnej situácii a prijatie vhodného rozhodnutia (napríklad o súlade alebo nesúlade kvality výrobku so stanovenými požiadavkami, potrebe úpravy technologického postupu a pod.), najmä, závery (o podiele chybných jednotiek výrobku v dávke, o konkrétnej forme zákonov rozdelenia riadených parametrov technologického procesu a pod.).

Matematická štatistika využíva pojmy, metódy a výsledky teórie pravdepodobnosti. Uvažujme o hlavných otázkach konštrukcie pravdepodobnostných modelov rozhodovania v ekonomických, manažérskych, technologických a iných situáciách. Pre aktívne a správne používanie regulačných, technických a inštruktážnych dokumentov o pravdepodobnostných a štatistických metódach rozhodovania sú potrebné predbežné znalosti. Je teda potrebné vedieť, za akých podmienok má byť konkrétny dokument použitý, aké prvotné informácie je potrebné mať pre jeho výber a aplikáciu, aké rozhodnutia by sa mali robiť na základe výsledkov spracovania údajov atď.

Príklady aplikácií teória pravdepodobnosti a matematická štatistika. Uvažujme niekoľko príkladov, kde sú pravdepodobnostno-štatistické modely dobrým nástrojom na riešenie manažérskych, výrobných, ekonomických a národohospodárskych problémov. Takže napríklad v románe A. N. Tolstého „Prechádzka mukami“ (1. diel) sa hovorí: „dielňa produkuje dvadsaťtri percent nepodarkov, vy sa držte tohto čísla,“ povedal Strukov Ivanovi Iľjičovi.

Vynára sa otázka, ako chápať tieto slová v rozhovore manažérov tovární, keďže jedna jednotka výroby nemôže byť chybná na 23 %. Môže byť dobrý alebo chybný. Strukov mal pravdepodobne na mysli, že veľkoobjemová šarža obsahuje približne 23 % chybných jednotiek výroby. Potom vyvstáva otázka, čo znamená „približne“? Nech sa ukáže 30 zo 100 testovaných kusov výroby vadných, alebo z 1000 - 300, alebo zo 100 000 - 30 000 atď., treba Strukova obviniť z klamstva?

Alebo iný príklad. Minca použitá ako žreb musí byť „symetrická“, t.j. pri hádzaní by sa mal v priemere v polovici prípadov objaviť erb av polovici prípadov - hash (chvosty, číslo). Čo však znamená „v priemere“? Ak vykonáte veľa sérií po 10 hodov v každej sérii, potom sa často stretnete so sériami, v ktorých minca pristane ako erb 4-krát. Pri symetrickej minci sa to stane v 20,5 % behov. A ak je po 100 000 hodoch 40 000 erbov, možno mincu považovať za symetrickú? Postup rozhodovania je založený na teórii pravdepodobnosti a matematickej štatistike.

Daný príklad sa nemusí zdať dosť vážny. Avšak nie je. Žrebovanie má široké využitie pri organizovaní priemyselných technických a ekonomických experimentov, napríklad pri spracovaní výsledkov merania ukazovateľa kvality (trecieho momentu) ložísk v závislosti od rôznych technologických faktorov (vplyv konzervačného prostredia, spôsoby prípravy ložísk pred meraním). , vplyv zaťaženia ložísk počas procesu merania a pod.) P.). Povedzme, že je potrebné porovnávať kvalitu ložísk v závislosti od výsledkov ich skladovania v rôznych konzervačných olejoch, t.j. v zložených olejoch A A IN. Pri plánovaní takéhoto experimentu vzniká otázka, ktoré ložiská by sa mali umiestniť do oleja kompozície A, a ktoré z nich - v zložení oleja IN, ale tak, aby sa predišlo subjektivite a zabezpečila objektivita prijatého rozhodnutia.

Odpoveď na túto otázku možno získať žrebovaním. Podobný príklad možno uviesť s kontrolou kvality akéhokoľvek produktu. Na rozhodnutie, či kontrolovaná šarža výrobkov spĺňa alebo nespĺňa stanovené požiadavky, sa z nej vyberie vzorka. Na základe výsledkov kontroly vzorky sa urobí záver o celej šarži. V tomto prípade je veľmi dôležité vyhnúť sa subjektivite pri vytváraní vzorky, to znamená, že je potrebné, aby každá jednotka produktu v kontrolovanej šarži mala rovnakú pravdepodobnosť, že bude vybraná do vzorky. Vo výrobných podmienkach sa výber jednotiek produktu pre vzorku zvyčajne nevykonáva šaržou, ale pomocou špeciálnych tabuliek náhodných čísel alebo pomocou počítačových snímačov náhodných čísel.

Podobné problémy zabezpečenia objektivity porovnávania vznikajú pri porovnávaní rôznych schém organizácie výroby, odmeňovania, pri výberových konaniach a súťažiach, výbere kandidátov na voľné pozície a pod. Všade potrebujeme žreb alebo podobné postupy. Vysvetlime si to na príklade identifikácie najsilnejšieho a druhého najsilnejšieho tímu pri organizovaní turnaja podľa olympijského systému (porazený je vyradený). Nech silnejší tím vždy porazí slabšieho. Je jasné, že majstrom sa určite stane najsilnejší tím. Druhý najsilnejší tím sa dostane do finále vtedy a len vtedy, ak pred finále neodohrá žiadne zápasy s budúcim šampiónom. Ak sa takáto hra plánuje, druhý najsilnejší tím sa do finále nedostane. Ten, kto turnaj plánuje, môže buď „vyradiť“ druhý najsilnejší tím z turnaja v predstihu, postaviť ho proti lídrovi v prvom stretnutí, alebo mu zabezpečiť druhé miesto zabezpečením stretnutí so slabšími tímami až po Konečný. Aby sa predišlo subjektivite, uskutoční sa žrebovanie. Pri turnaji s 8 tímami je pravdepodobnosť, že sa dva najlepšie tímy stretnú vo finále, 4/7. V súlade s tým s pravdepodobnosťou 3/7 druhý najsilnejší tím opustí turnaj predčasne.

Akékoľvek meranie jednotiek produktu (pomocou posuvného meradla, mikrometra, ampérmetra atď.) obsahuje chyby. Na zistenie, či existujú systematické chyby, je potrebné vykonať opakované merania jednotky produktu, ktorej vlastnosti sú známe (napríklad štandardná vzorka). Malo by sa pamätať na to, že okrem systematickej chyby existuje aj náhodná chyba.

Preto vzniká otázka, ako z výsledkov merania zistiť, či nejde o systematickú chybu. Ak si všimneme len to, či chyba získaná pri nasledujúcom meraní je kladná alebo záporná, potom sa táto úloha môže zredukovať na predchádzajúcu. Porovnajme meranie k hodu mincou, kladnú chybu k strate erbu, zápornú chybu k mriežke (nulová chyba s dostatočným počtom dielikov stupnice sa takmer nikdy nevyskytuje). Potom kontrola absencie systematickej chyby je ekvivalentná kontrole symetrie mince.

Účelom týchto úvah je zredukovať problém kontroly absencie systematickej chyby na problém kontroly symetrie mince. Vyššie uvedená úvaha vedie k takzvanému „kritériu znamienka“ v matematickej štatistike.

V štatistickej regulácii technologických procesov sa na základe metód matematickej štatistiky vypracúvajú pravidlá a plány štatistického riadenia procesov zamerané na včasné zisťovanie problémov v technologických procesoch a prijímanie opatrení na ich úpravu a zamedzenie uvoľňovania produktov, ktoré nespôsobujú spĺňať stanovené požiadavky. Tieto opatrenia sú zamerané na zníženie výrobných nákladov a strát z dodávok nekvalitných jednotiek. Počas štatistickej akceptačnej kontroly, založenej na metódach matematickej štatistiky, sa vypracúvajú plány kontroly kvality analýzou vzoriek z produktových šarží. Náročnosť spočíva v schopnosti správne zostaviť pravdepodobnostno-štatistické modely rozhodovania, na základe ktorých možno zodpovedať vyššie položené otázky. V matematickej štatistike boli na tento účel vyvinuté pravdepodobnostné modely a metódy na testovanie hypotéz, najmä hypotézy, že podiel chybných jednotiek výroby sa rovná určitému počtu R 0 , Napríklad, R 0 = 0,23 (pamätajte na Strukovove slová z románu A. N. Tolstého).

Hodnotiace úlohy. V mnohých manažérskych, výrobných, ekonomických a národohospodárskych situáciách vznikajú problémy iného typu - problémy posudzovania charakteristík a parametrov rozdelenia pravdepodobnosti.

Pozrime sa na príklad. Nechajte dávku N elektrické lampy Z tejto šarže, vzorka n elektrické lampy Vzniká množstvo prirodzených otázok. Ako určiť priemernú životnosť elektrických svietidiel na základe výsledkov skúšok prvkov vzorky as akou presnosťou možno túto charakteristiku posúdiť? Ako sa zmení presnosť, ak odoberieme väčšiu vzorku? V akom počte hodín T dá sa zaručiť, že minimálne 90 % elektrických lámp vydrží T a viac hodín?

Predpokladajme, že pri testovaní veľkosti vzorky n elektrické lampy sa ukázali ako chybné X elektrické lampy Potom vyvstávajú nasledujúce otázky. Aké hranice možno určiť pre číslo? D chybné žiarovky v dávke, pre úroveň defektnosti D/ N a tak ďalej.?

Alebo pri štatistickej analýze presnosti a stability technologických procesov je potrebné vyhodnotiť také ukazovatele kvality, ako je priemerná hodnota kontrolovaného parametra a miera jeho rozptylu v posudzovanom procese. Podľa teórie pravdepodobnosti je vhodné použiť jej matematické očakávanie ako priemernú hodnotu náhodnej premennej a rozptyl, smerodajnú odchýlku alebo variačný koeficient ako štatistickú charakteristiku spreadu. To vyvoláva otázku: ako odhadnúť tieto štatistické charakteristiky zo vzorových údajov as akou presnosťou to možno urobiť? Podobných príkladov je možné uviesť veľa. Tu bolo dôležité ukázať, ako sa dá využiť teória pravdepodobnosti a matematická štatistika v riadení výroby pri rozhodovaní v oblasti štatistického riadenia kvality produktov.

Čo je to „matematická štatistika“? Matematická štatistika sa chápe ako „odvetvie matematiky venované matematickým metódam zberu, systematizácie, spracovania a interpretácie štatistických údajov, ako aj ich využívania na vedecké alebo praktické závery. Pravidlá a postupy matematickej štatistiky sú založené na teórii pravdepodobnosti, ktorá nám umožňuje vyhodnotiť presnosť a spoľahlivosť záverov získaných v každom probléme na základe dostupného štatistického materiálu.“ Štatistické údaje sa v tomto prípade týkajú informácií o počte objektov v akejkoľvek viac či menej rozsiahlej kolekcii, ktoré majú určité charakteristiky.

Na základe typu riešených problémov sa matematická štatistika zvyčajne delí na tri časti: popis údajov, odhad a testovanie hypotéz.

Na základe typu spracovávaných štatistických údajov sa matematická štatistika delí do štyroch oblastí:

Univariačná štatistika (štatistika náhodných premenných), v ktorej je výsledok pozorovania opísaný reálnym číslom;

Viacrozmerná štatistická analýza, kde výsledok pozorovania objektu je opísaný niekoľkými číslami (vektorom);

Štatistika náhodných procesov a časových radov, kde výsledkom pozorovania je funkcia;

Štatistika objektov nenumerického charakteru, v ktorých je výsledok pozorovania nenumerického charakteru, napríklad ide o množinu (geometrický útvar), usporiadanie alebo získané ako výsledok merania na základe na kvalitatívnom kritériu.

Historicky sa ako prvé objavili niektoré oblasti štatistiky objektov nenumerického charakteru (najmä problémy s odhadovaním podielu defektov a testovanie hypotéz o ňom) a jednorozmerné štatistiky. Matematický aparát je pre nich jednoduchší, preto sa na ich príklade zvyčajne demonštrujú základné myšlienky matematickej štatistiky.

Len tie spôsoby spracovania údajov, t.j. matematické štatistiky sú založené na dôkazoch, ktoré sú založené na pravdepodobnostných modeloch relevantných reálnych javov a procesov. Hovoríme o modeloch spotrebiteľského správania, výskyte rizík, fungovaní technologických zariadení, získavaní experimentálnych výsledkov, priebehu choroby a pod. Pravdepodobný model reálneho javu by sa mal považovať za skonštruovaný, ak sú uvažované veličiny a súvislosti medzi nimi vyjadrené v teórii pravdepodobnosti. Korešpondencia s pravdepodobnostným modelom reality, t.j. jeho primeranosť sa zdôvodňuje najmä použitím štatistických metód na testovanie hypotéz.

Nepravdepodobnostné metódy spracovania údajov sú prieskumné, možno ich použiť len pri predbežnej analýze údajov, keďže neumožňujú posúdiť presnosť a spoľahlivosť záverov získaných na základe obmedzeného štatistického materiálu.

Pravdepodobnostné a štatistické metódy sú použiteľné všade tam, kde je možné zostrojiť a zdôvodniť pravdepodobnostný model javu alebo procesu. Ich použitie je povinné, keď sa závery vyvodené zo vzoriek údajov prenášajú na celú populáciu (napríklad zo vzorky na celú šaržu produktov).

V špecifických oblastiach použitia sa používajú pravdepodobnostné aj štatistické metódy všeobecnej aplikácie a špecifické. Napríklad v časti riadenia výroby venovanej štatistickým metódam riadenia kvality výrobkov sa využíva aplikovaná matematická štatistika (vrátane navrhovania experimentov). Pomocou jej metód sa vykonáva štatistická analýza presnosti a stability technologických procesov a štatistické hodnotenie kvality. Medzi špecifické metódy patria metódy štatistickej preberacej kontroly kvality výrobkov, štatistickej regulácie technologických procesov, hodnotenia a kontroly spoľahlivosti a pod.

Široko používané sú aplikované pravdepodobnostné a štatistické disciplíny ako teória spoľahlivosti a teória radenia. Obsah prvej z nich je zrejmý už z názvu, druhá sa zaoberá štúdiom systémov ako je telefónna ústredňa, ktorá prijíma hovory v náhodných časoch – požiadavkami účastníkov vytáčajúcich čísla na svojich telefónnych prístrojoch. Trvanie obsluhy týchto požiadaviek, t.j. trvanie rozhovorov je tiež modelované náhodnými premennými. Veľký príspevok k rozvoju týchto disciplín urobil člen korešpondenta Akadémie vied ZSSR A.Ya. Khinchin (1894-1959), akademik Akadémie vied Ukrajinskej SSR B.V. Gnedenko (1912-1995) a ďalší domáci vedci.

Stručne o histórii matematickej štatistiky. Matematická štatistika ako veda sa začína prácami slávneho nemeckého matematika Carla Friedricha Gaussa (1777-1855), ktorý na základe teórie pravdepodobnosti skúmal a zdôvodňoval metódu najmenších štvorcov, ktorú vytvoril v roku 1795 a používal ju na spracovanie astronomických údajov ( s cieľom objasniť obežnú dráhu malej planéty Ceres). Jedno z najpopulárnejších rozdelení pravdepodobnosti, normálne, je často pomenované po ňom a v teórii náhodných procesov sú hlavným predmetom štúdia Gaussove procesy.

Koncom 19. stor. - začiatok 20. storočia K matematickej štatistike zásadne prispeli anglickí výskumníci, predovšetkým K. Pearson (1857-1936) a R.A. Fisher (1890-1962). Najmä Pearson vyvinul chí-kvadrát test na testovanie štatistických hypotéz a Fisher vyvinul analýzu rozptylu, teóriu experimentálneho dizajnu a metódu maximálnej pravdepodobnosti na odhadovanie parametrov.

V 30. rokoch dvadsiateho storočia. Poliak Jerzy Neumann (1894-1977) a Angličan E. Pearson vypracovali všeobecnú teóriu testovania štatistických hypotéz a sovietski matematici akademik A.N. Kolmogorov (1903-1987) a člen korešpondenta Akadémie vied ZSSR N.V. Smirnov (1900-1966) položili základy neparametrickej štatistiky. V štyridsiatych rokoch dvadsiateho storočia. Rumun A. Wald (1902-1950) vybudoval teóriu sekvenčnej štatistickej analýzy.

Matematická štatistika sa v súčasnosti rýchlo rozvíja. Za posledných 40 rokov teda možno rozlíšiť štyri zásadne nové oblasti výskumu:

Vývoj a implementácia matematických metód na plánovanie experimentov;

Rozvoj štatistiky objektov nenumerického charakteru ako samostatného smeru v aplikovanej matematickej štatistike;

Vývoj štatistických metód, ktoré sú odolné voči malým odchýlkam od použitého pravdepodobnostného modelu;

Široký rozvoj prác na tvorbe počítačových softvérových balíkov určených na štatistickú analýzu údajov.

Pravdepodobnostno-štatistické metódy a optimalizácia. Myšlienka optimalizácie preniká do modernej aplikovanej matematickej štatistiky a iných štatistických metód. A to metódy plánovania experimentov, štatistická kontrola preberania, štatistická regulácia technologických procesov a pod. Na druhej strane optimalizačné formulácie v teórii rozhodovania, napríklad aplikovaná teória optimalizácie kvality výrobkov a štandardných požiadaviek, zabezpečujú rozšírené používanie pravdepodobnostných štatistických metód, predovšetkým aplikovanej matematickej štatistiky.

V riadení výroby, najmä pri optimalizácii kvality výrobkov a štandardných požiadaviek, je obzvlášť dôležité aplikovať štatistické metódy v počiatočnej fáze životného cyklu výrobku, t.j. v štádiu prípravy výskumu experimentálneho vývoja dizajnu (vývoj sľubných požiadaviek na produkt, predbežný návrh, technické špecifikácie pre vývoj experimentálneho dizajnu). Je to spôsobené obmedzenými informáciami dostupnými v počiatočnej fáze životného cyklu produktu a potrebou predpovedať technické možnosti a ekonomickú situáciu do budúcnosti. Štatistické metódy by sa mali používať vo všetkých fázach riešenia optimalizačného problému - pri škálovaní premenných, vývoji matematických modelov fungovania produktov a systémov, vykonávaní technických a ekonomických experimentov atď.

Pri optimalizačných problémoch, vrátane optimalizácie kvality produktov a štandardných požiadaviek, sa využívajú všetky oblasti štatistiky. Konkrétne ide o štatistiku náhodných veličín, viacrozmernú štatistickú analýzu, štatistiku náhodných procesov a časových radov, štatistiku objektov nenumerického charakteru. Na analýzu konkrétnych údajov sa odporúča zvoliť štatistickú metódu v súlade s odporúčaniami.

Uvažovaná skupina metód je v sociologickom výskume najdôležitejšia, tieto metódy sa používajú takmer v každej sociologickej štúdii, ktorú možno považovať za skutočne vedeckú. Sú zamerané najmä na identifikáciu štatistických vzorcov v empirických informáciách, t.j. vzory, ktoré sa plnia „v priemere“. V skutočnosti sa sociológia zaoberá štúdiom „priemerného človeka“. Okrem toho ďalším dôležitým účelom používania pravdepodobnostných a štatistických metód v sociológii je posúdenie spoľahlivosti vzorky. Aká je miera istoty, že vzorka poskytuje viac alebo menej presné výsledky a aká je chyba štatistických záverov?

Hlavným predmetom štúdia pri aplikácii pravdepodobnostných a štatistických metód je náhodné premenné. Prijatie náhodnej premennej na nejakú hodnotu je náhodná udalosť– udalosť, ktorá pri splnení týchto podmienok môže, ale nemusí nastať. Napríklad, ak sociológ vykonáva prieskumy v oblasti politických preferencií na mestskej ulici, potom udalosť „ďalší respondent sa ukáže ako prívrženec strany pri moci“ je náhodná, ak nič v respondentovi predtým neodhalilo jeho politické preferencie. . Ak sociológ robil rozhovor s respondentom v blízkosti budovy Krajskej dumy, tak udalosť už nie je náhodná. Charakterizuje sa náhodná udalosť pravdepodobnosť jeho ofenzíva. Na rozdiel od klasických problémov týkajúcich sa kombinácií kociek a kariet vyučovaných v kurzoch pravdepodobnosti, v sociologickom výskume nie je výpočet pravdepodobnosti taký jednoduchý.

Najdôležitejším základom pre empirické hodnotenie pravdepodobnosti je tendencia frekvencie k pravdepodobnosti, ak frekvenciou rozumieme pomer, koľkokrát sa udalosť vyskytla a koľkokrát sa teoreticky mohla vyskytnúť. Ak sa napríklad spomedzi 500 respondentov náhodne vybraných v uliciach mesta ukázalo, že 220 sú priaznivci strany pri moci, potom je frekvencia výskytu takýchto respondentov 0,44. Kedy reprezentatívna vzorka dostatočne veľkej veľkosti dostaneme približnú pravdepodobnosť udalosti alebo približný podiel ľudí, ktorí majú danú vlastnosť. V našom príklade s dobre vybranou vzorkou zistíme, že približne 44 % občanov sú priaznivci strany pri moci. Samozrejme, keďže neboli opýtaní všetci občania a niektorí mohli počas prieskumu klamať, je tu určitá chyba.

Uvažujme o niektorých problémoch, ktoré vznikajú pri štatistickej analýze empirických údajov.

Odhad distribúcie magnitúdy

Ak sa dá kvantitatívne vyjadriť určitá charakteristika (napríklad politická aktivita občana ako hodnota, ktorá ukazuje, koľkokrát sa za posledných päť rokov zúčastnil na voľbách na rôznych úrovniach), potom možno stanoviť úlohu zhodnotiť distribučný zákon. tejto charakteristiky ako náhodná premenná. Inými slovami, distribučný zákon ukazuje, ktoré hodnoty má veličina častejšie a ktoré menej často a ako často/menej často. Najčastejšie sa vyskytuje v technológii a prírode av spoločnosti zákon normálneho rozdelenia. Jeho vzorec a vlastnosti sú uvedené v akejkoľvek učebnici štatistiky a na obr. 10.1 ukazuje vzhľad grafu - ide o krivku „zvončeka“, ktorá môže byť viac „roztiahnutá“ smerom nahor alebo viac „rozmazaná“ pozdĺž osi hodnôt náhodnej premennej. Podstatou normálneho zákona je, že náhodná premenná najčastejšie nadobúda hodnoty blízke nejakej „centrálnej“ hodnote, tzv matematické očakávanie a čím ďalej od neho, tým menej často sa tam hodnota „dostane“.

Existuje mnoho príkladov distribúcií, ktoré možno akceptovať ako normálne s malou chybou. Späť v 19. storočí. Belgický vedec A. Quetelet a Angličan F. Galton dokázali, že frekvenčné rozdelenie akéhokoľvek demografického alebo antropometrického ukazovateľa (priemerná dĺžka života, výška, vek pri sobáši atď.) je charakterizované „zvonovým“ rozložením. Ten istý F. Galton a jeho nasledovníci dokázali, že psychologické vlastnosti, napríklad schopnosti, sa riadia normálnym zákonom.

Ryža. 10.1.

Príklad

Najvýraznejší príklad normálneho rozdelenia v sociológii sa týka sociálnej aktivity ľudí. Podľa zákona normálneho rozdelenia sa ukazuje, že sociálne aktívnych ľudí v spoločnosti je zvyčajne okolo 5–7 %. Všetci títo spoločensky aktívni ľudia chodia na mítingy, konferencie, semináre atď. Približne rovnaký počet je úplne vylúčených z účasti na spoločenskom živote. Zdá sa, že väčšina ľudí (80–90 %) je k politike a verejnému životu ľahostajná, no sledujú procesy, ktoré ich zaujímajú, hoci vo všeobecnosti majú k politike a spoločnosti odstup a nevykazujú výraznú aktivitu. Takíto ľudia minú väčšinu politických udalostí, no občas si pozrú správy v televízii alebo na internete. Chodia voliť aj v najdôležitejších voľbách, najmä ak im „hrozia palicou“ alebo „povzbudzujú mrkvou“. Členovia z týchto 80 – 90 % sú jednotlivo zo sociálno-politického hľadiska takmer zbytoční, no sociologické výskumné centrá sa o týchto ľudí dosť zaujímajú, keďže ich je veľa a ich preferencie nemožno ignorovať. To isté platí pre pseudovedecké organizácie, ktoré vykonávajú výskum na objednávku politikov alebo obchodných korporácií. A názor „šedých más“ na kľúčové otázky súvisiace s predpovedaním správania mnohých tisícov a miliónov ľudí vo voľbách, ako aj počas akútnych politických udalostí, počas rozkolu v spoločnosti a konfliktov medzi rôznymi politickými silami, nie je ľahostajný. do týchto centier.

Samozrejme, nie všetky hodnoty sú rozdelené podľa normálneho rozdelenia. Okrem toho sú najdôležitejšie v matematickej štatistike binomické a exponenciálne distribúcie, Fisherovo-Snedecorove, Chi-kvadrát a Studentove distribúcie.

Hodnotenie vzťahu znakov

Najjednoduchší prípad je, keď jednoducho potrebujete nadviazať prítomnosť/neprítomnosť spojenia. Najpopulárnejšou metódou v tomto smere je metóda Chi-kvadrát. Táto metóda je zameraná na prácu s kategorickými údajmi. Ide napríklad jednoznačne o pohlavie a rodinný stav. Niektoré údaje sa na prvý pohľad zdajú byť číselné, ale môžu sa „premeniť“ na kategorické údaje rozdelením rozsahu hodnôt do niekoľkých malých intervalov. Napríklad prax v továrni môže byť kategorizovaná ako menej ako jeden rok, jeden až tri roky, tri až šesť rokov a viac ako šesť rokov.

Nechajte parameter X k dispozícii P možné hodnoty: (x1,..., X r1) a parameter Y-t možné hodnoty: (y1,..., pri T) , q ij je pozorovaná frekvencia výskytu páru ( X ja, pri j), t.j. počet zistených výskytov takéhoto páru. Vypočítame teoretické početnosti, t.j. koľkokrát by sa mala objaviť každá dvojica hodnôt pre absolútne nesúvisiace množstvá:

Na základe pozorovaných a teoretických frekvencií vypočítame hodnotu

Musíte tiež vypočítať sumu stupne slobody podľa vzorca

Kde m, n– počet tabuľkových kategórií. Okrem toho si vyberáme úroveň významnosti. Čím vyššie spoľahlivosť chceme získať, tým nižšiu hladinu významnosti treba brať. Zvyčajne sa zvolí hodnota 0,05, čo znamená, že výsledkom môžeme dôverovať s pravdepodobnosťou 0,95. Ďalej v referenčných tabuľkách nájdeme kritickú hodnotu podľa počtu stupňov voľnosti a hladiny významnosti. Ak , tak parametre X A Y sú považované za nezávislé. Ak , tak parametre X A Y – závislý. Ak, potom je nebezpečné vyvodzovať závery o závislosti alebo nezávislosti parametrov. V druhom prípade sa odporúča vykonať ďalší výskum.

Všimnite si tiež, že chí-kvadrát test možno použiť s veľmi vysokou spoľahlivosťou iba vtedy, keď všetky teoretické frekvencie nie sú pod danou prahovou hodnotou, ktorá sa zvyčajne považuje za 5. Nech v je minimálna teoretická frekvencia. Pre v > 5 možno s istotou použiť test chí-kvadrát. Na v< 5 использование критерия становится нежелательным. При v ≥ 5 вопрос остается открытым, требуется дополнительное исследование о применимости критерия "Хи-квадрат".

Uveďme príklad použitia metódy Chí-kvadrát. Nech sa napríklad v istom meste uskutočnil prieskum medzi mladými fanúšikmi miestnych futbalových tímov a získali sa nasledujúce výsledky (tabuľka 10.1).

Predložme hypotézu o nezávislosti futbalových preferencií mestskej mládeže N od pohlavia respondenta na štandardnej hladine významnosti 0,05. Vypočítame teoretické početnosti (tabuľka 10.2).

Tabuľka 10.1

Výsledky prieskumu fanúšikov

Tabuľka 10.2

Teoretické preferenčné frekvencie

Napríklad teoretická frekvencia pre mládežníckych fanúšikov Zvezdy sa získa ako

podobne - ďalšie teoretické frekvencie. Ďalej vypočítame hodnotu Chí-kvadrát:

Určíme počet stupňov voľnosti. Pre a hladinu významnosti 0,05 hľadáme kritickú hodnotu:

Keďže, a prevaha je významná, môžeme takmer s istotou povedať, že futbalové preferencie chlapcov a dievčat v meste N sa značne líšia, okrem prípadu nereprezentatívnej vzorky, napríklad ak výskumník nezískal vzorku z rôznych častí mesta, pričom sa obmedzil na rozhovory s respondentmi vo vlastnom bloku.

Zložitejšia situácia je, keď potrebujete vyčísliť silu spojenia. V tomto prípade sa často používajú metódy korelačná analýza. O týchto metódach sa zvyčajne diskutuje v pokročilých kurzoch matematickej štatistiky.

Aproximácia závislostí pomocou bodových údajov

Nech existuje množina bodov - empirické údaje ( X ja, Yi), i = 1, ..., P. Je potrebné aproximovať skutočnú závislosť parametra pri z parametra X, a tiež vypracovať pravidlo na výpočet hodnoty y, Kedy X sa nachádza medzi dvoma "uzlami" Xi.

Existujú dva zásadne odlišné prístupy k riešeniu problému. Prvým je, že medzi funkciami danej rodiny (napríklad polynómy) sa vyberie funkcia, ktorej graf prechádza existujúcimi bodmi. Druhý prístup „nenúti“ graf funkcie prechádzať cez body. Najpopulárnejšou metódou v sociológii a mnohých ďalších vedách je metóda najmenších štvorcov– patrí do druhej skupiny metód.

Podstata metódy najmenších štvorcov je nasledovná. Daná skupina funkcií pri(x, a 1, ..., A t) s m neisté koeficienty. Je potrebné zvoliť neisté koeficienty riešením optimalizačného problému

Minimálna hodnota funkcie d môže slúžiť ako miera presnosti aproximácie. Ak je táto hodnota príliš vysoká, mala by sa zvoliť iná funkčná trieda pri alebo rozšíriť použitú triedu. Napríklad, ak trieda „polynómy stupňa nie vyššieho ako 3“ neposkytovala prijateľnú presnosť, berieme triedu „polynómy stupňa nie vyššieho ako 4“ alebo dokonca „polynómy stupňa nie vyššieho ako 5“.

Najčastejšie sa metóda používa pre rodinu „polynómov stupňa nie vyššieho ako N":

Napríklad kedy N= 1 je rodina lineárnych funkcií s N = 2 – rodina lineárnych a kvadratických funkcií, s N = 3 – rodina lineárnych, kvadratických a kubických funkcií. Nechaj

Potom koeficienty lineárnej funkcie ( N= 1) sa hľadajú ako riešenie sústavy lineárnych rovníc

Koeficienty funkcie tvaru A 0 + a 1x + a 2X 2 (N= 2) sa hľadajú ako riešenie systému

Tí, ktorí chcú použiť túto metódu na ľubovoľnú hodnotu N môže to urobiť tak, že uvidí vzorec, podľa ktorého sú dané sústavy rovníc zostavené.

Uveďme príklad použitia metódy najmenších štvorcov. Nech sa číslo určitej politickej strany zmení takto:

Je možné poznamenať, že zmeny veľkosti strany v priebehu rôznych rokov nie sú veľmi odlišné, čo nám umožňuje aproximovať závislosť lineárnou funkciou. Na uľahčenie výpočtu namiesto premennej X– rok – zaviesť premennú t = x – 2010, t.j. Zoberme si prvý rok počítania ako „nulu“. Počítame M 1; M 2:

Teraz vypočítame M", M*:

Odds a 0, a 1 funkcie y = a 0t + A 1 sú vypočítané ako riešenie sústavy rovníc

Vyriešením tohto systému, napríklad pomocou Cramerovho pravidla alebo substitučnej metódy, dostaneme: A 0 = 11,12; A 1 = 3,03. Takto získame aproximáciu

čo vám umožňuje nielen pracovať s jednou funkciou namiesto súboru empirických bodov, ale aj vypočítať funkčné hodnoty, ktoré presahujú hranice počiatočných údajov - „predpovedať budúcnosť“.

Všimnite si tiež, že metódu najmenších štvorcov možno použiť nielen pre polynómy, ale aj pre iné rodiny funkcií, napríklad pre logaritmy a exponenciály:

Stupeň spoľahlivosti modelu skonštruovaného pomocou metódy najmenších štvorcov možno určiť na základe miery R alebo koeficientu determinácie. Počíta sa ako

Tu . Bližšie R 2 až 1, tým je model adekvátnejší.

Detekcia odľahlých hodnôt

Odľahlá hodnota radu údajov je anomálna hodnota, ktorá výrazne vyniká vo všeobecnej vzorke alebo vo všeobecnom rade. Nech je napríklad percento občanov krajiny, ktorí majú pozitívny vzťah k určitému politikovi, v rokoch 2008–2013. v uvedenom poradí 15, 16, 12, 30, 14 a 12 %. Je ľahké si všimnúť, že jedna z hodnôt sa výrazne líši od všetkých ostatných. V roku 2011 rating politika z nejakého dôvodu prudko prekročil obvyklé hodnoty, ktoré sa pohybovali v rozmedzí 12–16 %. Prítomnosť emisií môže byť spôsobená rôznymi dôvodmi:

  • 1)chyby merania;
  • 2) neobvyklý charakter vstupných údajov(napríklad, keď sa analyzuje priemerné percento hlasov získaných politikom; táto hodnota vo volebnej miestnosti vo vojenskom útvare sa môže výrazne líšiť od priemernej hodnoty v meste);
  • 3) dôsledok zákona(hodnoty, ktoré sa výrazne líšia od zvyšku, môžu byť určené matematickým zákonom - napríklad v prípade normálneho rozdelenia môže byť do vzorky zahrnutý objekt s hodnotou výrazne odlišnou od priemeru);
  • 4) katastrofy(napríklad počas obdobia krátkej, ale akútnej politickej konfrontácie sa úroveň politickej aktivity obyvateľstva môže dramaticky zmeniť, ako sa to stalo počas „farebných revolúcií“ v rokoch 2000–2005 a „arabskej jari“ v roku 2011);
  • 5) kontrolné akcie(ak napríklad v roku pred štúdiom urobil politik veľmi populárne rozhodnutie, tak v tomto roku môže byť jeho hodnotenie výrazne vyššie ako po iné roky).

Mnohé metódy analýzy údajov nie sú odolné voči odľahlým hodnotám, takže na ich efektívne využitie musia byť údaje očistené od odľahlých hodnôt. Pozoruhodným príkladom nestabilnej metódy je metóda najmenších štvorcov uvedená vyššie. Najjednoduchšia metóda na vyhľadávanie odľahlých hodnôt je založená na tzv medzikvartilná vzdialenosť. Určenie rozsahu

Kde Q m význam T- kvartil. Ak niektorý člen série nespadá do rozsahu, potom sa považuje za odľahlú hodnotu.

Vysvetlíme si to na príklade. Význam kvartilov je, že rozdeľujú sériu do štyroch rovnakých alebo približne rovnakých skupín: prvý kvartil „oddeľuje“ ľavú štvrtinu radu, zoradený vzostupne, tretí kvartil oddeľuje pravú štvrtinu radu, druhý kvartil beží v strede. Poďme si vysvetliť, ako hľadať Q 1, a Q 3. Vložte číselný rad zoradený vzostupne P hodnoty. Ak n + 1 je teda bezo zvyšku deliteľné 4 Q k podstate k(P+ 1)/4. termín série. Napríklad vzhľadom na sériu: 1, 2, 5, 6, 7, 8, 10, 11, 13, 15, 20, tu je počet výrazov n = 11. Potom ( P+ 1)/4 = 3, t.j. prvý kvartil Q 1 = 5 – tretí termín série; 3( n + 1)/4 = 9, t.j. tretí kvartil Q:i= 13 – deviaty člen série.

Prípad je trochu komplikovanejší, keď n + 1 nie je násobkom 4. Napríklad vzhľadom na sériu 2, 3, 5, 6, 7, 8, 9, 30, 32, 100, kde je počet členov P= 10. Potom ( P + 1)/4 = 2,75 -

pozíciu medzi druhým členom radu (v2 = 3) a tretím členom radu (v3 = 5). Potom vezmeme hodnotu 0,75v2 + 0,25v3 = 0,75 3 + 0,25 5 = 3,5 - to bude Q 1. 3(P+ 1)/4 = 8,25 – pozícia medzi ôsmym členom radu (v8= 30) a deviatym členom radu (v9=32). Berieme hodnotu 0,25v8 + 0,75v9 = 0,25 30 + + 0,75 32 = 31,5 - to bude Q 3. Existujú ďalšie možnosti výpočtu Q 1 a Q 3, ale odporúča sa použiť tu uvedenú možnosť.

  • Prísne vzaté, v praxi sa zvyčajne stretávame s „približne“ normálnym zákonom – keďže normálny zákon je definovaný pre spojitú veličinu pozdĺž celej reálnej osi, mnohé reálne veličiny nemôžu striktne spĺňať vlastnosti normálne rozdelených veličín.
  • Nasledov A. D. Matematické metódy psychologického výskumu. Analýza a interpretácia údajov: učebnica, príručka. Petrohrad: Rech, 2004. s. 49–51.
  • Najdôležitejšie rozdelenia náhodných premenných nájdete napríklad: Orlov A.I. Matematika náhody: pravdepodobnosť a štatistika - základné fakty: učebnica. príspevok. M.: MZ-Press, 2004.

Zvlášť zaujímavé je kvantitatívne hodnotenie podnikateľského rizika pomocou metód matematickej štatistiky. Hlavnými nástrojmi tejto metódy hodnotenia sú:

§ pravdepodobnosť výskytu náhodnej premennej,

§ matematické očakávanie alebo priemerná hodnota skúmanej náhodnej premennej,

§ rozptyl,

§ štandardná (priemerná štvorcová) odchýlka,

§ variačný koeficient ,

§ rozdelenie pravdepodobnosti skúmanej náhodnej premennej.

Aby ste sa mohli rozhodnúť, potrebujete poznať veľkosť (stupeň) rizika, ktoré sa meria podľa dvoch kritérií:

1) priemerná očakávaná hodnota (matematické očakávanie),

2) kolísanie (variabilita) možného výsledku.

Priemerná očakávaná hodnota toto je vážený priemer náhodnej premennej, ktorý je spojený s neistotou situácie:

,

kde je hodnota náhodnej premennej.

Priemerná očakávaná hodnota meria výsledok, ktorý v priemere očakávame.

Priemerná hodnota je zovšeobecnená kvalitatívna charakteristika a neumožňuje rozhodnúť v prospech žiadnej konkrétnej hodnoty náhodnej premennej.

Na rozhodnutie je potrebné merať výkyvy ukazovateľov, teda určiť mieru variability možného výsledku.

Odchýlka možného výsledku je miera, do akej sa očakávaná hodnota odchyľuje od priemernej hodnoty.

Na tento účel sa v praxi zvyčajne používajú dve úzko súvisiace kritériá: „rozptyl“ a „štandardná odchýlka“.

Disperzia – vážený priemer druhých mocnín skutočných výsledkov od očakávaného priemeru:

Smerodajná odchýlka je druhá odmocnina z rozptylu. Je to rozmerová veličina a meria sa v rovnakých jednotkách, v ktorých sa meria skúmaná náhodná premenná:

.

Rozptyl a štandardná odchýlka poskytujú mieru absolútnej variácie. Na analýzu sa zvyčajne používa variačný koeficient.

Variačný koeficient predstavuje pomer štandardnej odchýlky k priemernej očakávanej hodnote vynásobený 100 %

alebo .

Variačný koeficient nie je ovplyvnený absolútnymi hodnotami študovaného ukazovateľa.

Pomocou variačného koeficientu môžete dokonca porovnávať výkyvy charakteristík vyjadrené v rôznych merných jednotkách. Variačný koeficient sa môže meniť od 0 do 100 %. Čím vyšší je koeficient, tým väčšie sú výkyvy.


V ekonomickej štatistike sa stanovuje nasledujúce hodnotenie rôznych hodnôt variačného koeficientu:

do 10 % - slabé kolísanie, 10 – 25 % - stredné, nad 25 % - vysoké.

V súlade s tým, čím vyššie sú výkyvy, tým väčšie je riziko.

Príklad. Majiteľ malého obchodu na začiatku každého dňa kúpi na predaj nejaký tovar podliehajúci skaze. Jednotka tohto produktu stojí 200 UAH. Predajná cena - 300 UAH. za jednotku. Z pozorovaní je známe, že dopyt po tomto produkte počas dňa môže byť 4, 5, 6 alebo 7 jednotiek so zodpovedajúcimi pravdepodobnosťami 0,1; 0,3; 0,5; 0,1. Ak sa produkt nepredá počas dňa, potom sa na konci dňa vždy kúpi za cenu 150 UAH. za jednotku. Koľko jednotiek tohto produktu by si mal majiteľ obchodu kúpiť na začiatku dňa?

Riešenie. Zostavme ziskovú maticu pre majiteľa obchodu. Vypočítajme zisk, ktorý majiteľ získa, ak napríklad nakúpi 7 jednotiek produktu a predá jednu jednotku počas 6. dňa a na konci dňa. Každá jednotka produktu predaná počas dňa prináša zisk 100 UAH a na konci dňa - stratu 200 - 150 = 50 UAH. Zisk v tomto prípade teda bude:

Výpočty sa vykonávajú podobne pre iné kombinácie ponuky a dopytu.

Očakávaný zisk sa vypočíta ako matematické očakávanie možných hodnôt zisku pre každý riadok vytvorenej matice, berúc do úvahy zodpovedajúce pravdepodobnosti. Ako vidíte, medzi očakávanými ziskami je najväčší 525 UAH. Zodpovedá nákupu predmetného produktu v množstve 6 jednotiek.

Aby sme zdôvodnili konečné odporúčanie na nákup požadovaného počtu jednotiek produktu, vypočítame rozptyl, smerodajnú odchýlku a variačný koeficient pre každú možnú kombináciu ponuky a dopytu po produkte (každý riadok matice zisku):

400 0,1 40 16000
400 0,3 120 48000
400 0,5 200 80000
400 0,1 40 16000
1,0 400 160000
350 0,1 35 12250
500 0,3 150 75000
500 0,5 250 125000
500 0,1 50 25000
1,0 485 2372500
300 0,1 30 9000
450 0,3 135 60750
600 0,5 300 180000
600 0,1 60 36000
1,0 525 285750

Pokiaľ ide o majiteľa predajne, ktorý kupuje 6 jednotiek produktu v porovnaní s 5 a 4 jednotkami, nie je to zrejmé, pretože riziko pri nákupe 6 jednotiek produktu (19,2 %) je väčšie ako pri nákupe 5 jednotiek (9,3 %) a ešte vyššie ako pri nákupe 4 jednotiek (0 %).

Máme tak všetky informácie o očakávaných ziskoch a rizikách. A majiteľ obchodu rozhoduje o tom, koľko jednotiek produktu musí každé ráno kúpiť, pričom zohľadňuje svoje skúsenosti a chuť riskovať.

Podľa nášho názoru by sa malo majiteľovi obchodu odporučiť, aby si každé ráno zakúpil 5 kusov produktu a jeho priemerný očakávaný zisk bude 485 UAH. a ak to porovnáte s nákupom 6 jednotiek produktu, pri ktorom je priemerný očakávaný zisk 525 UAH, čo je 40 UAH. viac, ale riziko v tomto prípade bude 2,06-krát väčšie.