Méthodes probabilistes et statistiques de modélisation des systèmes économiques. Méthodes probabilistes et statistiques de prise de décision Fréquences théoriques des préférences

3. L'essence des méthodes probabilistes-statistiques

Comment les approches, les idées et les résultats de la théorie des probabilités et des statistiques mathématiques sont-ils utilisés lors du traitement des données - les résultats d'observations, de mesures, de tests, d'analyses, d'expériences afin de prendre des décisions pratiquement importantes ?

La base est un modèle probabiliste d'un phénomène ou d'un processus réel, c'est-à-dire un modèle mathématique dans lequel les relations objectives sont exprimées en termes de théorie des probabilités. Les probabilités sont principalement utilisées pour décrire les incertitudes dont il faut tenir compte lors de la prise de décision. Il s’agit à la fois d’opportunités indésirables (risques) et d’opportunités attractives (« chance chanceuse »). Parfois, le hasard est délibérément introduit dans une situation, par exemple lors du tirage au sort, de la sélection aléatoire d'unités à contrôler, de l'organisation de loteries ou d'enquêtes auprès des consommateurs.

La théorie des probabilités permet d’utiliser une probabilité pour en calculer d’autres qui intéressent le chercheur. Par exemple, en utilisant la probabilité d'obtenir des armoiries, vous pouvez calculer la probabilité qu'en 10 lancers de pièces, vous obteniez au moins 3 armoiries. Un tel calcul est basé sur un modèle probabiliste, selon lequel les tirages au sort sont décrits par un modèle d'essais indépendants ; de plus, les armoiries et les hachures sont également possibles, et donc la probabilité de chacun de ces événements est égale. à ½. Un modèle plus complexe envisage de vérifier la qualité d’une unité de production au lieu de tirer à pile ou face. Le modèle probabiliste correspondant repose sur l'hypothèse que le contrôle qualité des différentes unités de production est décrit par un programme de tests indépendant. Contrairement au modèle du tirage au sort, il est nécessaire d'introduire un nouveau paramètre - la probabilité R. que le produit est défectueux. Le modèle sera entièrement décrit si l’on suppose que toutes les unités de production ont la même probabilité d’être défectueuses. Si la dernière hypothèse est incorrecte, le nombre de paramètres du modèle augmente. Par exemple, vous pouvez supposer que chaque unité de production a sa propre probabilité d’être défectueuse.

Discutons d'un modèle de contrôle qualité avec une probabilité de défectuosité commune à toutes les unités de production R.. Afin « d’accéder au chiffre » lors de l’analyse du modèle, il est nécessaire de remplacer R.à une valeur spécifique. Pour ce faire, il faut dépasser le modèle probabiliste et se tourner vers les données obtenues lors du contrôle qualité. Les statistiques mathématiques résolvent le problème inverse par rapport à la théorie des probabilités. Son objectif est, à partir des résultats d'observations (mesures, analyses, tests, expérimentations), d'obtenir des conclusions sur les probabilités qui sous-tendent le modèle probabiliste. Par exemple, sur la base de la fréquence d'apparition de produits défectueux lors de l'inspection, des conclusions peuvent être tirées sur la probabilité de défectuosité (voir la discussion ci-dessus en utilisant le théorème de Bernoulli). Sur la base de l’inégalité de Chebyshev, des conclusions ont été tirées sur la correspondance de la fréquence d’apparition de produits défectueux avec l’hypothèse selon laquelle la probabilité de défectuosité prend une certaine valeur.

Ainsi, l’application des statistiques mathématiques repose sur un modèle probabiliste d’un phénomène ou d’un processus. Deux séries parallèles de concepts sont utilisées : ceux liés à la théorie (modèle probabiliste) et ceux liés à la pratique (échantillonnage des résultats d'observation). Par exemple, la probabilité théorique correspond à la fréquence trouvée dans l'échantillon. L'espérance mathématique (série théorique) correspond à la moyenne arithmétique de l'échantillon (série pratique). En règle générale, les caractéristiques de l’échantillon sont des estimations théoriques. Dans le même temps, les quantités liées aux séries théoriques « sont dans la tête des chercheurs », se rapportent au monde des idées (selon l'ancien philosophe grec Platon) et ne sont pas disponibles pour une mesure directe. Les chercheurs ne disposent que d’échantillons de données avec lesquels ils tentent d’établir les propriétés d’un modèle probabiliste théorique qui les intéressent.

Pourquoi avons-nous besoin d’un modèle probabiliste ? Le fait est que ce n'est qu'avec son aide que les propriétés établies à partir de l'analyse d'un échantillon spécifique peuvent être transférées à d'autres échantillons, ainsi qu'à l'ensemble de la population dite générale. Le terme « population » est utilisé pour désigner un ensemble vaste mais limité d’unités étudiées. Par exemple, à propos de la totalité de tous les résidents de Russie ou de la totalité de tous les consommateurs de café instantané à Moscou. Le but des enquêtes marketing ou sociologiques est de transférer les déclarations obtenues à partir d'un échantillon de centaines ou de milliers de personnes à des populations de plusieurs millions de personnes. En contrôle qualité, un lot de produits agit comme une population générale.

Pour transférer les conclusions d'un échantillon à une population plus large, il faut certaines hypothèses sur la relation entre les caractéristiques de l'échantillon et les caractéristiques de cette population plus large. Ces hypothèses sont basées sur un modèle probabiliste approprié.

Bien entendu, il est possible de traiter des échantillons de données sans utiliser l’un ou l’autre modèle probabiliste. Par exemple, vous pouvez calculer un échantillon de moyenne arithmétique, compter la fréquence de réalisation de certaines conditions, etc. Cependant, les résultats du calcul ne concerneront qu'un échantillon spécifique ; il est incorrect de transférer les conclusions obtenues avec leur aide à toute autre population. Cette activité est parfois appelée « analyse de données ». Par rapport aux méthodes statistiques probabilistes, l’analyse des données a une valeur pédagogique limitée.

Ainsi, l'utilisation de modèles probabilistes basés sur l'estimation et le test d'hypothèses utilisant les caractéristiques d'un échantillon est l'essence même des méthodes probabilistes et statistiques de prise de décision.

Nous soulignons que la logique d'utilisation des caractéristiques de l'échantillon pour prendre des décisions basées sur des modèles théoriques implique l'utilisation simultanée de deux séries parallèles de concepts, dont l'une correspond aux modèles probabilistes et la seconde aux données d'échantillonnage. Malheureusement, dans un certain nombre de sources littéraires, généralement obsolètes ou rédigées dans un esprit de recette, aucune distinction n'est faite entre les caractéristiques de l'échantillon et les caractéristiques théoriques, ce qui conduit les lecteurs à la confusion et aux erreurs dans l'utilisation pratique des méthodes statistiques.

Précédent

Dans de nombreux cas, en science minière, il est nécessaire d’étudier non seulement les processus déterministes, mais aussi les processus aléatoires. Tous les processus géomécaniques se produisent dans des conditions en constante évolution, lorsque certains événements peuvent se produire ou non. Dans ce cas, il devient nécessaire d’analyser les connexions aléatoires.

Malgré la nature aléatoire des événements, ils sont soumis à certains schémas, discutés dans théorie des probabilités , qui étudie les distributions théoriques des variables aléatoires et leurs caractéristiques. Une autre science, appelée statistique mathématique, traite des méthodes de traitement et d'analyse d'événements empiriques aléatoires. Ces deux sciences liées constituent une théorie mathématique unifiée des processus aléatoires de masse, largement utilisée dans la recherche scientifique.

Éléments de théorie des probabilités et de statistiques mathématiques. Sous totalité comprendre l'ensemble des événements homogènes d'une variable aléatoire X, qui constitue le principal matériel statistique. La population peut être générale (grand échantillon N), contenant une grande variété d'options pour un phénomène de masse, et sélectif (petit échantillon N 1), qui ne représente qu’une partie de la population générale.

Probabilité R.(X) événements X appelé le rapport du nombre de cas N(X) qui conduisent à la survenance d'un événement X, au nombre total de cas possibles N:

En statistiques mathématiques, un analogue de la probabilité est le concept de fréquence des événements, qui est le rapport du nombre de cas dans lesquels l'événement s'est produit au nombre total d'événements :

Avec une augmentation illimitée du nombre d'événements, la fréquence tend vers la probabilité R.(X).



Supposons que certaines données statistiques soient présentées sous la forme d'une série de distribution (histogramme) sur la figure. 4.11, alors la fréquence caractérise la probabilité qu'une variable aléatoire apparaisse dans l'intervalle і , et la courbe lisse est appelée fonction de distribution.

La probabilité d'une variable aléatoire est une évaluation quantitative de la possibilité de son apparition. Un événement fiable a R.=1, événement impossible – R.=0. Donc pour un événement aléatoire, et la somme des probabilités de toutes les valeurs possibles.

En recherche, il ne suffit pas d’avoir une courbe de distribution, mais il faut aussi connaître ses caractéristiques :

a) moyenne arithmétique – ; (4.53)

b) portée – R.= X maximum – X min , qui peut être utilisé pour estimer approximativement la variation des événements, où X maximum et X min – valeurs extrêmes de la valeur mesurée ;

c) espérance mathématique – . (4.54)

Pour les variables aléatoires continues, l'espérance mathématique s'écrit sous la forme

, (4.55)

ceux. égale à la valeur réelle des événements observés X, et l'abscisse correspondant à l'espérance est appelée centre de la distribution.

d) dispersion – , (4.56)

qui caractérise la dispersion d'une variable aléatoire par rapport à l'espérance mathématique. La variance d’une variable aléatoire est également appelée moment central du second ordre.

Pour une variable aléatoire continue, la variance est égale à

; (4.57)

e) écart type ou standard –

e) coefficient de variation (dispersion relative) –

, (4.59)

qui caractérise l'intensité de la diffusion dans différentes populations et permet de les comparer.

L'aire sous la courbe de distribution correspond à l'unité, ce qui signifie que la courbe couvre toutes les valeurs des variables aléatoires. Cependant, un grand nombre de ces courbes qui auront une aire égale à l'unité peuvent être construites, c'est-à-dire ils peuvent avoir une diffusion différente. La mesure de la dispersion est la dispersion ou l'écart type (Fig. 4.12).


Nous avons examiné ci-dessus les principales caractéristiques de la courbe de distribution théorique, qui sont analysées par la théorie des probabilités. En statistique, ils fonctionnent avec des distributions empiriques, et la tâche principale des statistiques est la sélection de courbes théoriques selon la loi de distribution empirique existante.

Supposons qu'une série variationnelle soit obtenue à la suite de n mesures d'une variable aléatoire X 1 , X 2 , X 3 , …xn. Le traitement de telles séries se réduit aux opérations suivantes :

- groupe x je dans l'intervalle et définir des fréquences absolues et relatives pour chacun d'eux ;

– un histogramme par étapes est construit sur la base des valeurs (Fig. 4.11) ;

– calculer les caractéristiques de la courbe de distribution empirique : moyenne arithmétique, variance D= ; écart-type.

Valeurs D Et s la distribution empirique correspond aux valeurs, D(X) Et s(X) répartition théorique.



Regardons les courbes de distribution théoriques de base. Le plus souvent en recherche, on utilise la loi de distribution normale (Fig. 4.13), dont l'équation a la forme :

(4.60)

Si vous combinez l'axe de coordonnées avec le point m, c'est à dire. accepter m(X)=0 et acceptez , la loi de distribution normale sera décrite par une équation plus simple :

Pour estimer la diffusion, la quantité est généralement utilisée . Le moins s, moins il y a de diffusion, c'est-à-dire les observations diffèrent peu les unes des autres. Avec augmentation s la diffusion augmente, la probabilité d'erreurs augmente et le maximum de la courbe (ordonnée), égal à , diminue. Donc la valeur à=1/ à 1 est appelé une mesure de précision. Les écarts types correspondent aux points d'inflexion (zone ombrée sur la Fig. 4.12) de la courbe de distribution.

Lors de l'analyse de nombreux processus discrets aléatoires, la distribution de Poisson (événements à court terme se produisant par unité de temps) est utilisée. Probabilité d'occurrence d'un certain nombre d'événements rares X=1, 2, ... pour une période de temps donnée est exprimé par la loi de Poisson (voir Fig. 4.14) :

, (4.62)

X– nombre d’événements pour une période de temps donnée t;

λ – la densité, c'est-à-dire nombre moyen d'événements par unité de temps ;

– nombre moyen d’événements au fil du temps t;

Pour la loi de Poisson, la variance est égale à l'espérance mathématique du nombre d'occurrences d'événements dans le temps t, c'est à dire. .

Pour étudier les caractéristiques quantitatives de certains processus (temps de pannes machines, etc.), une loi de distribution exponentielle est utilisée (Fig. 4.15), dont la densité de distribution est exprimée par la dépendance

λ – l'intensité (nombre moyen) d'événements par unité de temps.

Dans la distribution exponentielle, l'intensité λ est l'inverse de l'espérance mathématique λ = 1/m(X). De plus, la relation est valide.

La loi de distribution de Weibull est largement utilisée dans divers domaines de recherche (Fig. 4.16) :

, (4.64)

n, μ , – les paramètres de la loi ; X– dispute, le plus souvent du temps.

Lors de l'étude des processus associés à une diminution progressive des paramètres (diminution de la résistance des roches dans le temps, etc.), la loi de distribution gamma est appliquée (Fig. 4.17) :

, (4.65)

λ , un- options. Si un=1, la fonction gamma se transforme en loi exponentielle.

En plus des lois ci-dessus, d'autres types de distributions sont également utilisés : Pearson, Rayleigh, distribution bêta, etc.

Analyse de variance. En recherche, la question se pose souvent : dans quelle mesure tel ou tel facteur aléatoire influence-t-il le processus étudié ? Les méthodes permettant d'établir les principaux facteurs et leur influence sur le processus étudié sont discutées dans une section spéciale de la théorie des probabilités et des statistiques mathématiques - l'analyse de la variance. Il existe une distinction entre l'analyse unifactorielle et l'analyse multifactorielle. L'analyse de la variance repose sur l'utilisation de la loi de distribution normale et sur l'hypothèse que les centres des distributions normales des variables aléatoires sont égaux. Par conséquent, toutes les mesures peuvent être considérées comme un échantillon provenant de la même population normale.

Théorie de la fiabilité. Les méthodes de la théorie des probabilités et des statistiques mathématiques sont souvent utilisées dans la théorie de la fiabilité, largement utilisée dans diverses branches de la science et de la technologie. La fiabilité s'entend comme la propriété d'un objet à remplir des fonctions spécifiées (maintenir des indicateurs de performance établis) pendant la période de temps requise. Dans la théorie de la fiabilité, les pannes sont considérées comme des événements aléatoires. Pour une description quantitative des défaillances, des modèles mathématiques sont utilisés - fonctions de distribution des intervalles de temps (distribution normale et exponentielle, Weibull, distributions gamma). La tâche consiste à trouver les probabilités de divers indicateurs.

Méthode Monte-Carlo. Pour étudier des processus complexes de nature probabiliste, la méthode de Monte Carlo est utilisée. Grâce à cette méthode, les problèmes de recherche de la meilleure solution parmi une variété d'options envisagées sont résolus.

La méthode de Monte Carlo est également appelée méthode de modélisation statistique. Il s’agit d’une méthode numérique basée sur l’utilisation de nombres aléatoires qui simulent des processus probabilistes. La base mathématique de la méthode est la loi des grands nombres, qui se formule comme suit : avec un grand nombre de tests statistiques, la probabilité que la moyenne arithmétique d'une variable aléatoire tende vers son espérance mathématique, est égal à 1 :

, (4.64)

où ε est un petit nombre positif.

Séquence de résolution de problèmes selon la méthode de Monte Carlo :

– la collecte, le traitement et l'analyse des observations statistiques ;

– sélection des facteurs principaux et secondaires à éliminer et élaboration d'un modèle mathématique ;

– élaborer des algorithmes et résoudre des problèmes sur ordinateur.

Pour résoudre des problèmes à l'aide de la méthode de Monte Carlo, vous devez disposer d'une série statistique, connaître la loi de sa distribution, la valeur moyenne, l'espérance mathématique et l'écart type. La solution n’est efficace qu’avec l’utilisation d’un ordinateur.

Comment la théorie des probabilités et les statistiques mathématiques sont-elles utilisées ? Ces disciplines sont à la base des méthodes probabilistes et statistiques de prise de décision. Pour utiliser leur appareil mathématique, il est nécessaire d'exprimer des problèmes de prise de décision en termes de modèles probabilistes-statistiques. L'application d'une méthode de prise de décision probabiliste-statistique spécifique comprend trois étapes :

Le passage de la réalité économique, managériale, technologique à un schéma mathématique et statistique abstrait, c'est-à-dire construction d'un modèle probabiliste d'un système de contrôle, d'un processus technologique, d'une procédure de prise de décision, notamment basé sur les résultats d'un contrôle statistique, etc.

Effectuer des calculs et tirer des conclusions par des moyens purement mathématiques dans le cadre d'un modèle probabiliste ;

Interprétation de conclusions mathématiques et statistiques par rapport à une situation réelle et prise de décision appropriée (par exemple, sur la conformité ou non de la qualité du produit aux exigences établies, la nécessité d'ajuster le processus technologique, etc.), notamment, conclusions (sur la proportion d'unités de produit défectueuses dans un lot, sur la forme spécifique des lois de répartition des paramètres contrôlés du processus technologique, etc.).

Les statistiques mathématiques utilisent les concepts, les méthodes et les résultats de la théorie des probabilités. Considérons les principaux enjeux de la construction de modèles probabilistes de prise de décision dans des situations économiques, managériales, technologiques et autres. Pour l'utilisation active et correcte des documents réglementaires, techniques et pédagogiques sur les méthodes probabilistes et statistiques de prise de décision, des connaissances préalables sont nécessaires. Ainsi, il est nécessaire de savoir dans quelles conditions un document particulier doit être utilisé, quelles informations initiales sont nécessaires pour sa sélection et son application, quelles décisions doivent être prises en fonction des résultats du traitement des données, etc.

Exemples d'applications théorie des probabilités et statistiques mathématiques. Considérons plusieurs exemples où les modèles probabilistes-statistiques sont un bon outil pour résoudre les problèmes de gestion, de production, économiques et économiques nationaux. Ainsi, par exemple, dans le roman "Walking through Torment" (vol. 1) de A.N. Tolstoï, il est dit : "l'atelier produit vingt-trois pour cent de rebuts, vous vous en tenez à ce chiffre", a déclaré Strukov à Ivan Ilitch.

La question se pose de savoir comment comprendre ces mots dans la conversation des directeurs d'usine, puisqu'une unité de production ne peut pas être défectueuse à 23 %. Il peut être bon ou défectueux. Strukov voulait probablement dire qu'un lot important contient environ 23 % d'unités de production défectueuses. La question se pose alors : que signifie « approximativement » ? Que 30 unités de production testées sur 100 se révèlent défectueuses, ou sur 1 000 à 300, ou sur 100 000 à 30 000, etc., faut-il accuser Strukov de mentir ?

Ou un autre exemple. La pièce utilisée comme lot doit être « symétrique », c'est-à-dire lors du lancement, en moyenne, dans la moitié des cas, les armoiries doivent apparaître et dans la moitié des cas, un hachage (pile, chiffre). Mais que signifie « en moyenne » ? Si vous effectuez plusieurs séries de 10 lancers dans chaque série, vous rencontrerez souvent des séries dans lesquelles la pièce atterrit 4 fois sous forme d'armoiries. Pour une pièce symétrique, cela se produira dans 20,5 % des tirages. Et si après 100 000 lancers il y a 40 000 blasons, la pièce peut-elle être considérée comme symétrique ? La procédure de prise de décision est basée sur la théorie des probabilités et les statistiques mathématiques.

L’exemple en question peut ne pas paraître assez sérieux. Cependant, ce n’est pas le cas. Le tirage au sort est largement utilisé dans l'organisation d'expérimentations techniques et économiques industrielles, par exemple lors du traitement des résultats de mesure de l'indicateur de qualité (couple de frottement) des roulements en fonction de divers facteurs technologiques (influence de l'environnement de conservation, méthodes de préparation des roulements avant mesure , l'influence des charges sur les roulements pendant le processus de mesure, etc.). P.). Disons qu'il faut comparer la qualité des roulements en fonction des résultats de leur stockage dans différentes huiles de conservation, c'est-à-dire dans la composition des huiles UN Et DANS. Lors de la planification d'une telle expérience, la question se pose de savoir quels roulements doivent être placés dans l'huile de la composition UN, et lesquels - dans la composition de l'huile DANS, mais de manière à éviter toute subjectivité et à garantir l'objectivité de la décision prise.

La réponse à cette question peut être obtenue par tirage au sort. Un exemple similaire peut être donné avec le contrôle qualité de n’importe quel produit. Pour décider si le lot contrôlé de produits répond ou non aux exigences établies, un échantillon en est sélectionné. Sur la base des résultats du contrôle des échantillons, une conclusion est tirée sur l'ensemble du lot. Dans ce cas, il est très important d'éviter toute subjectivité lors de la constitution d'un échantillon, c'est-à-dire qu'il est nécessaire que chaque unité de produit du lot contrôlé ait la même probabilité d'être sélectionnée pour l'échantillon. Dans les conditions de production, la sélection des unités de produits pour l'échantillon est généralement effectuée non pas par lot, mais par des tableaux spéciaux de nombres aléatoires ou à l'aide de capteurs informatiques de nombres aléatoires.

Des problèmes similaires pour garantir l'objectivité de la comparaison se posent lors de la comparaison de divers régimes d'organisation de la production, de rémunération, lors d'appels d'offres et de concours, de sélection des candidats aux postes vacants, etc. Partout, nous avons besoin d’un tirage au sort ou de procédures similaires. Expliquons-nous avec l'exemple de l'identification des équipes les plus fortes et les deuxièmes plus fortes lors de l'organisation d'un tournoi selon le système olympique (le perdant est éliminé). Laissez l’équipe la plus forte vaincre toujours la plus faible. Il est clair que l’équipe la plus forte deviendra définitivement championne. La deuxième équipe la plus forte atteindra la finale si et seulement si elle n'a pas de match avec le futur champion avant la finale. Si un tel match est prévu, la deuxième équipe la plus forte n'atteindra pas la finale. Celui qui planifie le tournoi peut soit « éliminer » plus tôt que prévu la deuxième équipe la plus forte du tournoi, en l'opposant au leader lors de la première rencontre, soit lui assurer la deuxième place en assurant des rencontres avec les équipes les plus faibles jusqu'au final. Pour éviter toute subjectivité, un tirage au sort est effectué. Pour un tournoi à 8 équipes, la probabilité que les deux premières équipes se rencontrent en finale est de 4/7. En conséquence, avec une probabilité de 3/7, la deuxième équipe la plus forte quittera le tournoi plus tôt.

Toute mesure d'unités de produit (à l'aide d'un pied à coulisse, d'un micromètre, d'un ampèremètre, etc.) contient des erreurs. Pour savoir s'il existe des erreurs systématiques, il est nécessaire de procéder à des mesures répétées d'une unité de produit dont les caractéristiques sont connues (par exemple, un échantillon standard). Il ne faut pas oublier qu’en plus de l’erreur systématique, il existe également une erreur aléatoire.

Par conséquent, la question se pose de savoir comment déterminer à partir des résultats de mesure s'il existe une erreur systématique. Si l'on note seulement si l'erreur obtenue lors de la mesure suivante est positive ou négative, alors cette tâche peut être réduite à la précédente. En effet, comparons une mesure au lancer d’une pièce de monnaie, une erreur positive à la perte d’un blason, une erreur négative à une grille (une erreur nulle avec un nombre suffisant de divisions d’échelle ne se produit presque jamais). Vérifier alors l’absence d’erreur systématique équivaut à vérifier la symétrie de la pièce.

Le but de ces considérations est de réduire le problème de la vérification de l'absence d'erreur systématique au problème de la vérification de la symétrie d'une pièce de monnaie. Le raisonnement ci-dessus conduit à ce que l’on appelle le « critère du signe » en statistique mathématique.

Dans la régulation statistique des processus technologiques, sur la base des méthodes de statistiques mathématiques, des règles et des plans de contrôle statistique des processus sont élaborés, visant à détecter en temps opportun les problèmes dans les processus technologiques et à prendre des mesures pour les ajuster et empêcher la libération de produits qui ne le font pas. répondre aux exigences établies. Ces mesures visent à réduire les coûts de production et les pertes dues à la fourniture d'unités de mauvaise qualité. Lors du contrôle statistique d'acceptation, basé sur les méthodes des statistiques mathématiques, des plans de contrôle qualité sont élaborés en analysant des échantillons de lots de produits. La difficulté réside dans la capacité de construire correctement des modèles probabilistes-statistiques de prise de décision, sur la base desquels il est possible de répondre aux questions posées ci-dessus. En statistique mathématique, des modèles probabilistes et des méthodes de test d'hypothèses ont été développés à cet effet, notamment les hypothèses selon lesquelles la proportion d'unités de production défectueuses est égale à un certain nombre R. 0 , Par exemple, R. 0 = 0,23 (rappelez-vous les paroles de Strukov tirées du roman de A.N. Tolstoï).

Tâches d'évaluation. Dans un certain nombre de situations de gestion, de production, économiques et économiques nationales, des problèmes d'un type différent surviennent - des problèmes d'évaluation des caractéristiques et des paramètres des distributions de probabilité.

Regardons un exemple. Laissez un lot de N lampes électriques De ce lot, un échantillon de n lampes électriques Un certain nombre de questions naturelles se posent. Comment déterminer la durée de vie moyenne des lampes électriques sur la base des résultats des tests d'éléments échantillons et avec quelle précision cette caractéristique peut-elle être évaluée ? Comment la précision changera-t-elle si nous prenons un échantillon plus grand ? A quel nombre d'heures T on peut garantir qu'au moins 90 % des lampes électriques dureront T et plus d'heures ?

Supposons que lors du test d'une taille d'échantillon n les lampes électriques se sont avérées défectueuses X lampes électriques Les questions suivantes se posent alors. Quelles limites peut-on spécifier pour un nombre ? D ampoules défectueuses dans un lot, pour le niveau de défectuosité D/ N et ainsi de suite.?

Ou, lors de l'analyse statistique de la précision et de la stabilité des processus technologiques, il est nécessaire d'évaluer des indicateurs de qualité tels que la valeur moyenne du paramètre contrôlé et le degré de sa dispersion dans le processus considéré. Selon la théorie des probabilités, il est conseillé d'utiliser son espérance mathématique comme valeur moyenne d'une variable aléatoire, et la dispersion, l'écart type ou le coefficient de variation comme caractéristique statistique de l'écart. Cela soulève la question : comment estimer ces caractéristiques statistiques à partir de données d’échantillon et avec quelle précision cela peut-il être fait ? Il existe de nombreux exemples similaires qui peuvent être donnés. Ici, il était important de montrer comment la théorie des probabilités et les statistiques mathématiques peuvent être utilisées dans la gestion de la production lors de la prise de décisions dans le domaine de la gestion statistique de la qualité des produits.

Qu'est-ce que les « statistiques mathématiques » ? Les statistiques mathématiques sont comprises comme « une branche des mathématiques consacrée aux méthodes mathématiques de collecte, de systématisation, de traitement et d'interprétation de données statistiques, ainsi qu'à leur utilisation à des fins scientifiques ou pratiques. Les règles et procédures des statistiques mathématiques sont basées sur la théorie des probabilités, qui nous permet d'évaluer l'exactitude et la fiabilité des conclusions obtenues dans chaque problème sur la base du matériel statistique disponible. Dans ce cas, les données statistiques font référence à des informations sur le nombre d'objets d'une collection plus ou moins étendue qui présentent certaines caractéristiques.

En fonction du type de problèmes à résoudre, les statistiques mathématiques sont généralement divisées en trois sections : description des données, estimation et test d'hypothèses.

En fonction du type de données statistiques traitées, les statistiques mathématiques sont divisées en quatre domaines :

Statistiques univariées (statistiques de variables aléatoires), dans lesquelles le résultat d'une observation est décrit par un nombre réel ;

Analyse statistique multivariée, où le résultat de l'observation d'un objet est décrit par plusieurs nombres (vecteur) ;

Statistiques de processus aléatoires et de séries chronologiques, où le résultat de l'observation est une fonction ;

Statistiques d'objets de nature non numérique, dans lesquels le résultat d'une observation est de nature non numérique, par exemple s'il s'agit d'un ensemble (une figure géométrique), d'un ordre ou obtenu à la suite d'une mesure basée sur un critère qualitatif.

Historiquement, certains domaines des statistiques d'objets de nature non numérique (notamment les problèmes d'estimation de la proportion de défauts et de test d'hypothèses à ce sujet) et les statistiques unidimensionnelles ont été les premiers à apparaître. L'appareil mathématique étant plus simple pour eux, leur exemple est généralement utilisé pour démontrer les idées de base des statistiques mathématiques.

Seules ces méthodes de traitement des données, c'est-à-dire les statistiques mathématiques sont fondées sur des preuves et reposent sur des modèles probabilistes de phénomènes et de processus réels pertinents. On parle de modèles de comportement des consommateurs, de survenance de risques, du fonctionnement des équipements technologiques, de l'obtention de résultats expérimentaux, de l'évolution d'une maladie, etc. Un modèle probabiliste d'un phénomène réel doit être considéré comme construit si les quantités considérées et les liens entre elles sont exprimées en termes de théorie des probabilités. Correspondance au modèle probabiliste de la réalité, c'est-à-dire son adéquation est justifiée notamment par des méthodes statistiques de test d'hypothèses.

Les méthodes non probabilistes de traitement des données sont exploratoires, elles ne peuvent être utilisées que dans l'analyse préliminaire des données, car elles ne permettent pas d'évaluer l'exactitude et la fiabilité des conclusions obtenues sur la base d'un matériel statistique limité.

Les méthodes probabilistes et statistiques sont applicables partout où il est possible de construire et de justifier un modèle probabiliste d'un phénomène ou d'un processus. Leur utilisation est obligatoire lorsque les conclusions tirées des données d'un échantillon sont transférées à l'ensemble de la population (par exemple, d'un échantillon à un lot entier de produits).

Dans des domaines d'application spécifiques, des méthodes probabilistes et statistiques d'application générale et spécifiques sont utilisées. Par exemple, dans la section de gestion de la production consacrée aux méthodes statistiques de gestion de la qualité des produits, des statistiques mathématiques appliquées (y compris la conception d'expériences) sont utilisées. À l'aide de ses méthodes, une analyse statistique de l'exactitude et de la stabilité des processus technologiques et une évaluation statistique de la qualité sont effectuées. Les méthodes spécifiques comprennent les méthodes de contrôle statistique d'acceptation de la qualité des produits, de régulation statistique des processus technologiques, d'évaluation et de contrôle de la fiabilité, etc.

Les disciplines probabilistes et statistiques appliquées telles que la théorie de la fiabilité et la théorie des files d'attente sont largement utilisées. Le contenu du premier d'entre eux ressort clairement de son nom, le second traite de l'étude de systèmes tels qu'un central téléphonique, qui reçoit des appels à des heures aléatoires - les besoins des abonnés composant des numéros sur leurs postes téléphoniques. La durée de satisfaction de ces exigences, c'est-à-dire la durée des conversations est également modélisée par des variables aléatoires. Une grande contribution au développement de ces disciplines a été apportée par le membre correspondant de l'Académie des sciences de l'URSS A.Ya. Khinchin (1894-1959), académicien de l'Académie des sciences de la RSS d'Ukraine B.V. Gnedenko (1912-1995) et d'autres scientifiques nationaux.

En bref sur l'histoire des statistiques mathématiques. Les statistiques mathématiques en tant que science commencent avec les travaux du célèbre mathématicien allemand Carl Friedrich Gauss (1777-1855), qui, sur la base de la théorie des probabilités, a étudié et justifié la méthode des moindres carrés, créée par lui en 1795 et utilisée pour le traitement des données astronomiques ( afin de clarifier l'orbite d'une petite planète Cérès). L'une des distributions de probabilité les plus populaires, la normale, porte souvent son nom, et dans la théorie des processus aléatoires, le principal objet d'étude est les processus gaussiens.

Fin du 19ème siècle. - début du 20ème siècle Des contributions majeures aux statistiques mathématiques ont été apportées par des chercheurs anglais, principalement K. Pearson (1857-1936) et R. A. Fisher (1890-1962). En particulier, Pearson a développé le test du chi carré pour tester des hypothèses statistiques, et Fisher a développé l'analyse de la variance, la théorie du plan expérimental et la méthode du maximum de vraisemblance pour estimer les paramètres.

Dans les années 30 du XXe siècle. Le Polonais Jerzy Neumann (1894-1977) et l'Anglais E. Pearson ont développé la théorie générale du test des hypothèses statistiques, et les mathématiciens soviétiques, l'académicien A.N. Kolmogorov (1903-1987) et membre correspondant de l'Académie des sciences de l'URSS N.V. Smirnov (1900-1966) ont jeté les bases des statistiques non paramétriques. Dans les années quarante du XXe siècle. Le Roumain A. Wald (1902-1950) a construit la théorie de l'analyse statistique séquentielle.

Les statistiques mathématiques se développent actuellement rapidement. Ainsi, au cours des 40 dernières années, quatre domaines de recherche fondamentalement nouveaux peuvent être distingués :

Développement et mise en œuvre de méthodes mathématiques pour planifier des expériences ;

Développement de statistiques d'objets de nature non numérique en tant que direction indépendante des statistiques mathématiques appliquées ;

Développement de méthodes statistiques résistantes aux petits écarts par rapport au modèle probabiliste utilisé ;

Développement généralisé des travaux de création de progiciels informatiques destinés à l'analyse de données statistiques.

Méthodes probabilistes-statistiques et optimisation. L'idée d'optimisation imprègne les statistiques mathématiques appliquées modernes et d'autres méthodes statistiques. À savoir, les méthodes de planification des expériences, le contrôle d'acceptation statistique, la régulation statistique des processus technologiques, etc. D'autre part, les formulations d'optimisation dans la théorie de la prise de décision, par exemple la théorie appliquée de l'optimisation de la qualité des produits et des exigences standard, prévoient la utilisation généralisée de méthodes statistiques probabilistes, principalement des statistiques mathématiques appliquées.

Dans la gestion de la production, en particulier, lors de l'optimisation de la qualité des produits et des exigences normatives, il est particulièrement important d'appliquer des méthodes statistiques au stade initial du cycle de vie du produit, c'est-à-dire au stade de la préparation de la recherche aux développements de conceptions expérimentales (élaboration d'exigences de produits prometteurs, conception préliminaire, spécifications techniques pour le développement de conceptions expérimentales). Cela est dû au nombre limité d'informations disponibles au stade initial du cycle de vie du produit et à la nécessité de prédire les capacités techniques et la situation économique pour l'avenir. Les méthodes statistiques doivent être utilisées à toutes les étapes de la résolution d'un problème d'optimisation - lors de la mise à l'échelle des variables, du développement de modèles mathématiques du fonctionnement des produits et des systèmes, de la réalisation d'expériences techniques et économiques, etc.

Dans les problèmes d'optimisation, y compris l'optimisation de la qualité des produits et des exigences standard, tous les domaines des statistiques sont utilisés. À savoir, statistiques de variables aléatoires, analyse statistique multivariée, statistiques de processus aléatoires et de séries chronologiques, statistiques d'objets de nature non numérique. Il est conseillé de sélectionner une méthode statistique d'analyse de données spécifiques conformément aux recommandations.

Le groupe de méthodes considéré est le plus important dans la recherche sociologique : ces méthodes sont utilisées dans presque toutes les études sociologiques qui peuvent être considérées comme véritablement scientifiques. Ils visent principalement à identifier des modèles statistiques dans des informations empiriques, c'est-à-dire des modèles qui se réalisent « en moyenne ». En fait, la sociologie s'intéresse à l'étude de la « personne moyenne ». En outre, un autre objectif important de l’utilisation de méthodes probabilistes et statistiques en sociologie est d’évaluer la fiabilité de l’échantillon. Dans quelle mesure est-on sûr que l'échantillon donne des résultats plus ou moins précis et quelle est l'erreur des conclusions statistiques ?

Le principal objet d'étude lors de l'application des méthodes probabilistes et statistiques est Variables aléatoires. Prendre une variable aléatoire à une certaine valeur est Événement aléatoire– un événement qui, si ces conditions sont remplies, peut ou non se produire. Par exemple, si un sociologue mène des enquêtes dans le domaine des préférences politiques dans une rue de la ville, alors l'événement « le prochain répondant s'avère être un partisan du parti au pouvoir » est aléatoire si rien chez le répondant n'a révélé auparavant ses préférences politiques. . Si un sociologue a interrogé une personne interrogée à proximité du bâtiment de la Douma régionale, alors l'événement n'est plus dû au hasard. Un événement aléatoire est caractérisé probabilité son offensive. Contrairement aux problèmes classiques impliquant des combinaisons de dés et de cartes enseignés dans les cours de probabilités, dans la recherche sociologique, le calcul des probabilités n’est pas si simple.

La base la plus importante pour l’évaluation empirique de la probabilité est tendance de la fréquence à la probabilité, si par fréquence nous entendons le rapport entre le nombre de fois qu’un événement s’est produit et le nombre de fois où il aurait théoriquement pu se produire. Par exemple, si parmi 500 répondants sélectionnés au hasard dans les rues de la ville, 220 se révèlent être des partisans du parti au pouvoir, alors la fréquence d'apparition de ces répondants est de 0,44. Quand échantillon représentatif de taille suffisamment grande nous obtiendrons la probabilité approximative d'un événement ou la proportion approximative de personnes possédant un trait donné. Dans notre exemple, avec un échantillon bien sélectionné, nous constatons qu'environ 44 % des citoyens sont partisans du parti au pouvoir. Bien entendu, étant donné que tous les citoyens n’ont pas été interrogés et que certains ont peut-être menti au cours de l’enquête, il y a une erreur.

Considérons quelques problèmes qui se posent lors de l'analyse statistique de données empiriques.

Estimation de la distribution de magnitude

Si une certaine caractéristique peut être exprimée quantitativement (par exemple, l'activité politique d'un citoyen comme valeur indiquant combien de fois au cours des cinq dernières années il a participé à des élections à différents niveaux), alors la tâche peut être fixée d'évaluer la loi de répartition de cette caractéristique comme variable aléatoire. En d’autres termes, la loi de distribution montre quelles valeurs une quantité prend le plus souvent et lesquelles le moins souvent, et à quelle fréquence/moins souvent. On le trouve le plus souvent à la fois dans la technologie, dans la nature et dans la société. loi de distribution normale. Sa formule et ses propriétés sont exposées dans tout manuel de statistiques, ainsi que dans la Fig. 10.1 montre l'apparence du graphique - il s'agit d'une courbe « en forme de cloche », qui peut être plus « étirée » vers le haut ou plus « étalée » le long de l'axe des valeurs de la variable aléatoire. L'essence de la loi normale est que le plus souvent une variable aléatoire prend des valeurs proches d'une valeur « centrale », appelée espérance mathématique, et plus on s'en éloigne, moins souvent la valeur « y arrive ».

Il existe de nombreux exemples de distributions qui peuvent être acceptées comme normales avec une petite erreur. Au 19ème siècle. Le scientifique belge A. Quetelet et l'Anglais F. Galton ont prouvé que la distribution de fréquence de tout indicateur démographique ou anthropométrique (espérance de vie, taille, âge au mariage, etc.) se caractérise par une distribution « en cloche ». Le même F. Galton et ses disciples ont prouvé que les caractéristiques psychologiques, par exemple les capacités, obéissent à la loi normale.

Riz. 10.1.

Exemple

L'exemple le plus frappant de distribution normale en sociologie concerne l'activité sociale des personnes. Selon la loi de distribution normale, il s'avère que les personnes socialement actives dans la société représentent généralement environ 5 à 7 %. Toutes ces personnes socialement actives participent à des rassemblements, des conférences, des séminaires, etc. Environ le même nombre de personnes sont totalement exclues de la participation à la vie sociale. La majorité des gens (80 à 90 %) semblent indifférents à la politique et à la vie publique, mais ils suivent les processus qui les intéressent, même s'ils ont en général une attitude détachée envers la politique et la société et ne font pas preuve d'activité significative. Ces personnes manquent la plupart des événements politiques, mais regardent occasionnellement les informations à la télévision ou sur Internet. Ils vont aussi voter aux élections les plus importantes, surtout s’ils sont « menacés avec un bâton » ou « encouragés avec une carotte ». Les membres de ces 80 à 90 % sont presque inutiles individuellement d'un point de vue socio-politique, mais les centres de recherche sociologiques s'intéressent beaucoup à ces personnes, car ils sont nombreux et leurs préférences ne peuvent être ignorées. Il en va de même pour les organisations pseudo-scientifiques qui mènent des recherches sur ordre d’hommes politiques ou d’entreprises commerciales. Et l'opinion des « masses grises » sur les questions clés liées à la prévision du comportement de plusieurs milliers et millions de personnes lors des élections, ainsi que lors d'événements politiques aigus, lors de divisions de la société et de conflits entre différentes forces politiques, n'est pas indifférente. à ces centres.

Bien entendu, toutes les valeurs ne sont pas distribuées selon la distribution normale. En plus de cela, les plus importantes en statistiques mathématiques sont les distributions binomiales et exponentielles, les distributions de Fisher-Snedecor, du Chi carré et de Student.

Évaluation de la relation des fonctionnalités

Le cas le plus simple est celui où il suffit d’établir la présence/absence d’une connexion. La méthode la plus populaire à cet égard est la méthode du Chi carré. Cette méthode se concentre sur le travail avec des données catégorielles. Par exemple, il s’agit clairement du sexe et de l’état civil. Certaines données semblent numériques à première vue, mais peuvent être « transformées » en données catégorielles en divisant la plage de valeurs en plusieurs petits intervalles. Par exemple, l’expérience en usine peut être classée comme suit : moins d’un an, un à trois ans, trois à six ans et plus de six ans.

Laissez le paramètre X disponible P. valeurs possibles : (x1,..., X r1), et le paramètre Yt valeurs possibles : (y1,..., à T) , q ij est la fréquence d'apparition observée de la paire ( X je, à j), c'est-à-dire le nombre d'occurrences détectées d'une telle paire. On calcule les fréquences théoriques, c'est-à-dire combien de fois chaque paire de valeurs doit apparaître pour des quantités absolument indépendantes :

Sur la base des fréquences observées et théoriques, nous calculons la valeur

Vous devez également calculer le montant degrés de liberté selon la formule

m, n– le nombre de catégories tabulées. De plus, nous choisissons niveau de signification. Le plus haut fiabilité que nous voulons obtenir, plus le niveau de signification doit être bas. Généralement, une valeur de 0,05 est choisie, ce qui signifie que nous pouvons faire confiance aux résultats avec une probabilité de 0,95. Ensuite, dans les tableaux de référence, on retrouve la valeur critique en nombre de degrés de liberté et en niveau de signification. Si , alors les paramètres X Et Oui sont considérés comme indépendants. Si , alors les paramètres X Et Oui – dépendant. Si, alors il est dangereux de tirer des conclusions sur la dépendance ou l’indépendance des paramètres. Dans ce dernier cas, il est conseillé de mener des recherches complémentaires.

Notez également que le test du Chi carré ne peut être utilisé avec un très haut degré de confiance que lorsque toutes les fréquences théoriques ne sont pas inférieures à un seuil donné, généralement considéré comme étant égal à 5. Soit v la fréquence théorique minimale. Pour v > 5, le test du Chi carré peut être utilisé en toute confiance. À v< 5 использование критерия становится нежелательным. При v ≥ 5 вопрос остается открытым, требуется дополнительное исследование о применимости критерия "Хи-квадрат".

Donnons un exemple d'utilisation de la méthode du Chi carré. Supposons, par exemple, que dans une certaine ville, une enquête ait été menée auprès des jeunes supporters des équipes de football locales et que les résultats suivants aient été obtenus (tableau 10.1).

Faisons une hypothèse sur l’indépendance des préférences footballistiques de la jeunesse de la ville. N du sexe du répondant à un niveau de signification standard de 0,05. Nous calculons les fréquences théoriques (tableau 10.2).

Tableau 10.1

Résultats de l'enquête auprès des fans

Tableau 10.2

Fréquences de préférence théoriques

Par exemple, la fréquence théorique pour les jeunes fans de Zvezda est obtenue comme suit :

de même - d'autres fréquences théoriques. Ensuite, nous calculons la valeur du Chi carré :

Nous déterminons le nombre de degrés de liberté. Pour un niveau de signification de 0,05, nous recherchons la valeur critique :

Puisque, et la supériorité est significative, nous pouvons presque certainement dire que les préférences footballistiques des garçons et des filles de la ville N varient considérablement, sauf dans le cas d'un échantillon non représentatif, par exemple si le chercheur n'a pas obtenu un échantillon de différents quartiers de la ville, se limitant à interroger les répondants dans son propre quartier.

Une situation plus difficile est celle où vous devez quantifier la force de la connexion. Dans ce cas, des méthodes sont souvent utilisées analyse de corrélation. Ces méthodes sont généralement abordées dans les cours avancés de statistiques mathématiques.

Approximation des dépendances à l'aide de données ponctuelles

Soit un ensemble de points - données empiriques ( X je, Yi), je = 1, ..., P. Il est nécessaire d'approcher la dépendance réelle du paramètre àà partir du paramètre X, et également développer une règle pour calculer la valeur oui, Quand X est situé entre deux « nœuds » Xi.

Il existe deux approches fondamentalement différentes pour résoudre le problème. La première est que parmi les fonctions d'une famille donnée (par exemple les polynômes), on sélectionne une fonction dont le graphe passe par les points existants. La deuxième approche ne « force » pas le graphe de la fonction à passer par les points. La méthode la plus populaire en sociologie et dans un certain nombre d'autres sciences est méthode des moindres carrés– appartient au deuxième groupe de méthodes.

L’essence de la méthode des moindres carrés est la suivante. Étant donné une famille de fonctions à(x, un 1, ..., UN t) avec m coefficients incertains. Il est nécessaire de sélectionner des coefficients incertains en résolvant un problème d'optimisation

Valeur de fonction minimale d peut servir de mesure de la précision de l’approximation. Si cette valeur est trop élevée, une classe de fonction différente doit être sélectionnée à ou étendre la classe utilisée. Par exemple, si la classe « polynômes de degré non supérieur à 3 » n'a pas fourni une précision acceptable, on prend la classe « polynômes de degré non supérieur à 4 » ou encore « polynômes de degré non supérieur à 5 ».

Le plus souvent, la méthode est utilisée pour la famille des « polynômes de degré non supérieur à N":

Par exemple, quand N= 1 est une famille de fonctions linéaires, avec N = 2 – famille de fonctions linéaires et quadratiques, avec N = 3 – famille de fonctions linéaires, quadratiques et cubiques. Laisser

Puis les coefficients de la fonction linéaire ( N= 1) sont recherchés comme solution d'un système d'équations linéaires

Coefficients d'une fonction de la forme UN 0 + un 1x + une 2X 2 (N= 2) sont recherchés comme solution au système

Ceux qui souhaitent appliquer cette méthode à une valeur arbitraire N peut le faire en voyant le modèle selon lequel les systèmes d’équations donnés sont compilés.

Donnons un exemple d'utilisation de la méthode des moindres carrés. Laissez le numéro d'un certain parti politique changer comme suit :

On peut noter que les changements dans la taille des partis au cours des différentes années ne sont pas très différents, ce qui nous permet d’approcher la dépendance avec une fonction linéaire. Pour faciliter le calcul, au lieu d'une variable X– année – introduire une variable t = x – 2010, c'est-à-dire Prenons la première année de comptage pour « zéro ». Nous calculons M 1; M 2:

Maintenant, nous calculons M", M* :

Chances un 0, un 1 fonctions y = une 0t + UN 1 sont calculés comme solution du système d’équations

En résolvant ce système, par exemple, en utilisant la règle de Cramer ou la méthode de substitution, on obtient : UN 0 = 11,12; UN 1 = 3,03. On obtient ainsi l'approximation

ce qui vous permet non seulement d'opérer avec une fonction au lieu d'un ensemble de points empiriques, mais également de calculer des valeurs de fonction qui dépassent les limites des données initiales - "pour prédire l'avenir".

A noter également que la méthode des moindres carrés peut être utilisée non seulement pour les polynômes, mais aussi pour d'autres familles de fonctions, par exemple pour les logarithmes et les exponentielles :

Le degré de confiance d'un modèle construit à l'aide de la méthode des moindres carrés peut être déterminé sur la base de la mesure R au carré, ou coefficient de détermination. Il est calculé comme

Ici . Le plus proche R. 2 à 1, plus le modèle est adéquat.

Détection des valeurs aberrantes

Une valeur aberrante dans une série de données est une valeur anormale qui ressort nettement dans l’échantillon général ou dans la série générale. Par exemple, supposons que le pourcentage de citoyens d'un pays ayant une attitude positive envers un certain politicien se situe entre 2008 et 2013. respectivement 15, 16, 12, 30, 14 et 12 %. Il est facile de remarquer que l’une des valeurs diffère fortement de toutes les autres. En 2011, la note du politicien, pour une raison quelconque, dépassait largement les valeurs habituelles, qui se situaient entre 12 et 16 %. La présence d'émissions peut être due à diverses raisons :

  • 1)erreurs de mesure ;
  • 2) caractère inhabituel des données d'entrée(par exemple, lorsque l'on analyse le pourcentage moyen de votes obtenus par un homme politique ; cette valeur dans un bureau de vote d'une unité militaire peut différer considérablement de la valeur moyenne dans la ville) ;
  • 3) conséquence de la loi(les valeurs qui diffèrent fortement des autres peuvent être déterminées par une loi mathématique - par exemple, dans le cas d'une distribution normale, un objet avec une valeur nettement différente de la moyenne peut être inclus dans l'échantillon) ;
  • 4) catastrophes(par exemple, pendant une période de confrontation politique courte mais aiguë, le niveau d’activité politique de la population peut changer radicalement, comme cela s’est produit lors des « révolutions de couleur » de 2000-2005 et du « Printemps arabe » de 2011) ;
  • 5) actions de contrôle(par exemple, si au cours de l'année précédant l'étude, un homme politique a pris une décision très populaire, alors cette année, sa note peut être nettement plus élevée que les autres années).

De nombreuses méthodes d’analyse de données ne sont pas résistantes aux valeurs aberrantes. Par conséquent, pour les utiliser efficacement, les données doivent être débarrassées des valeurs aberrantes. Un exemple frappant de méthode instable est la méthode des moindres carrés mentionnée ci-dessus. La méthode la plus simple pour rechercher des valeurs aberrantes est basée sur ce qu'on appelle distance interquartile. Détermination de la portée

Q m signification T-ème quartile. Si un membre de la série ne se situe pas dans la fourchette, il est alors considéré comme une valeur aberrante.

Expliquons avec un exemple. La signification des quartiles est qu'ils divisent une série en quatre groupes égaux ou à peu près égaux : le premier quartile « sépare » le quart gauche de la série, trié par ordre croissant, le troisième quartile sépare le quart droit de la série, le deuxième quartile court au milieu. Expliquons comment rechercher Q 1, et Q 3. Introduisons une série de nombres triés par ordre croissant P. valeurs. Si n + 1 est divisible par 4 sans reste, alors Q k essence k(P.+ 1)/4ème terme de la série. Par exemple, étant donné la série : 1, 2, 5, 6, 7, 8, 10, 11, 13, 15, 20, voici le nombre de termes n = 11. Alors ( P.+ 1)/4 = 3, soit premier quartile Q 1 = 5 – troisième terme de la série ; 3( n + 1)/4 = 9, soit troisième quartile Q:i= 13 – neuvième membre de la série.

L'affaire est un peu plus compliquée lorsque n + 1 n'est pas un multiple de 4. Par exemple, étant donné les séries 2, 3, 5, 6, 7, 8, 9, 30, 32, 100, où le nombre de termes P.= 10. Alors ( P. + 1)/4 = 2,75 -

position entre le deuxième membre de la série (v2 = 3) et le troisième membre de la série (v3 = 5). Ensuite, nous prenons la valeur 0,75v2 + 0,25v3 = 0,75 3 + 0,25 5 = 3,5 - ce sera Q 1. 3(P.+ 1)/4 = 8,25 – position entre le huitième membre de la série (v8= 30) et le neuvième membre de la série (v9=32). On prend la valeur 0,25v8 + 0,75v9 = 0,25 30 + + 0,75 32 = 31,5 - ce sera Q 3. Il existe d'autres options de calcul Q 1 et Q 3, mais il est recommandé d'utiliser l'option présentée ici.

  • À proprement parler, dans la pratique, on rencontre généralement une loi normale « approximativement » - puisque la loi normale est définie pour une quantité continue le long de tout l'axe réel, de nombreuses quantités réelles ne peuvent pas satisfaire strictement les propriétés des quantités normalement distribuées.
  • Nasledov A.D. Méthodes mathématiques de recherche psychologique. Analyse et interprétation des données : manuel, manuel. Saint-Pétersbourg : Rech, 2004. pp. 49-51.
  • Pour les distributions les plus importantes de variables aléatoires, voir, par exemple : Orlov A.I. Mathématiques du hasard : probabilités et statistiques - faits de base : manuel. allocation. M. : MZ-Press, 2004.

L'évaluation quantitative du risque commercial à l'aide de méthodes statistiques mathématiques est particulièrement intéressante. Les principaux outils de cette méthode d’évaluation sont :

§ probabilité d'apparition d'une variable aléatoire,

§ espérance mathématique ou valeur moyenne de la variable aléatoire étudiée,

§ dispersion,

§ écart type (carré moyen),

§ le coefficient de variation ,

§ distribution de probabilité de la variable aléatoire étudiée.

Pour prendre une décision, vous devez connaître l'ampleur (degré) du risque, qui est mesurée par deux critères :

1) valeur attendue moyenne (espérance mathématique),

2) fluctuations (variabilité) du résultat possible.

Valeur attendue moyenne il s'agit de la moyenne pondérée d'une variable aléatoire, qui est associée à l'incertitude de la situation :

,

où est la valeur de la variable aléatoire.

La valeur attendue moyenne mesure le résultat que nous attendons en moyenne.

La valeur moyenne est une caractéristique qualitative généralisée et ne permet pas de prendre une décision en faveur d'une valeur particulière d'une variable aléatoire.

Pour prendre une décision, il est nécessaire de mesurer les fluctuations des indicateurs, c'est-à-dire de déterminer la mesure de la variabilité d'un résultat possible.

La variation d'un résultat possible est le degré dans lequel la valeur attendue s'écarte de la valeur moyenne.

A cet effet, en pratique, deux critères étroitement liés sont habituellement utilisés : la « dispersion » et l'« écart type ».

Dispersion – moyenne pondérée des carrés des résultats réels par rapport à la moyenne attendue :

Écart-type est la racine carrée de la variance. Il s'agit d'une quantité dimensionnelle et elle est mesurée dans les mêmes unités dans lesquelles la variable aléatoire étudiée est mesurée :

.

La variance et l'écart type fournissent une mesure de la variation absolue. Le coefficient de variation est généralement utilisé pour l'analyse.

Le coefficient de variation représente le rapport de l'écart type à la valeur moyenne attendue, multiplié par 100 %

ou .

Le coefficient de variation n'est pas affecté par les valeurs absolues de l'indicateur étudié.

Grâce au coefficient de variation, vous pouvez même comparer les fluctuations des caractéristiques exprimées dans différentes unités de mesure. Le coefficient de variation peut varier de 0 à 100 %. Plus le coefficient est élevé, plus les fluctuations sont importantes.


Dans les statistiques économiques, l'évaluation suivante des différentes valeurs du coefficient de variation est établie :

jusqu'à 10% - faible fluctuation, 10 – 25% - modérée, plus de 25% - élevée.

Ainsi, plus les fluctuations sont importantes, plus le risque est grand.

Exemple. Le propriétaire d'un petit magasin achète chaque début de journée des produits périssables à vendre. Une unité de ce produit coûte 200 UAH. Prix ​​de vente – 300 UAH. pour une unité. D'après les observations, on sait que la demande de ce produit au cours de la journée peut être de 4, 5, 6 ou 7 unités avec des probabilités correspondantes de 0,1 ; 0,3 ; 0,5 ; 0,1. Si le produit n'est pas vendu pendant la journée, il sera toujours acheté en fin de journée au prix de 150 UAH. pour une unité. Combien d'unités de ce produit le propriétaire du magasin doit-il acheter en début de journée ?

Solution. Construisons une matrice de profit pour le propriétaire du magasin. Calculons le bénéfice que le propriétaire recevra si, par exemple, il achète 7 unités d'un produit et vend une unité au cours du jour 6 et à la fin de la journée. Chaque unité de produit vendue dans la journée génère un bénéfice de 100 UAH et, en fin de journée, une perte de 200 à 150 = 50 UAH. Ainsi, le bénéfice dans ce cas sera :

Les calculs sont effectués de la même manière pour d’autres combinaisons d’offre et de demande.

Le profit attendu est calculé comme l'espérance mathématique des valeurs de profit possibles pour chaque ligne de la matrice construite, en tenant compte des probabilités correspondantes. Comme vous pouvez le constater, parmi les bénéfices attendus, le plus important est de 525 UAH. Il correspond à l'achat du produit en question à hauteur de 6 unités.

Pour justifier la recommandation finale d'acheter le nombre requis d'unités du produit, nous calculons la variance, l'écart type et le coefficient de variation pour chaque combinaison possible de l'offre et de la demande du produit (chaque ligne de la matrice de profit) :

400 0,1 40 16000
400 0,3 120 48000
400 0,5 200 80000
400 0,1 40 16000
1,0 400 160000
350 0,1 35 12250
500 0,3 150 75000
500 0,5 250 125000
500 0,1 50 25000
1,0 485 2372500
300 0,1 30 9000
450 0,3 135 60750
600 0,5 300 180000
600 0,1 60 36000
1,0 525 285750

Quant au propriétaire du magasin qui achète 6 unités de produit contre 5 et 4 unités, cela n'est pas évident, puisque le risque lors de l'achat de 6 unités de produit (19,2%) est plus grand que lors de l'achat de 5 unités (9,3%) et encore plus que lors de l'achat de 4 unités (0%).

Ainsi, nous disposons de toutes les informations sur les bénéfices et les risques attendus. Et le propriétaire du magasin décide du nombre d'unités du produit qu'il doit acheter chaque matin, en tenant compte de son expérience et de son appétit pour le risque.

À notre avis, il devrait être recommandé au propriétaire du magasin d'acheter 5 unités du produit chaque matin et son bénéfice moyen attendu sera de 485 UAH. et si vous comparez cela avec l'achat de 6 unités de produit, pour lequel le bénéfice moyen attendu est de 525 UAH, soit 40 UAH. plus, mais le risque dans ce cas sera 2,06 fois plus grand.