Types d'échantillons. Petit échantillon

La méthode des petits échantillons présente un certain nombre d’avantages par rapport à la méthode des grands échantillons. Ses principaux avantages sont, d'une part, une réduction de la quantité de travail de calcul, et d'autre part, la possibilité de surveiller la dynamique des changements dans la précision du processus au fil du temps, ce qui ne peut pas être fait en utilisant la méthode des grands échantillons. La méthode des grands échantillons ne peut donner qu'une idée de la précision et de la stabilité du processus pendant la période d'échantillonnage, qui peuvent persister dans le futur si les conditions du processus ne changent pas après le prélèvement de l'échantillon. En réalité, une telle invariabilité des conditions de production ne peut être prévue à l’avance. Par exemple, lors d'un travail sur une machine à barres, au cours d'un quart de travail, la matière est remplacée plusieurs fois (changement de barre), l'outil est changé en raison de l'usure, la machine est réglée, etc., ce qui peut apporter des ajustements importants à l'obtenu précédemment. paramètres de répartition. La méthode des petits échantillons, si ces derniers sont prélevés régulièrement tout au long du quart de travail à certains intervalles, permet d'obtenir une image complète de l'état du processus au cours de la période étudiée, de déterminer le degré de sa stabilité, et également d'en identifier les raisons. pour la stabilité insuffisante du procédé dans le temps, le cas échéant.

L'analyse statistique avec de petits échantillons est effectuée comme suit. Des échantillons de n = 5-10 pièces. pris à certains intervalles fixes (par exemple, après 15 à 30 minutes). La période d'échantillonnage est établie de manière empirique et dépend de la productivité de la machine, de la taille de l'échantillon et du degré de stabilité du processus technologique. Pour chaque échantillon, vous devez calculer et S. Ensuite, il est nécessaire pour chacun de deux échantillons adjacents de tester l’hypothèse d’homogénéité des variances des échantillons en utilisant F - Critère de Fisher.

Si l'hypothèse est confirmée, cela indique la stabilité de la dispersion ou que les échantillons comparés sont issus de la même population. Lors de la confirmation de l'hypothèse d'homogénéité des variances de deux échantillons, l'hypothèse d'homogénéité des moyennes de deux échantillons doit être testée. t -Test de l'étudiant.

La confirmation de l'hypothèse de l'égalité de deux échantillons adjacents signifie que le centre de réglage de l'équipement ne changera pas au moment du prélèvement de cet échantillon et restera le même qu'il était lors du prélèvement de l'échantillon précédent, c'est-à-dire le processus est dans un état stable. Lorsque l’hypothèse d’égalité des deux échantillons moyens n’est pas confirmée, cela indique un déplacement du centre de réglage machine au moment du prélèvement de cet échantillon. Étant donné que les échantillons sont prélevés à certains intervalles, si un déplacement du centre de réglage ou un changement dans la zone de dispersion est détecté, il est possible de déterminer la période de temps après laquelle une violation de la stabilité du processus s'est produite.

Après avoir découvert le fait d'une violation de la stabilité du processus, il est possible d'établir la zone dans laquelle il convient de rechercher la cause de ce phénomène. L'hétérogénéité des dispersions d'échantillons, indiquant une instabilité de dispersion, indique que la raison en est à rechercher dans la machine ou dans les propriétés mécaniques du matériau traité. L'hétérogénéité des moyennes de l'échantillon indique un déplacement du centre d'accordage (recherchez la raison dans l'instrument).

Ainsi, en prélevant de petits échantillons de la sortie actuelle de la machine pendant un quart de travail à certains intervalles de temps, les moyennes et les variances des échantillons sont calculées en comparant et en évaluant leurs écarts à l'aide des critères F et t, il est possible d'établir les moments des troubles du processus et même les sources de ces troubles.

Lors du contrôle de la qualité des biens dans le cadre de la recherche économique, une expérience peut être menée sur la base d'un petit échantillon. petit échantillon fait référence à une enquête statistique non continue dans laquelle la population échantillon est constituée d'un nombre relativement restreint d'unités dans la population générale. Le volume d'un petit échantillon ne dépasse généralement pas 30 unités et peut atteindre 4 à 5 unités. L'erreur moyenne d'un petit échantillon est calculée par la formule :, où est la variance du petit échantillon. Lors de la détermination de la variance, le nombre de degrés de liberté est n-1 : . L'erreur marginale d'un petit échantillon est déterminée par la formule. Dans ce cas, la valeur du coefficient de confiance t dépend non seulement de la probabilité de confiance donnée, mais également du nombre d'unités d'échantillonnage n. Pour les valeurs individuelles de t et n, la probabilité de confiance d'un petit échantillon est déterminée à l'aide de tableaux spéciaux de Student (tableau 9.1.), qui donnent les distributions des écarts standardisés : puisque lors de la réalisation d'un petit échantillon, la valeur de 0,59 ou 0,99 est pratiquement acceptée comme probabilité de confiance, alors pour déterminer l'erreur marginale d'un petit échantillon, les lectures suivantes de la distribution de Student sont utilisées :

Moyens de généraliser les caractéristiques de l’échantillon à la population. La méthode d'échantillonnage est le plus souvent utilisée pour obtenir les caractéristiques de la population selon les indicateurs d'échantillonnage correspondants. Selon les objectifs de la recherche, cela se fait soit par recalcul direct d'indicateurs d'échantillon pour la population générale, soit par calcul de facteurs de correction. Méthode de recalcul direct. Cela consiste dans le fait que les indicateurs de part d'échantillon ou de moyenne sont étendus à la population générale, en tenant compte de l'erreur d'échantillonnage. Ainsi, dans le commerce, le nombre de produits non standards reçus dans un envoi est déterminé. Pour ce faire (en tenant compte du degré de probabilité accepté), les indicateurs de la part de produits non standards dans l'échantillon sont multipliés par le nombre de produits dans l'ensemble du lot de marchandises. Méthode de facteurs de correction. Elle est utilisée dans les cas où le but de la méthode d'échantillonnage est de clarifier les résultats d'un recensement complet. Dans la pratique statistique, cette méthode est utilisée pour clarifier les données des recensements annuels du bétail appartenant à la population. À cette fin, après avoir généralisé les données du recensement complet, une enquête par sondage de 10 % est utilisée pour déterminer ce que l'on appelle le « pourcentage de sous-dénombrement ». Méthodes de sélection des unités dans la population générale. En statistique, diverses méthodes de constitution d'échantillons de populations sont utilisées, qui sont déterminées par les objectifs de l'étude et dépendent des spécificités de l'objet d'étude. La condition principale pour mener une enquête par sondage est la prévention des erreurs systématiques résultant de la violation des le principe de l’égalité des chances pour chaque unité de la population générale d’être incluse dans l’échantillon. La prévention des erreurs systématiques est obtenue grâce à l'utilisation de méthodes scientifiquement fondées pour constituer un échantillon de population. Il existe les méthodes suivantes pour sélectionner des unités dans la population générale : 1) sélection individuelle - des unités individuelles sont sélectionnées pour l'échantillon ; 2) sélection de groupe - des groupes ou des séries d'unités étudiées qualitativement homogènes sont inclus dans l'échantillon ; 3) sélection combinée - il s'agit d'une combinaison de sélection individuelle et de groupe. Les modalités de sélection sont déterminées par les règles de constitution d'un échantillon de population. L'échantillonnage peut être : - purement aléatoire ; - mécanique ; - typique ; - en série ; - combiné. Échantillonnage aléatoire approprié consiste dans le fait que la population échantillon est formée à la suite d'une sélection aléatoire (involontaire) d'unités individuelles dans la population générale. Dans ce cas, le nombre d'unités sélectionnées dans l'échantillon de population est généralement déterminé sur la base de la proportion d'échantillon acceptée. La part d'échantillon est le rapport entre le nombre d'unités de la population échantillon n et le nombre d'unités dans la population générale N, c'est-à-dire avec un échantillon de 5 % d'un lot de marchandises de 2 000 unités. la taille de l’échantillon n est de 100 unités. (5*2000:100), et avec un échantillon de 20 %, ce sera 400 unités. (20*2000:100), etc. Échantillonnage mécanique consiste dans le fait que la sélection des unités de la population échantillon se fait à partir de la population générale, divisée en intervalles égaux (groupes). Dans ce cas, la taille de l'intervalle dans la population générale est égale à l'inverse de la part de l'échantillon. Ainsi, avec un échantillon de 2 %, une unité sur 50 est sélectionnée (1 : 0,02), avec un échantillon de 5 % - tous les 20 unité (1 : 0,05), etc. Ainsi, conformément à la proportion acceptée de sélection, la population générale est en quelque sorte mécaniquement divisée en groupes égaux. Dans chaque groupe, une seule unité est sélectionnée pour l'échantillon. Une caractéristique importante de l'échantillonnage mécanique est que la formation d'un échantillon de population peut être effectuée sans recourir à la compilation de listes. En pratique, l’ordre dans lequel se situent réellement les unités de la population est souvent utilisé. Par exemple, la séquence de sortie des produits finis d'un convoyeur ou d'une ligne de production, l'ordre de placement des unités d'un lot de marchandises lors du stockage, du transport, des ventes, etc. Échantillon typique. Dans l'échantillonnage typique, la population est d'abord divisée en groupes typiques homogènes. Ensuite, à partir de chaque groupe typique, un échantillon purement aléatoire ou mécanique est utilisé pour sélectionner individuellement des unités dans l'échantillon de population. L'échantillonnage typique est généralement utilisé lors de l'étude de populations statistiques complexes. Par exemple, dans une enquête par sondage sur la productivité du travail des travailleurs du commerce, composée de groupes distincts par qualification. Une caractéristique importante d'un échantillon typique est qu'il donne des résultats plus précis par rapport à d'autres méthodes de sélection d'unités dans la population échantillon. l'erreur moyenne d'un échantillon typique, les formules sont utilisées : resélection , sélection non répétitive , L'écart est déterminé par les formules suivantes : , À en une seule étape Dans un échantillon, chaque unité sélectionnée est immédiatement étudiée selon une caractéristique donnée. C’est le cas de l’échantillonnage purement aléatoire et en série. à plusieurs étages Dans l'échantillon, des groupes individuels sont sélectionnés parmi la population générale et des unités individuelles sont sélectionnées parmi les groupes. C'est ainsi qu'un échantillon typique est constitué avec une méthode mécanique de sélection d'unités dans la population échantillon. Combiné l'échantillonnage peut être en deux étapes. Dans ce cas, la population est d'abord divisée en groupes. Ensuite, les groupes sont sélectionnés et, au sein de ces derniers, les unités individuelles sont sélectionnées.

Lors de l'étude de la variabilité, on distingue des caractéristiques quantitatives et qualitatives, dont l'étude est réalisée par des statistiques de variation, basées sur la théorie des probabilités. La probabilité indique la fréquence possible à laquelle un individu rencontre un trait particulier. P=m/n, où m est le nombre d’individus possédant une valeur de trait donnée ; n est le nombre de tous les individus du groupe. La probabilité varie de 0 à 1 (par exemple, la probabilité est de 0,02 - l'apparition de jumeaux dans un troupeau, c'est-à-dire que deux jumeaux apparaîtront pour 100 vêlages). Ainsi, l'objet d'étude de la biométrie est une caractéristique variable dont l'étude est réalisée sur un certain groupe d'objets, c'est-à-dire totalité. Il existe des populations générales et des échantillons. Population Il s’agit d’un large groupe d’individus qui nous intéresse en fonction du trait étudié. La population générale peut comprendre une espèce animale ou une race de la même espèce. La population générale (race) comprend plusieurs millions d'animaux. Dans le même temps, la race se divise en plusieurs groupes, à savoir troupeaux d'exploitations individuelles. La population générale étant composée d’un grand nombre d’individus, il est techniquement difficile de l’étudier. Par conséquent, ils n’étudient pas la population entière, mais seulement une partie de celle-ci, appelée électif ou échantillon de population.

Sur la base de l'échantillon de population, un jugement est porté sur l'ensemble de la population. L'échantillonnage doit être effectué selon toutes les règles, qui doivent inclure des individus présentant toutes les valeurs du trait variable. La sélection des individus de la population générale s'effectue selon le principe du hasard ou par tirage au sort. En biométrie, il existe deux types d’échantillonnage aléatoire : grand et petit. Grand échantillon ils en appellent un qui comprend plus de 30 individus ou observations, et petit échantillon moins de 30 individus. Il existe différentes méthodes de traitement des données pour des échantillons de population de grande et de petite taille. La source d'informations statistiques peut provenir des données des registres zootechniques et vétérinaires, qui fournissent des informations sur chaque animal depuis sa naissance jusqu'à son élimination. Une autre source d'information peut être constituée de données provenant d'expériences scientifiques et de production menées sur un nombre limité d'animaux. Une fois l’échantillon obtenu, le traitement commence. Ceci permet d'obtenir sous forme de grandeurs mathématiques un certain nombre de grandeurs statistiques ou de coefficients qui caractérisent les caractéristiques des groupes d'animaux d'intérêt.

Les paramètres ou indicateurs statistiques suivants sont obtenus par la méthode biométrique :

1. Valeurs moyennes d'une caractéristique variable (moyenne arithmétique, mode, médiane, moyenne géométrique).

2. Coefficients qui mesurent l'ampleur de la variation, c'est-à-dire (variabilité) de la caractéristique étudiée (écart type, coefficient de variation).

3. Coefficients qui mesurent l'ampleur de la relation entre les caractéristiques (coefficient de corrélation, coefficient de régression et rapport de corrélation).

4. Erreurs statistiques et fiabilité des données statistiques obtenues.

5. La part de variation résultant de l'influence de divers facteurs et autres indicateurs associés à l'étude des problèmes de génétique et de sélection.

Lors du traitement statistique d'un échantillon, les membres de la population sont organisés sous la forme d'une série de variations. Une série de variations est un regroupement d'individus en classes en fonction de la valeur du trait étudié. La série de variations se compose de deux éléments : des classes et une série de fréquences. La série de variations peut être intermittente ou continue. Les fonctionnalités qui ne peuvent prendre qu'un entier sont appelées numéro intermittent têtes, nombre d'œufs, nombre de porcelets et autres. Les caractéristiques qui peuvent être exprimées en nombres fractionnaires sont appelées continu(taille cm, production laitière kg, % de matière grasse, poids vif et autres).

Lors de la construction d'une série de variations, les principes ou règles suivants sont respectés :

1. Déterminer ou compter le nombre d'individus pour lesquels la série de variations (n) sera construite.

2. Trouvez la valeur max et min de la caractéristique étudiée.

3. Déterminez l'intervalle de classe K = max - min / nombre de classes, le nombre de classes est pris arbitrairement.

4. Construisez des classes et déterminez la limite de chaque classe, min+K.

5. Ils répartissent les membres de la population en classes.

Après avoir construit les classes et réparti les individus en classes, les principaux indicateurs de la série de variations (X, σ, Cv, Mх, Мσ, Мcv) sont calculés. La valeur moyenne de l'attribut a reçu la plus grande valeur pour caractériser la population. Lors de la résolution de tous les problèmes zootechniques, vétérinaires, médicaux, économiques et autres, la valeur moyenne d'un caractère est toujours déterminée (rendement laitier moyen du troupeau, % de matière grasse, fertilité dans l'élevage porcin, production d'œufs chez les poules et autres caractères). Les paramètres caractérisant la valeur moyenne d'une caractéristique sont les suivants :

1. Moyenne arithmétique.

2. Moyenne arithmétique pondérée.

3. Moyenne géométrique.

4. Mode (Mo).

5. Médiane (Moi) et autres paramètres.

Moyenne arithmétique nous montre quelle valeur des traits auraient les individus d'un groupe donné s'ils étaient les mêmes pour tout le monde, et est déterminé par la formule X = A + b × K

La principale propriété de la moyenne arithmétique est qu’elle élimine la variation d’une caractéristique et la rend commune à l’ensemble de la population. Dans le même temps, il convient de noter que la moyenne arithmétique prend un sens abstrait, c'est-à-dire lors de son calcul, on obtient des indicateurs fractionnaires qui, en réalité, peuvent ne pas exister. Par exemple : le rendement en veaux pour 100 vaches est de 85,3 veaux, la fertilité des truies est de 11,8 porcelets, la production d'œufs des poules est de 252,4 œufs et d'autres indicateurs.

La valeur de la moyenne arithmétique est très élevée dans les pratiques d’élevage et les caractéristiques des populations. Dans la pratique de l'élevage, en particulier de l'élevage bovin, une valeur arithmétique pondérée est utilisée pour déterminer la teneur moyenne en matières grasses du lait pendant la lactation.

Valeur moyenne géométrique est calculé s'il est nécessaire de caractériser le taux de croissance, le taux d'augmentation de la population, lorsque la moyenne arithmétique fausse les données.

Mode nommer la valeur la plus fréquemment rencontrée d’une caractéristique variable, à la fois quantitative et qualitative. Le numéro modal d’une vache est le numéro de trayon-4. Bien qu'il existe des vaches avec cinq ou six trayons. Dans une série de variations, la classe modale sera la classe où il y a le plus grand nombre de fréquences et nous la définissons comme la classe zéro.

Médian est appelé une variante qui divise tous les membres de la population en deux parties égales. La moitié des membres de la population auront une valeur de trait variable inférieure à la médiane, et l'autre moitié aura une valeur supérieure à la médiane (par exemple : standard de race). La médiane est le plus souvent utilisée pour caractériser des caractéristiques qualitatives. Par exemple : la forme du pis est en forme de coupe, ronde, de chèvre. Avec l’option d’échantillonnage correcte, les trois indicateurs doivent être identiques (c’est-à-dire X, Mo, Me). Ainsi, la première caractéristique d’une population, ce sont les valeurs moyennes, mais elles ne suffisent pas pour juger la population.

Le deuxième indicateur important de toute population est la variabilité ou la variabilité du trait. La variabilité d'un trait est déterminée par de nombreux facteurs environnementaux et internes, c'est-à-dire facteurs héréditaires.

La détermination de la variabilité d’un caractère revêt une grande importance, tant en biologie qu’en élevage. Ainsi, à l'aide de paramètres statistiques qui mesurent le degré de variabilité d'un trait, il est possible d'établir des différences entre races dans le degré de variabilité de divers traits économiquement utiles, de prédire le niveau de sélection dans différents groupes d'animaux, ainsi que son efficacité. .

L'état actuel de l'analyse statistique permet non seulement d'établir le degré de manifestation de la variabilité phénotypique, mais également de diviser la variabilité phénotypique en ses types constitutifs, à savoir la variabilité génotypique et paratypique. Cette décomposition de la variabilité se fait à l'aide d'une analyse de variance.

Les principaux indicateurs de variabilité sont les valeurs statistiques suivantes :

1. Limites ;

2. Écart type (σ) ;

3. Coefficient de variabilité ou variation (Cv).

La manière la plus simple de présenter le degré de variabilité d’un trait consiste à utiliser des limites. Les limites sont déterminées comme suit : la différence entre les valeurs max et min de l'attribut. Plus cette différence est grande, plus la variabilité de ce trait est grande. Le principal paramètre pour mesurer la variabilité d'un trait est l'écart type ou (σ) et est déterminé par la formule :

σ = ±К ∙ √∑ Pa 2-b2

Les principales propriétés de l'écart type, c'est-à-dire (σ) sont les suivants :

1. Sigma est toujours une valeur nommée et est exprimée (en kg, g, mètres, cm, pcs.).

2. Sigma est toujours une valeur positive.

3. Plus la valeur de σ est grande, plus la variabilité du trait est grande.

4. Dans la série de variations, toutes les fréquences sont incluses dans ±3σ.

À l’aide de l’écart type, vous pouvez déterminer à quelle série de variations appartient un individu donné. Les méthodes permettant de déterminer la variabilité d'une caractéristique à l'aide de limites et d'écarts types présentent des inconvénients, car il est impossible de comparer différentes caractéristiques en fonction de l'ampleur de la variabilité. Il est nécessaire de connaître la variabilité de différents caractères chez un même animal ou un même groupe d'animaux, par exemple : variabilité de la production laitière, teneur en matière grasse du lait, poids vif, quantité de matière grasse du lait. Par conséquent, en comparant la variabilité de caractéristiques opposées et en identifiant le degré de leur variabilité, le coefficient de variabilité est calculé à l'aide de la formule suivante :

Ainsi, les principales méthodes d'évaluation de la variabilité des caractéristiques parmi les membres d'une population sont : les limites ; écart type (σ) et coefficient de variation ou variabilité.

Dans la pratique de l’élevage et dans la recherche expérimentale, on est souvent confronté à de petits échantillons. Petit échantillon ils appellent le nombre d'individus ou d'animaux ne dépassant pas 30 ou inférieur à 30. Les modèles établis utilisant un petit échantillon sont transférés à l'ensemble de la population. Pour un petit échantillon, les mêmes paramètres statistiques sont déterminés que pour un grand échantillon (X, σ, Cv, Mx). Cependant, leurs formules et calculs diffèrent d’un grand échantillon (c’est-à-dire des formules et calculs d’une série de variations).

1. Moyenne arithmétique X = ∑V

V - valeur absolue de l'option ou de la caractéristique ;

n est le nombre de variantes ou le nombre d'individus.

2. Écart type σ = ± √ ∑α2

α = x-¯x, c'est la différence entre la valeur de l'option et la moyenne arithmétique. Cette différence α est au carré et α 2 n-1 est le nombre de degrés de liberté, soit le nombre de toutes les variantes ou individus réduit de un (1).

Questions de contrôle:

1.Qu’est-ce que la biométrie ?

2.Quels paramètres statistiques caractérisent la population ?

3.Quels indicateurs caractérisent la variabilité ?

4.Qu'est-ce qu'un petit échantillon

5. Que sont le mode et la médiane ?

Conférence n°12

Biotechnologie et transplantation d'embryons

1. Le concept de biotechnologie.

2. Sélection des vaches donneuses et receveuses, transplantation d'embryons.

3. L'importance de la transplantation en élevage.

L’extension des caractéristiques de l’échantillon à la population générale, basée sur la loi des grands nombres, nécessite une taille d’échantillon suffisamment grande. Cependant, dans la pratique de la recherche statistique, on se heurte souvent à l'impossibilité, pour une raison ou une autre, d'augmenter le nombre d'unités d'échantillonnage de petite taille. Cela s'applique à l'étude des activités des entreprises, des établissements d'enseignement, des banques commerciales, etc., dont le nombre dans les régions est généralement insignifiant et ne représente parfois que 5 à 10 unités.

Dans le cas où la population échantillonnée est constituée d'un petit nombre d'unités, inférieur à 30, l'échantillon est appelé petit Dans ce cas, le théorème de Lyapunov ne peut pas être utilisé pour calculer l’erreur d’échantillonnage, car la moyenne de l’échantillon est influencée de manière significative par la valeur de chacune des unités sélectionnées au hasard et sa distribution peut différer considérablement de la normale.

En 1908, V.S. Gosset a prouvé que l'estimation de l'écart entre la moyenne d'un petit échantillon et la moyenne générale a une loi de distribution particulière (voir chapitre 4). Abordant le problème de l'estimation probabiliste d'une moyenne d'échantillon avec un petit nombre d'observations, il a montré que dans ce cas, il est nécessaire de considérer la distribution non pas des moyennes d'échantillon elles-mêmes, mais de l'ampleur de leurs écarts par rapport à la moyenne des population d'origine. Dans ce cas, les conclusions peuvent être tout à fait fiables.

La découverte de l'étudiant s'appelle théorie du petit échantillon.

Lors de l'évaluation des résultats d'un petit échantillon, la valeur de la variance générale n'est pas utilisée dans les calculs. Dans les petits échantillons, la variance de l'échantillon « corrigée » est utilisée pour calculer l'erreur d'échantillonnage moyenne :

ceux. contrairement aux grands échantillons dans le dénominateur P. coûts (et - 1). Le calcul de l'erreur d'échantillonnage moyenne pour un petit échantillon est donné dans le tableau. 5.7.

Tableau 5.7

Calcul de l'erreur moyenne d'un petit échantillon

L'erreur marginale d'un petit échantillon est : où t- facteur de confiance.

Ordre de grandeur t se rapporte différemment à l’estimation probable qu’à un grand échantillon. Conformément à la distribution de Student, l'estimation probable dépend à la fois de la valeur t, et sur la taille de l'échantillon I dans le cas où l'erreur marginale ne dépasse pas r fois l'erreur moyenne dans les petits échantillons. Toutefois, cela dépend en grande partie du nombre d’unités sélectionnées.

CONTRE. Gosset a compilé un tableau de distributions de probabilités en petits échantillons correspondant à des valeurs données du coefficient de confiance t et différents volumes d'un petit échantillon et, un extrait de celui-ci est donné dans le tableau. 5.8.

Tableau 5.8

Fragment de la table de probabilité de Student (probabilités multipliées par 1000)

Données du tableau 5.8 indiquent qu'avec une augmentation illimitée de la taille de l'échantillon (i = °°), la distribution de Student tend vers la loi de distribution normale, et à i = 20 elle en diffère peu.

Le tableau de répartition des étudiants est souvent présenté sous une forme différente, plus pratique pour une utilisation pratique (tableau 5.9).

Tableau 5.9

Quelques valeurs (distributions t de Student

Nombre de degrés de liberté

pour un intervalle aller simple

pour un espacement bidirectionnel

P= 0,99

Voyons comment utiliser la table de distribution. Chaque valeur fixe P. calculer le nombre de degrés de liberté k, Où k = n- 1. Pour chaque valeur du degré de liberté, la valeur limite est indiquée t p (t 095 ou t 0 99), qui avec une probabilité donnée R. ne sera pas dépassé en raison des fluctuations aléatoires des résultats d’échantillonnage. Basé sur l'ampleur tp les limites de la confiance sont déterminées

intervalle

En règle générale, le niveau de confiance utilisé dans les tests bilatéraux est P = 0,95 ou P = 0,99, ce qui n'exclut pas le choix d'autres valeurs de probabilité. La valeur de probabilité est sélectionnée en fonction des exigences spécifiques des tâches pour lesquelles un petit échantillon est utilisé.

La probabilité que les valeurs moyennes générales dépassent l'intervalle de confiance est égale à q,q = 1 - R. Cette valeur est très petite. En conséquence, pour les probabilités considérées R. c'est 0,05 et 0,01.

Les petits échantillons sont répandus dans les sciences techniques et la biologie, mais ils doivent être utilisés dans la recherche statistique avec une grande prudence, uniquement avec un examen théorique et pratique approprié. Un petit échantillon ne peut être utilisé que si la distribution de la caractéristique dans la population est normale ou proche de celle-ci et que la valeur moyenne est calculée à partir de données d'échantillon obtenues à la suite d'observations indépendantes. De plus, gardez à l’esprit que la précision des résultats d’un petit échantillon est inférieure à celle d’un grand échantillon.

statistiques sur petit échantillon

Il est généralement admis que le début de S. m.v. ou, comme on l'appelle souvent, la statistique des « petits n », a été fondée dans la première décennie du XXe siècle avec la publication des travaux de W. Gosset, dans lesquels il a placé la distribution t postulée par « l'étudiant » qui a acquis une renommée mondiale un peu plus tard. À l’époque, Gossett travaillait comme statisticien dans les brasseries Guinness. L'une de ses tâches consistait à analyser les lots successifs de fûts de porter fraîchement brassé. Pour une raison qu'il n'a jamais vraiment expliquée, Gossett a expérimenté l'idée de réduire considérablement le nombre d'échantillons prélevés sur le très grand nombre de fûts présents dans les entrepôts de la brasserie afin de contrôler aléatoirement la qualité du porteur. Cela l'a amené à postuler la distribution t. Parce que les statuts des brasseries Guinness interdisaient à leurs employés de publier les résultats de leurs recherches, Gossett a publié les résultats de son expérience comparant l'échantillonnage de contrôle de qualité utilisant la distribution t pour les petits échantillons et la distribution z traditionnelle (distribution normale) de manière anonyme, sous le pseudonyme de « Student ». " - d'où le nom de distribution t de Student).

distribution t. La théorie de la distribution t, comme la théorie de la distribution z, est utilisée pour tester l'hypothèse nulle selon laquelle deux échantillons sont simplement des échantillons aléatoires de la même population et que, par conséquent, les statistiques calculées (par exemple, moyenne et écart type) sont des estimations impartiales des paramètres de la population. Cependant, contrairement à la théorie de la distribution normale, la théorie de la distribution t pour les petits échantillons ne nécessite pas de connaissance a priori ni d'estimations précises de la valeur attendue et de la variance de la population. De plus, bien que tester la signification statistique d’une différence entre les moyennes de deux grands échantillons nécessite l’hypothèse fondamentale selon laquelle les caractéristiques de la population sont normalement distribuées, la théorie de la distribution t n’exige pas d’hypothèses sur les paramètres.

Il est bien connu que les caractéristiques normalement distribuées sont décrites par une seule courbe - la courbe de Gauss, qui satisfait l'équation suivante :

Avec la distribution t, toute la famille de courbes est représentée par la formule suivante :

C'est pourquoi l'équation de t inclut une fonction gamma, ce qui signifie en mathématiques que lorsque n change, une courbe différente satisfera l'équation donnée.

Degrés de liberté

Dans l'équation de t, la lettre n désigne le nombre de degrés de liberté (df) associé à l'estimation de la variance de la population (S2), qui représente le deuxième moment de toute fonction génératrice de moment, telle que l'équation de la distribution t. . Dans S., le nombre de degrés de liberté indique combien de caractéristiques restent libres après leur utilisation partielle dans un type particulier d'analyse. Dans une distribution t, l'un des écarts par rapport à la moyenne de l'échantillon est toujours fixe, puisque la somme de tous ces écarts doit être égale à zéro. Cela affecte la somme des carrés lors du calcul de la variance de l'échantillon en tant qu'estimation non biaisée du paramètre S2 et conduit à ce que df soit égal au nombre de mesures moins une pour chaque échantillon. Par conséquent, dans les formules et procédures de calcul des statistiques t pour tester l’hypothèse nulle, df = n - 2.

Division F-pac. L'hypothèse nulle testée par un test t est que les deux échantillons ont été tirés au hasard dans la même population ou ont été tirés au hasard dans deux populations différentes avec la même variance. Mais que se passe-t-il si vous devez analyser davantage de groupes ? La réponse à cette question a été cherchée vingt ans après que Gosset ait découvert la distribution t. Deux des statisticiens les plus éminents du XXe siècle ont été directement impliqués dans sa production. L'un d'eux est le plus grand statisticien anglais R. A. Fisher, qui a proposé les premières théories. des formulations dont le développement a conduit à la production de la distribution F ; ses travaux sur la théorie des petits échantillons, développant les idées de Gosset, furent publiés au milieu des années 20 (Fisher, 1925). Un autre est George Snedecor, l'un des premiers statisticiens américains, qui a développé un moyen de comparer deux échantillons indépendants de n'importe quelle taille en calculant le rapport de deux estimations de variance. Il a appelé cette relation le rapport F, d'après Fischer. Résultats de recherche Snedecor a conduit au fait que la distribution F a commencé à être spécifiée comme la distribution du rapport de deux statistiques c2, chacune avec ses propres degrés de liberté :

De là est né le travail classique de Fisher sur l’analyse de la variance, une méthode statistique explicitement axée sur l’analyse de petits échantillons.

La distribution d'échantillonnage F (où n = df) est représentée par l'équation suivante :

Comme pour la distribution t, la fonction gamma indique qu'il existe une famille de distributions qui satisfont à l'équation de F. Dans ce cas, cependant, l'analyse implique deux quantités df : le nombre de degrés de liberté pour le numérateur et pour le dénominateur du rapport F.

Tableaux pour estimer les statistiques t et F. Lors du test de l'hypothèse nulle à l'aide de S., basé sur la théorie des grands échantillons, une seule table de recherche est généralement requise - une table d'écarts normaux (z), qui vous permet de déterminer l'aire sous la courbe normale entre deux valeurs z quelconques. ​​​​sur l'axe des x. Cependant, les tableaux des distributions t et F sont nécessairement présentés dans un ensemble de tableaux, puisque ces tableaux sont basés sur une variété de distributions résultant de la variation du nombre de degrés de liberté. Bien que les distributions t et F soient des distributions de densité de probabilité, comme la distribution normale pour les grands échantillons, elles diffèrent de cette dernière de quatre manières qui sont utilisées pour les décrire. La distribution t, par exemple, est symétrique (notez t2 dans son équation) pour tous les df, mais atteint un sommet de plus en plus élevé à mesure que la taille de l'échantillon diminue. Les courbes à pic (celles avec un aplatissement supérieur à la normale) ont tendance à être moins asymptotiques (c'est-à-dire moins proches de l'axe des x aux extrémités de la distribution) que les courbes avec un aplatissement normal, comme la courbe de Gauss. Cette différence se traduit par des écarts notables entre les points de l'axe des x correspondant aux valeurs t et z. Avec df = 5 et un niveau α bilatéral de 0,05, t = 2,57, alors que le z correspondant = 1,96. Par conséquent, t = 2,57 indique une signification statistique au niveau de 5 %. Cependant, dans le cas d'une courbe normale, z = 2,57 (plus précisément 2,58) indiquera déjà un niveau de signification statistique de 1 %. Des comparaisons similaires peuvent être faites avec la distribution F, puisque t est égal à F lorsque le nombre d’échantillons est de deux.

Qu’est-ce qui constitue un « petit » échantillon ?

À un moment donné, la question a été posée de savoir quelle devait être la taille de l’échantillon pour être considéré comme petit. Il n’y a tout simplement pas de réponse définitive à cette question. Cependant, la limite conventionnelle entre un petit et un grand échantillon est considérée comme étant df = 30. La base de cette décision quelque peu arbitraire est le résultat de la comparaison de la distribution t avec la distribution normale. Comme indiqué ci-dessus, l'écart entre les valeurs t et z a tendance à augmenter à mesure que df diminue et à diminuer à mesure que df augmente. En fait, t commence à se rapprocher de z bien avant le cas limite où t = z pour df = ∞. Un simple examen visuel des valeurs du tableau de t montre que cette approximation devient assez rapide, à partir de df = 30 et plus. Les valeurs comparatives de t (à df = 30) et z sont égales, respectivement : 2,04 et 1,96 pour p = 0,05 ; 2,75 et 2,58 pour p = 0,01 ; 3,65 et 3,29 pour p = 0,001.

Autres statistiques pour les « petits » échantillons

Bien que les statistiques telles que t et F soient spécifiquement conçues pour être utilisées avec de petits échantillons, elles sont également applicables à de grands échantillons. Il existe cependant de nombreuses autres méthodes statistiques conçues pour analyser de petits échantillons et sont souvent utilisées à cette fin. Cela fait référence à ce qu'on appelle. méthodes non paramétriques ou sans distribution. Fondamentalement, les échelles apparaissant dans ces méthodes sont destinées à être appliquées à des mesures obtenues à l'aide d'échelles qui ne satisfont pas à la définition d'échelles de ratio ou d'intervalle. Il s’agit le plus souvent de mesures ordinales (rang) ou nominales. Les échelles non paramétriques ne nécessitent pas d'hypothèses concernant les paramètres de distribution, en particulier en ce qui concerne les estimations de dispersion, car les échelles ordinales et nominales éliminent le concept même de dispersion. Pour cette raison, des méthodes non paramétriques sont également utilisées pour les mesures obtenues à l'aide d'échelles d'intervalle et de rapport lorsque de petits échantillons sont analysés et que les hypothèses de base requises pour l'utilisation de méthodes paramétriques sont susceptibles d'être violées. Ces tests, qui peuvent être raisonnablement appliqués à de petits échantillons, comprennent : le test de probabilité exacte de Fisher, l'analyse de variance non paramétrique (rang) à deux facteurs de Friedman, le coefficient de corrélation de rang t de Kendall, le coefficient de concordance (W) de Kendall, le test H de Kruskal - Wallace. pour l'analyse unidirectionnelle non paramétrique (de rang) de la variance, le test U de Mann-Whitney, le test médian, le test des signes, le coefficient de corrélation de rang de Spearman r et le test t de Wilcoxon.