Razlika med vzorčno varianco in populacijsko varianco

Pojasnilo

V statistiki se izraz vzorčenje nanaša na izbiro dela zbirnih statističnih podatkov za namen pridobivanja ustreznih informacij o celoti. Skupni ali celotni statistični podatki o določenem značaju vseh članov, ki jih zajema preiskava, se imenujejo „prebivalstvo“ ali „vesolje“. (Das, NG, 2010). Izbrani del populacije, ki se uporablja za pridobivanje značilnosti populacije ali vesolja, se imenuje "vzorec". Populacijo sestavljajo posamezne enote ali člani, nekatere enote pa so vključene v vzorec. Skupno število enot populacije se imenuje velikost populacije, velikost vzorca pa velikost vzorca. Populacija in vzorec sta lahko končna ali neskončna, podobno pa sta lahko obstojna ali hipotetična.

Odstopanje: Odmik je numerična vrednost, ki prikazuje, kako široko se posamezne številke v nizu podatkov porazdelijo glede povprečja. Tako je vsaka številka oddaljena od povprečja in s tem drug od drugega. Različica ničelne vrednosti pomeni, da so vsi podatki enaki. Večja je varianca, bolj so vrednosti razporejene glede na povprečje, torej drug od drugega. Manjša je varianca, manjše so vrednosti, razporejene okoli povprečja, torej drug od drugega, varianca pa ne more biti negativna.

Razlika med populacijsko varianco in vzorčno varianco

Glavna razlika med populacijsko varianco in vzorčno varianco se nanaša na izračun variance. Odstopanje se izračuna v petih korakih. Najprej se izračuna povprečje, nato izračunamo odstopanja od povprečja, tretjič pa odstopanja na kvadrat, četrtič se kvadratna odstopanja seštejejo in nazadnje se ta vsota deli s številom postavk, za katere se izračuna varianca. Tako je varianca = Σ (xi-x-)/n. Kjer je xi = i. Število, x- = povprečje in n = število postavk.

Ko je treba varianco izračunati iz podatkov o prebivalstvu, je n enako številu postavk. Torej, če je treba varianco krvnega tlaka vseh 1000 ljudi izračunati iz podatkov o krvnem tlaku vseh 1000 ljudi, potem je n = 1000. Če pa se varianca izračuna iz vzorčnih podatkov, je treba 1 odšteti od n pred delitvijo vsota kvadratnih odstopanj. Tako bi v zgornjem primeru, če imajo vzorčni podatki 100 postavk, imenovalec 100 - 1 = 99.

Zaradi tega je vrednost variance, izračunana iz vzorčnih podatkov, višja od vrednosti, ki bi jo lahko ugotovili z uporabo populacijskih podatkov. Logika tega je, da nadomestimo naše pomanjkanje informacij o podatkih o prebivalstvu. Nemogoče je ugotoviti variacijo višine pri ljudeh, saj naše absolutno pomanjkanje informacij o višinah vseh živih človeških bitij, da ne govorimo o prihodnosti. Tudi če vzamemo en zmeren primer, kot so podatki o prebivalstvu o višinah vseh živih moških v ZDA, je to fizično mogoče, vendar bi stroški in čas, povezani s tem, premagali namen njegovega izračuna. To je razlog, zakaj se vzorčni podatki vzamejo za večino statističnih namenov, to pa spremlja pomanjkanje informacij o večini podatkov. Da bi to nadomestili, sta vrednost variance in standardnega odklona, ​​ki je kvadratni koren variance, v primeru vzorčnih podatkov višja kot odstopanje od populacijskih podatkov.

To deluje kot samodejni ščit za analitike in odločevalce. Logika velja za odločitve o kapitalskem proračunu, osebnih in poslovnih financah, gradbeništvu, upravljanju prometa in številnih veljavnih področjih. To pomaga deležniku, da je na varni strani pri odločanju ali pri drugih sklepih.

Povzetek: Variacija prebivalstva se nanaša na vrednost variance, ki se izračuna iz populacijskih podatkov, vzorčna varianca pa je varianca, izračunana na podlagi vzorčnih podatkov. Zaradi te vrednosti imenovalec v formuli za odstopanje v primeru vzorčnih podatkov je 'n-1', za podatke o populaciji pa je 'n'. Posledično sta varianca in standardni odklon, pridobljeni iz vzorčnih podatkov, večji od tistih, ugotovljenih iz populacijskih podatkov.

Poglej več o: ,