Razlika med standardno odstopanje in standardna napaka

Uvod

Standardna D eviation (SD) in s tandard E rror (SE) so na videz podobni terminologijo; Vendar pa so konceptualno tako spreminjajo, da se uporabljajo skoraj izmenično v statistiki literaturi. Oba izraza se običajno pred simbolom plus-minus (+/-), kar kaže na dejstvo, da se opredeli simetrično vrednost ali pa predstavljajo številne vrednosti. Vedno, tako izrazi pojavljajo v povprečju (povprečno) niza izmerjenih vrednosti.

Zanimivo je, da SE nima nič opraviti s standardi, z napakami, ali s predložitvijo znanstvenih podatkov.

Podroben pogled na izvor in razlaga SD in SE bo razkril, zakaj poklicni statistiki in tisti, ki ga uporabljajo površno, tako pogosto, da napačno.

Standardni odklon (SD)

SD je opisna statistika opisuje širjenje distribucije. Kot meritev, je koristno, če se podatki so normalno porazdeljeni. Vendar pa je manj koristno, če so podatki zelo postrani ali bimodalna, saj ne opisuje zelo dobro obliko distribucije. Značilno je, da uporabljamo SD pri poročanju značilnosti vzorca, saj želimo opisati, koliko podatkov se giblje okoli povprečja. Druge koristne statistika za opis širjenja podatkov so med četrtina območje, 25. in 75. percentil in obseg podatkov.

1 Slika 1. SD je merilo širjenja podatkov. Kadar so podatki vzorec iz normalno porazdeljene porazdelitve, potem si predstavljamo dve tretjini podatkov, znotraj 1 standardni odmik srednja.

Variance je opisna statistika tudi, in je definirana kot kvadratni standardnega odklona. To ni običajno poročajo pri opisu rezultatov, vendar je bolj matematično Povodljiv formulo (aka vsota kvadratov odstopanj) in igra pomembno vlogo pri izračunu statističnih podatkov.

Na primer, če imamo dve statistiki P & Q z znano variance var (P) In var (Q), potem je varianca vsota p + q enaka vsoti variance: var (P) + var (Q ). Zdaj je jasno, zakaj statistiki rad govori o varianc.

Ampak standardni odkloni izvedbo pomemben pomen za širjenje, še posebej, če so podatki normalno porazdeljeni: Interval povprečna +/- 1 SD, se lahko pričakuje, da bo zajem 2/3 vzorca in interval povprečna + - 2 SD se lahko pričakuje, da bo zajemanje 95% vzorca.

SD zagotavlja kaže, kako daleč posameznih odgovorov na vprašanja razlikujejo ali "odstopajo" iz povprečja. SD pove raziskovalca, kako se širijo iz odgovorov - so zgoščeni okoli srednja ali razpršeni daleč in široko? Ali vse svoje anketirancev ocenili vaš izdelek v sredini svojega obsega, ali pa nekateri ga odobri in nekaj zavrni to?

Razmislite poskus, kjer so anketiranci morali oceniti izdelek na niz atributov na 5-stopenjski lestvici. Povprečni za skupino desetih anketirancev (označen z "A" skozi "J" spodaj) za "dobro vrednost za denar" je bil 3,2 s SD 0,4 in srednja za "zanesljivost izdelka" je 3,4 s SD 2,1.

Na prvi pogled (gledaš sredstva le) se zdi, da zanesljivost je ocenilo višje od vrednosti. Vendar pa bi višje SD za zanesljivost kažejo (kot je prikazano v distribuciji spodaj), ki so bili odzivi zelo polarizirano, kjer je večina vprašanih ni imela težav z zanesljivostjo (ocenjeno atribut za "5"), ampak manjši, vendar pomemben segment anketirancev je imelo problem zanesljivost in ocenjeno atribut "1". Če pogledamo povprečno sam pove le del zgodbe, pa je bolj pogosto kot ne, to je tisto, kar raziskovalci osredotočili. Porazdelitev odgovorov je pomembno upoštevati in SD zagotavlja dragoceno opisno merilo za to.

anketiranec Dobra vrednost za denar Izdelek Zanesljivost
3 1
B 3 1
C 3 1
D 3 1
E 4 5
F 4 5
G 3 5
H 3 5
jaz 3 5
J 3 5
Pomeni 3.2 3.4
Std. Dev. 0.4 2.1

Prva raziskava: Anketiranci rating proizvod na 5-stopenjski lestvici

Dva zelo različna distribucije odgovorov na 5-točkovni lestvici za ocenjevanje je lahko dobimo enako srednjo vrednost. Razmislite o naslednji primer, ki kaže odzivanje vrednosti za dve različni ocen.

V prvem primeru (ocena "A"), SD, je nič, ker so bili vsi odzivi ravno srednja vrednost. Posamezni odgovori niso odstopali sploh od povprečja.

V Ocena "B", čeprav je skupina, srednja je enaka (3,0) kot prvi razdelitvi, standardni odklon je višja. Standardni odklon 1,15 kaže, da posameznih odgovorov, v povprečju *, je bilo malo več kot 1 točko oddaljen od srednja.

anketiranec Ocena "A" Ocena "B"
3 1
B 3 2
C 3 2
D 3 3
E 3 3
F 3 3
G 3 3
H 3 4
jaz 3 4
J 3 5
Pomeni 3.0 3.0
Std. Dev. 0.00 1.15

Druga raziskava: Anketiranci rating proizvod na 5-stopenjski lestvici

Drug način gledanja na SD je z izrisom distribucije kot histogram odgovorov. Distribucijski z nizkim SD bi prikazal kot visok ozek obliko, medtem ko bi bil visok SD označena s širšo obliko.

SD na splošno, ne pa "prav in narobe" ali "boljše ali slabše" - nižja SD ni nujno bolj zaželeno. Uporablja se zgolj kot opisno statistiko. Opisuje porazdelitev v odnosu do srednja.

T EHNIČNA disclaimer v zvezi s SD

Razmišljate o SD kot "povprečni odklon" je odličen način za konceptualno razumevanje njenega pomena. Vendar pa se dejansko ni izračunana kot povprečje (če bi bilo, bi ga imenujemo "povprečni odklon"). Namesto tega je "standardizirana," je nekoliko zapleten način izračuna vrednosti z uporabo vsoto kvadratov.

Iz praktičnih razlogov se izračun ni pomembno. Večina tabelarni programov, preglednic ali druga orodja za upravljanje podatkov bo izračunal SD za vas. Bolj pomembno je, da razumejo, kaj statistika posredovati.

Standardna napaka

Standardna napaka je inferencialnega statistika, ki se uporablja za primerjavo vzorčnih sredstvo (povprečje) čez populacije. To je merilo natančnosti vzorca povprečja. Vzorec srednja je statistika, ki izhaja iz podatkov, ki jih ima za osnovno porazdelitev. Mi ne moremo vizualizirati na enak način, kot je podatkov, saj smo izvedli samo en poskus in imajo le eno vrednost. Statistični teorija nam pove, da se vzorec srednja (za veliki "dovolj" vzorec in pod nekaj pogoji pravilnosti) približno normalno porazdeljena. Standardni odklon te normalne porazdelitve je tisto, čemur pravimo standardno napako.

2 Slika 2. Porazdelitev na repre dišave dna distribucijo podatkov, ker je razdelitev na vrhu je teoretično porazdelitev povprečja vzorca. SD za 20 je merilo širjenja podatkov, ker SE 5 je merilo negotovosti okoli srednje vrednosti vzorca.

Ko želimo primerjati sredstva rezultatov iz dveh vzorcev poskus zdravljenja A v primerjavi Zdravljenje B, potem moramo oceniti, kako natančno smo merili sredstva.

Pravzaprav smo zainteresirani, kako natančno smo izmerili razliko med dvema načinoma. Temu pravimo ukrep standardna napaka razlike. Ti ne smejo biti presenečeni, da se naučijo, da je standardna napaka razlike v vzorčnih sredstvih funkcija standardnih napak sredstev:

3 Zdaj, ko ste razumeli, da sta standardna napaka povprečja (SE) in standardni odklon porazdelitve (SD), dve različni zveri, boste morda sprašujete, kako so jih zamenjali na prvem mestu. Medtem ko so konceptualno razlikujejo, imajo preprost odnos matematično:

4

, Kjer je n število podatkovnih točk.

Obvestilo, da standardna napaka odvisna od dveh delov: standardnega odklona vzorca in velikost vzorca n. To omogoča intuitiven občutek: večji standardni odklon vzorca, manj natančno bomo lahko o naši oceni prave povprečja.

Prav tako je velik vzorec velikosti, več informacij imamo o prebivalstvu in natančneje lahko ocenimo pravi povprečje.

SE je znak zanesljivosti povprečja. Majhen SE pomeni, da je vzorec srednja bolj natančen odraz dejanskega povprečja prebivalstva. Večja velikost vzorca je običajno za posledico manjše SE (pa SD ne vzorčne velikosti neposredno zadeva).

Večina raziskava raziskave je oblikovanje vzorca iz populacije. Nato smo sklepati o prebivalstvu iz rezultatov, pridobljenih iz tega vzorca. Če je bil pripravljen drugi vzorec, rezultati verjetno ne bo popolnoma ujema prvi vzorec. Če je bila povprečna vrednost za bonitetne atribut 3.2 za en vzorec, bi bilo 3,4 za drugi vzorec enake velikosti. Če smo bili, da pripravi neskončno število vzorcev (enake velikosti) iz našega prebivalstva, bi lahko prikaz opaženih sredstva kot distribucije. Mi lahko potem izračunamo povprečje vseh naših vzorčnih sredstev. To pomeni, da je enaka pravi prebivalstva srednjo vrednost. Prav tako lahko izračunamo SD porazdelitve vzorčnih sredstev. SD te porazdelitve vzorčnih sredstev je SE posameznega vzorca povprečja.

Mi, torej, imamo najbolj pomembno ugotovitev: SE je SD od povprečja populacije.

vzorec Pomeni
1. 3.2
2. 3.4
3. 3.3
4. 3.2
5. 3.1
…. ….
…. ….
…. ….
…. ….
…. ….
Pomeni 3.3
Std. Dev. 0.13

Tabela prikazuje razmerje med SD in SE

Zdaj je jasno, da če SD te distribucije nam pomaga razumeti, kako daleč je vzorec srednja iz pravega povprečja prebivalstva, potem lahko uporabite to razumeti, kako natančno je vsak posameznik vzorec pomeni v odnosu do pravega povprečja. To je bistvo SE.

V resnici pa smo le pripravi enoten vzorec iz našega prebivalstva, vendar se lahko ta rezultat uporabijo za zagotavljanje oceno zanesljivosti našega opazovanega vzorca povprečja.

Dejstvo je, SE nam pove, da smo lahko 95% prepričan, da je naša opažena vzorec srednja plus ali minus približno 2 (dejansko 1,96) Standardne napake od povprečja populacije.

Spodnja tabela prikazuje porazdelitev odgovorov iz našega prvega (in edinega) vzorca, ki se uporabljajo za naše raziskave. SE 0,13, pri čemer so relativno majhni, nam kaže, da je naša povprečna relativno blizu prave povprečje naše celotne populacije. Je stopnja napake (pri 95% intervalom zaupanja) za naše reči (približno), dvakrat večja vrednost (+/- 0,26), nam pove, da je najverjetneje med 2,94 in 3,46 pravi srednja.

anketiranec Ocena
3
B 3
C 3
D 3
E 4
F 4
G 3
H 3
jaz 3
J 3
Pomeni 3.2
Std. err 0.13

Povzetek

Mnogi raziskovalci ne razumejo razliko med standardno odstopanje in standardna napaka, čeprav so pogosto vključeni v analizo podatkov. Medtem ko dejanskih izračunov za standardne deviacije in standardne videz napak zelo podobno, predstavljajo dve zelo različni, vendar komplementarni, ukrepe. SD nam pove o stanju naše distribucije, kako blizu so posamezne vrednosti podatkov od srednje vrednosti. SE nam pove, kako blizu naše vzorec sredina je na pravi povprečje celotne populacije. Skupaj pomagajo zagotoviti bolj celovito sliko, kot je povprečna sam nam lahko pove.

Preberite več o: ,