Todennäköisyyden rooli

Normaalijakauma on normaalijakauma, jonka keskiarvo on nolla ja keskihajonta 1. Normaalijakauman keskipiste on nollassa, ja keskihajonnan avulla saadaan selville, kuinka paljon tietty mittaus poikkeaa keskiarvosta. Standardinormaalijakauman osalta 68 % havainnoista on yhden keskihajonnan sisällä, 95 % on kahden keskihajonnan sisällä ja 99,9 % on kolmen keskihajonnan sisällä. Tähän asti olemme käyttäneet ”X:ää” kuvaamaan kiinnostavaa muuttujaa (esim. X=BMI, X=pituus, X=paino). Kun käytämme vakionormaalijakaumaa, käytämme kuitenkin sanaa ”Z” viittaamaan muuttujaan vakionormaalijakauman yhteydessä. Normalisoinnin jälkeen edellisellä sivulla käsitelty BMI=30 näkyy alla, kun se makaa 0,16667 yksikköä oikealla olevan vakionormaalijakauman keskiarvon 0 yläpuolella.

====

Koska vakiokäyrän alapuolinen pinta-ala on = 1, voimme ryhtyä määrittelemään tarkemmin tietyn havainnon todennäköisyyksiä. Minkä tahansa Z-pistemäärän osalta voimme laskea kyseisen Z-pistemäärän vasemmalla puolella olevan käyrän alle jäävän pinta-alan. Alla olevassa kehyksessä olevassa taulukossa esitetään todennäköisyydet standardinormaalijakaumalle. Tutki taulukkoa ja huomaa, että Z-pistemäärän 0,0 todennäköisyys on 0,50 eli 50 % ja Z-pistemäärän 1 eli yhden keskihajonnan keskiarvon yläpuolella todennäköisyys on 0,8413 eli 84 %. Tämä johtuu siitä, että yksi keskihajonta keskiarvon ylä- ja alapuolella kattaa noin 68 % alueesta, joten yksi keskihajonta keskiarvon yläpuolella edustaa puolta tästä 34 %:sta. Eli 50 % keskiarvon alapuolella plus 34 % keskiarvon yläpuolella antaa meille 84 %.

Normaalijakauman Z todennäköisyydet

Tämä taulukko on järjestetty siten, että siinä ilmoitetaan käyrän alapuolella oleva pinta-ala, joka on vasemmanpuoleinen tai pienempi kuin tietty arvo eli ”Z-arvo”. Tässä tapauksessa, koska keskiarvo on nolla ja keskihajonta on 1, Z-arvo on keskihajonnan yksiköiden määrä keskiarvosta, ja pinta-ala on todennäköisyys havaita arvoa, joka on pienempi kuin kyseinen Z-arvo. Huomaa myös, että taulukossa näytetään todennäköisyydet Z:n kahden desimaalin tarkkuudella. Yksikköpaikka ja ensimmäinen desimaali näkyvät vasemmassa sarakkeessa, ja toinen desimaali näkyy ylärivin poikki.

Mutta palataanpa takaisin kysymykseen todennäköisyydestä, että BMI on alle 30, eli P(X<30). Voimme vastata tähän kysymykseen käyttämällä tavallista normaalijakaumaa. Alla olevissa kuvissa on esitetty 60-vuotiaiden miesten BMI:n jakaumat ja vakionormaalijakauma vierekkäin.

Kehon painoindeksin jakauma ja vakionormaalijakauma

====

Kummankin käyrän alle jäävä pinta-ala on yksi, mutta X-akselin skaalaus on erilainen. Huomaa kuitenkin, että katkoviivan vasemmalla puolella olevat alueet ovat samat. BMI-jakauma vaihtelee välillä 11-47, kun taas standardoitu normaalijakauma, Z, vaihtelee välillä -3-3. Haluamme laskea P(X < 30). Tätä varten voimme määrittää Z-arvon, joka vastaa arvoa X = 30, ja käyttää sitten edellä olevaa vakioidun normaalijakauman taulukkoa todennäköisyyden tai käyrän alle jäävän alueen löytämiseksi. Seuraava kaava muuntaa X-arvon Z-arvoksi, jota kutsutaan myös standardoiduksi arvoksi:

jossa μ on muuttujan X keskiarvo ja σ on muuttujan X keskihajonta.

Laskettaaksemme P(X < 30) muunnamme X=30 vastaavaksi Z-pistemääräksi (tätä kutsutaan standardoinniksi):

Siten P(X < 30) = P(Z < 0.17). Voimme sitten etsiä tätä Z-pistemäärää vastaavan todennäköisyyden tavallisesta normaalijakaumataulukosta, joka osoittaa, että P(X < 30) = P(Z < 0,17) = 0,5675. Näin ollen todennäköisyys sille, että 60-vuotiaalla miehellä on BMI alle 30, on 56,75 %.

Muutama esimerkki

Käyttäen samaa BMI:n jakaumaa, mikä on todennäköisyys sille, että 60-vuotiaalla miehellä on BMI yli 35? Toisin sanoen, mikä on P(X > 35)? Jälleen normalisoimme:

Mennään nyt normaalijakauman standarditaulukkoon etsimään P(Z>1) ja Z=1.00:lle löydämme, että P(Z<1.00) = 0.8413. Huomaa kuitenkin, että taulukko antaa aina todennäköisyyden, että Z on pienempi kuin annettu arvo, eli se antaa meille P(Z<1)=0,8413.

Siten P(Z>1)=1-0,8413=0,1587. Tulkinta: Lähes 16 %:lla 60-vuotiaista miehistä on BMI yli 35.

Normaalitodennäköisyyslaskuri

Z-pisteet R:llä

Vaihtoehtona normaalitodennäköisyyksien etsimiseen taulukosta tai Excelin käyttämiseen voimme käyttää R:ää todennäköisyyksien laskemiseen. Esimerkiksi

> pnorm(0)

Z-pistemäärällä 0 (minkä tahansa jakauman keskiarvo) on 50 % alueesta vasemmalla. Mikä on todennäköisyys sille, että yllä olevaan perusjoukkoon kuuluvan 60-vuotiaan miehen BMI on alle 29 (keskiarvo)? Z-pistemäärä olisi 0 ja pnorm(0)=0,5 eli 50 %.

Millä todennäköisyydellä 60-vuotiaalla miehellä on BMI alle 30? Z-pistemäärä oli 0,16667.

> pnorm(0,16667)

Todennäköisyys on siis 56,6 %.

Millä todennäköisyydellä 60-vuotiaalla miehellä on BMI yli 35?

35-29=6, joka on yhden keskihajonnan keskiarvon yläpuolella. Voimme siis laskea alueen vasemmalle

> pnorm(1)

ja sitten vähentää tuloksen arvosta 1,0.

1-0,8413447= 0,1586553

Siten todennäköisyys sille, että 60-vuotiaan miehen BMI on yli 35, on 15,8 %.

Vai voimmeko käyttää R:ää koko asian laskemiseen yhdessä vaiheessa seuraavasti:

> 1-pnorm(1)

Todennäköisyys arvoalueelle

Millä todennäköisyydellä 60-vuotiaalla miehellä on BMI välillä 30-35? Huomaa, että tämä on sama kuin kysyä, kuinka suurella osalla 60-vuotiaista miehistä BMI on välillä 30-35. Tarkemmin sanottuna haluamme P(30 < X < 35)? Laskimme aiemmin P(30<X) ja P(X<35); miten näitä kahta tulosta voidaan käyttää sen todennäköisyyden laskemiseen, että BMI on välillä 30 ja 35? Yritä muotoilla ja vastata itse ennen kuin katsot alla olevaa selitystä.

Vastaus

Vastaa

Sähköpostiosoitettasi ei julkaista.