Keskiluvut

Jos tilastomuuttujan \(x\) havaintoja on \(n\) kappaletta ja havaintoarvot ovat \(x_1, x_2, ..., x_n\),
aritmeettinen keskiarvo \(\bar{x}\) voidaan laskea

\bar{x}=\frac{\sum_{i=1}^{n}{x_i}}{n}=\frac{x_1+x_2+...+x_n}{n}
Lapsi Ikä (kk)
1 15
2 26
3 10
4 9
5 15
6 20
7 18
8 11
9 8
10 20
11 7
12 9
13 10
14 11
15 11
16 10
17 12
18 42
19 17
20 11
21 10

Taulukossa näkyy 21 eri lapsen iät kuukausina, jolloin lapsi puhui ensimmäistä kertaa

Minkä ikäisenä lapset keskimäärin aloittivat puhumaan?

Lasketaan keskiarvo:
\(\bar{x} = \dfrac{15+26+...+11+10}{21}\approx 14{,}4\) kk

Jos \(x_1,x_2,..,x_k\) ovat muuttujan mahdolliset arvot, \(f_1,f_2,...,f_k\) niitä vastaavat absoluuttiset frekvenssit ja \(f_{s1},f_{s2},..,f_{sk}\) suhteelliset frekvenssit, niin

\bar{x}=\frac{\sum_{i=1}^{k}{f_ix_i}}{\sum_{i=1}^{k}f_i}=\frac{\sum_{i=1}^{k}{f_ix_i }}{n}=\frac{f_1x_1+f_2x_2+...+f_kx_k}{n}
\bar{x}=\sum_{i=1}^{k}{f_{si}x_i}=f_{s1}x_1+f_{s2}x_2+...+f_{sk}x_k

eli

Keskiarvon voi laskea myös käyttämällä frekvenssejä.
Idea: sen sijaan, että laskettaisiin esim. summa
\(2+2+2+3+3+3+3+3+3+4+4\),
lasketaankin kertolaskun avulla \(3\cdot 2 + 6\cdot 3+2\cdot 4\)

Jos frekvenssit ajatellaan painokertoimina,
samalla tavalla voidaan laskea painotettu keskiarvo

Ikä (kk) f f %
7 1 5%
8 1 5%
9 2 10%
10 4 19%
11 4 19%
12 1 5%
15 2 10%
17 1 5%
18 1 5%
20 2 10%
26 1 5%
42 1 5%

\(\bar{x}=\frac{1\cdot 7+1\cdot8+2\cdot 9 +4\cdot 10 + ... +1\cdot 42}{21}\approx 14\)

\(\bar{x}=0,05\cdot 7+0,05\cdot 8+0,10\cdot 9 +0,19\cdot 10 + ... +0,05\cdot 42\approx 14\)

Keskiarvo suhteellisilla frekvensseillä laskettuna:

Keskiarvo absoluuttisilla frekvensseillä laskettuna:

Lapsi Ikä (kk)
1 15
2 26
3 10
4 9
5 15
6 20
7 18
8 11
9 8
10 20
11 7
12 9
13 10
14 11
15 11
16 10
17 12
18 42
19 17
20 11
21 10

Taulukossa näkyy 21 eri lapsen iät kuukausina, jolloin lapsi puhui ensimmäistä kertaa

Minkä ikäisenä lapset keskimäärin aloittivat puhumaan?

Ikien keskiarvo: 14,4 kk

On myös muita tapoja arvioida "keskimääräisyyttä"!

Järjestetään ensiksi iät suuruusjärjestykseen.

Lapsi Ikä (kk)
11 7
9 8
4 9
12 9
3 10
13 10
16 10
21 10
8 11
14 11
15 11
20 11
17 12
1 15
5 15
19 17
7 18
6 20
10 20
2 26
18 42

\(\leftarrow\) valitaan järjestyksessä keskimmäinen arvo eli mediaani

Minkä ikäisenä lapset keskimäärin aloittivat puhumaan?

\(\begin{cases}\\ \\ \\ \\ \\ \\ \\ \end{cases}\)

\(\begin{cases}\\ \\ \\ \\ \\ \\ \\ \end{cases}\)

10 havaintoa

10 havaintoa

Voitaisiin sanoa siis myös, että lapset sanovat ensimmäisen sanansa keskimäärin
11-kuukautisina

Kumpi on "oikein", mediaani vai keskiarvo?

mediaani

keskiarvo

Riippuu aina aineistosta, kumpi kuvaa paremmin keskimääräisyttä.

Esim. tässä aineistossa keskiarvoa nostaa tämä selvästi muista poikkeava havainto

Jos poikkeava havainto jätettäisiin pois, keskiarvo tippuisi 14:sta 13:een, mutta mediaani pysyisi samana!

Mediaani (Md) saadaan, kun havaintoaineisto järjestetään ja valitaan keskimmäisin luku. Jos havaintoja on parillinen määrä, mediaani on kahden keskimmäisimmän havainnon keskiarvo.

Ikä (kk) f sf sf%
7 1 1 5%
8 1 2 10%
9 2 4 19%
10 4 8 38%
11 4 12 57%
12 1 13 62%
15 2 15 71%
17 1 16 76%
18 1 17 80%
20 2 19 90%
26 1 20 95%
42 1 21 100%

Mediaanin voi päätellä myös summafrekvenssin avulla

Keskimmäisin havainto on järjestyksessä yhdestoista, ja siihen mennessä on täytynyt kertyä 50% havainnoista.
Siis mediaani-ikä on 11 kk.

Entä mikä on yleisin ikä, jolloin lapset sanovat ensimmäisen sanansa?

Yleisimmät iät ovat 10 ja 11 kk

Moodi (Mo) eli tyyppiarvo on tilastomuuttujan yleisin arvo.
Jos tällaisia arvoja on useampia, ne ovat kaikki moodeja.
Jos kaikki arvot esiintyvät aineistossa vain kerran,
moodia ei ole määritelty.

03 Keskiluvut

By Timo Pelkola

03 Keskiluvut

  • 135