liftleaf
"I want you to name it, I do"
數據分析
Lecturer:
建北電資小設課運算思維 Lesson 2
I swear,我原本想要用上堂課的模板來做這個簡報,但那個背景亮哭我ㄌ
一維數據分析
aka 泥悶得仙貝芝士!
算術平均數
設一組n個數據 x1,x2,x3,...,xn ,則
算術平均數 μ=n1i=1∑nxi
超級簡單對吧,只是我不知道你們還習不習慣∑的寫法就是了
加權平均數
設一組n個數據 x1,x2,x3,...,xn
加權平均數w=i=1∑nwii=1∑nxiwi
同樣也能理解對吧,算段考平均成績的時候可以用到ㄛ
且分別對應權數w1,w2,w3,...,wn,則
幾何平均數
設一組皆為正數的n個數據 x1,x2,x3,...,xn,則
=ni=1∏nxi
如果這組資料的數字是有相乘性質的,
那我們就應該要使用幾何平均數!
如:利率等。
加權平均數
非常小小的例題
以下是運算思維講師之一 rainple0130 這次段考的各科成績。請聰明的你來幫幫他算出他這次段考的加權平均分數ㄅ :partying_face:
科目 | 成績 | 學分 |
---|---|---|
國文 | 77 | 4.0 |
數學 | 72 | 4.0 |
英文 | 65 | 4.0 |
物理 | 86 | 3.0 |
化學 | 70 | 3.0 |
歷史 | 82 | 2.0 |
ans: 74.4分 (吧
一塊地毯在印度原產地賣給當地集貨商時是成本的6倍,集貨商賣給外銷商是其成本的4倍,外銷商賣給美國的進口商是其成本的3倍,而進口商賣給當地的大賣店是成本的3倍,大賣店賣給零售商則是其成本的2倍。試問平均每一經手者賣出價錢是其成本的幾倍?
[ 北一學資第二冊第二章數據分析 P.32 B部分第一題 ]
(若有必要,請使用計算機。)
不要問我怎麼拿到的w
ans: 約3.37倍
非常小小的例題
眾數 & 全距
眾數:一組數據中出現最多次的東東
全距:一組數據中最大與最小數之差
中位數
將一組n個數據由小排到大後,
(1)若n是奇數:令k=2n+1,則中位數為xk
(2)若n是偶數:令k=2n,則中位數為2xk+xk+1
百分位數
將一組n個數據由小排到大後,定義第k百分位數Pk為:
(1)若n×100k為整數:
令m=n×100k,則Pm=2xm+xm+1
(2)若n×100k是非整數:
類推適用w (好我不知道我在說什麼
令m=(n×100k無條件進入到整數位),則Pm=2xm+xm+1
四分位數
第一四分位數為Q1=P25
第二四分位數為Q2=P50
第三四分位數為Q3=P75
呈上頁,第k百分位數為Pk
很小的練習
一組數據22,25,29,29,25,26,a,b,c,已知眾數是29,中位數是28,算術平均數是27,且a>b>c),求a。
ans: 30
很小的練習
在九年級的籃球比賽中,925 班進行班級的自主練習。導師將全班同學人數平分成甲、乙兩組。因為乙組的身高太矮,所以將原本甲組5為平均身高為165公分的同學調到乙組,再將乙組5位平均身高為153公分的同學調到甲組,結果乙組後來的平均身高增加3公分。試求全班人數?
ans: 40人
一維數據分析
但試試你們沒學過的,吧
離均差:xi−μx
變異數σ2
變異數:所有離均差的平方和的平均
於是事情開始變麻煩ㄌ...
變異數∑2=n1i=1∑n(xi−μx)2 =n1i=1∑nxi2−μx2
知道怎麼證明ㄇ(?
變異數∑2=n1i=1∑n(xi−μx)2
標準差σ
剛剛的變異數取正平方根而已la
母體標準差σ=n1i=1∑n(xi−μx)2 =n1i=1∑nxi2−μx2
樣本標準差σ=n−11i=1∑n(xi−μx)2
非常小小的例題 :thonk:
酥育根很在意他的體態,習慣在起床後站上電子體重機五次,重複地量測體重。以下是他在某個早上的測量數據:
測量次數 | 第一次 | 第二次 | 第三次 | 第四次 | 第五次 |
---|---|---|---|---|---|
體重(kg) | 49.9 | 50.1 | 50.0 | 50.1 | 49.9 |
ans: 0.1kg
根據上面的數據,試求出酥育根體重的標準差?
數據的線性變換
針對一組數據x1,x2,x3,...,xn進行線性變換,即yi=axi+b,則:
標準化分數(z分數)
設一組n個數據x1,x2,x3,...,xn的算術平均數為μx,標準差為σx,則規定
標準化分數xi′=σxxi−μx
標準化分數(z分數)的性質
(1)z1′,z2′,z3′,...,zn′的算術平均數為0
這些性質會證明ㄇ(?
(2)z1′,z2′,z3′,...,zn′的標準差為1
(3)i=1∑nxi′2=n
某次段考後,多數同學成績偏低,因此決定將每人的原始成績取平方根再乘以10作為正式紀錄。今100位同學,發現調整後的平均為55分,標準差為20分,求這100位同學未調整前的平均數。
ans: 34.25分
小小練習
設f(x)=i=1∑n(xi−x)2,
則其在 x=μx,也就是x是所有xi的算術平均數時有最小值。
快速穿插小觀念 :thonk:
f(x)=i=1∑n(xi−x)2=i=1∑n(xi2−2xix+x2)=i=1∑nxi2−2xi=1∑nxi+i=1∑nx2
i=1∑nx2−2xi=1∑nxi=nx2−2xnμxi=n(x2−2xμxi+μxi2)=n(x−μxi)2
所以 x=μxi,也就是算術平均數時有最小值!
有10名學生的數學考科及分數分別為x1,x2,x3,...,x10,其算術平均數為8分,標準差為2分。若令f(x)=(x1−x)2+(x2−x)2+...+(x10−x)2,請選出正確的選項。
(1)
f(8)=20
(2)
f(8)=40
(3)
x12+x22+...+x102=680
(4)
f(7)<f(8)
(5)
f(8)<f(9)
ans: 2, 3, 5
小小練習
假設有n個數據成等差數列,且其公差為32,若此資料的變異數為231,求n之值。
p.s. 為方便計算,可討論n為奇數的情況即可。
ans: 43
挑戰題 (嗎
可是他被歸類在 A 部分 :thonk:
二維數據分析 --- 相關係數
相關係數
設一組n個數據 (x1,y1),(x2,y2),(x3,y3),...,(xn,yn)
將這些數據標準化為(x1′,y1′),(x2′,y2′),(x3′,y3′),...,(xn′,yn′),則
定義相關係數r=nΣi=1nxi′yi′
我ㄉ數據沒有標準化怎麼辦
我們現在定義三ㄍ咚咚:
SXX=i=1∑nxi2−nμx2
SYY=i=1∑nyi2−nμy2
SXY=i=1∑nxiyi−nμxμy
SXX=i=1∑nxi2−nμx2=nσx2
SYY=i=1∑nyi2−nμy2=nσy2
我ㄉ數據沒有標準化怎麼辦
定義相關係數r=SXXSYYSXY
有被一堆式子搞得暈頭轉向了ㄇ
定義相關係數
r=SXXSYYSXY=nσxσyi=0∑n(xi−μx)(yi−μy)
相關係數r的意義
r=−1:
完全負相關
r=1:
完全正相關
相關係數r的意義
−1<r<0:
負相關
0<r<1:
正相關
相關係數r的意義
r=0:零相關
成立於當所有點所形成的圖形呈線對稱
相關係數r的性質
當ac>0時,r(X′,Y′)=r(X,Y)
當ac<0時,r(X′,Y′)=−r(X,Y)
五位同學在某次定期考中,國文與英文的成績分別如下:
ans: 0.4
小練習
國文成績x | 英文成績y | |
---|---|---|
章程一 | 84 | 70 |
格列格里七世 | 90 | 75 |
シエスタ大好き | 87 | 90 |
米斯塔 | 96 | 85 |
E | 93 | 80 |
求這五位同學兩科成績的相關係數。
令X代表每個高中生平均每天研讀數學的時間(以小時計),則W=7(24−X)代表每個高中生平均每週花在研讀數學以外的時間。令Y代表每個高中生數學學科能力測驗的成績。設X,Y之相關係數為0.83,求w,Y之相關係數。
ans: -0.83
小練習
二維數據分析 --- 回歸直線
what is 回歸直線
生出一組數據,把它變成散佈圖,
然後我們試圖找到一條距離這些點最近的理想直線
就是鼎鼎大名的回歸直線ㄌ🤤
正式的定義,還有我們具體要怎麼求出的部分ㄋ(?
尋找回歸直線 --- 最小平方法
設一組n個數據(x1,y1),(x2,y2),(x3,y3),...,(xn,yn),
且y對x(即要從x來推測y的數值)的回歸直線為y=ax+b
我們從平面座標上各點做垂直線到y=ax+b
可以發現,這個線段的距離是∣yi−(ax+b)∣
所以所有的點分別作垂直線到回歸直線的總距離為
Σi=1n∣yi−(ax+b)∣
所以我們找出這個咚咚的最小值就好了...ㄇ?
絕對值超級難算ㄟ
尋找回歸直線 --- 最小平方法
人們的解決方法:改成求這些距離的平方和,就輕鬆解決啦~
於是我們現在要求的是:
Σi=1n(yi−(ax+b))2的最小值
怎麼做呢? 土法煉鋼
尋找回歸直線 --- 最小平方法
我們直接來個實例
設5個二維數據為:
X | -2 | -1 | 0 | 1 | 2 |
---|---|---|---|---|---|
Y | 0 | 0 | 1 | 1 | 3 |
利用最小平方法,求Y對X的最適直線方程式。
ans: y=107x+1
尋找回歸直線 --- 最小平方法
怎麼做呢?
設回歸直線為y=a+bx
則所求D=Σi=15(yi−a−bxi)2)
=(0−a+2b)2+(0−a+b)2+...+(3−a−2b)2
=5a2+10b2−10a−14b+11
=5(a−1)2+10(b−107)2+1011
由此可知,當a=1,b=107時,所求D有最小值1011
所以我們的回歸直線就是y=107x+1
尋找回歸直線 --- 相關係數(?
很多數據怎麼辦?
我們的相關係數r派上用場ㄌ!
一組標準化數據的回歸直線為:y′=rx′
也就是說...
(1)標準化數據的回歸直線必通過(0,0)
(2)標準化數據的回歸直線斜率為r
尋找回歸直線 --- 相關係數(?
一組標準化數據的回歸直線為:y′=rx′
以x′=σxxi−μx,y′=σyyi−μy代入
可以發現y−μy=m(x−μx)
而回歸直線必通過(μx,μy)
其中,斜率m=r⋅σxσy =SXXSXY
你還醒著ㄇw
已知X與Y的二維數據(xi,yi),i=1,2,...,5,如下表所示
ans: (1)
0.8 (2)
y=0.8x
小練習
X | 34 | 25 | 28 | 16 | 22 |
---|---|---|---|---|---|
Y | 15 | 13 | 19 | 7 | 11 |
標準化得X′與Y′的二維數據(xi,yi),其中xi′=σxxi−μx,yi′=σyyi−μy,i=1,2,...,5,求:
(1)
X′與Y′的相關係數。
(2)
Y′對X′的最適直線方程式
設二組數據x1,x2,...,x10與y1,y2,...,y10,x1+x2+...+x10=140,y1+y2+..+y10=1300,x12+x2+...+x102=2528,y12+y22+...+y102=184730,x1y1+x2y2+...+x10y10=21040,利用最適直線,預測若x之值為25,y之值。
ans: 185
挑戰題 (吧
By liftleaf