數據分析

Lecturer: 

建北電資小設課運算思維 Lesson 2

I swear,我原本想要用上堂課的模板來做這個簡報,但那個背景亮哭我ㄌ

一維數據分析

aka 泥悶得仙貝芝士!

算術平均數

設一組\(n\)個數據 \(x_1, x_2, x_3,..., x_n\) ,則

算術平均數 \( \mu = \frac{1}{n} \displaystyle \sum_{i=1}^{n} x_i\)

超級簡單對吧,只是我不知道你們還習不習慣\(\sum\)的寫法就是了

加權平均數

設一組\(n\)個數據 \(x_1, x_2, x_3,..., x_n\)

加權平均數\(w = \frac{\displaystyle \sum_{i=1}^{n} x_iw_i}{\displaystyle \sum_{i=1}^{n} w_i}\)

同樣也能理解對吧,算段考平均成績的時候可以用到ㄛ

且分別對應權數\(w_1, w_2, w_3,...,w_n\),則

幾何平均數

設一組皆為正數的\(n\)個數據 \(x_1, x_2, x_3,..., x_n\),則

\( = \sqrt[n]{\displaystyle \prod_{i=1}^{n} x_i}\)

如果這組資料的數字是有相乘性質的,

那我們就應該要使用幾何平均數!

如:利率等。

加權平均數

非常小小的例題     

以下是運算思維講師之一 rainple0130 這次段考的各科成績。請聰明的你來幫幫他算出他這次段考的加權平均分數ㄅ :partying_face:

科目 成績 學分
國文 77 4.0
數學 72 4.0
英文 65 4.0
物理 86 3.0
化學 70 3.0
歷史 82 2.0

ans: 74.4分 (吧

一塊地毯在印度原產地賣給當地集貨商時是成本的\(6\)倍,集貨商賣給外銷商是其成本的\(4\)倍,外銷商賣給美國的進口商是其成本的\(3\)倍,而進口商賣給當地的大賣店是成本的\(3\)倍,大賣店賣給零售商則是其成本的\(2\)倍。試問平均每一經手者賣出價錢是其成本的幾倍?

[ 北一學資第二冊第二章數據分析 P.32 B部分第一題 ]

(若有必要,請使用計算機。)

不要問我怎麼拿到的w

ans: 約3.37倍

非常小小的例題     

眾數 & 全距

眾數:一組數據中出現最多次的東東

全距:一組數據中最大與最小數之差

中位數

將一組\(n\)個數據由小排到大後,

(1)若\(n\)是奇數:令\(k = \frac{n+1}{2}\),則中位數為\(x_k\)

(2)若\(n\)是偶數:令\(k = \frac{n}{2}\),則中位數為\(\frac{x_k+x_{k+1}}{2}\)

百分位數

將一組\(n\)個數據由小排到大後,定義第\(k\)百分位數\(P_k\)為:

(1)若\(n\times\frac{k}{100}\)為整數:

令\(m = n\times\frac{k}{100}\),則\(P_m = \frac{x_m+x_{m+1}}{2}\)

(2)若\(n\times\frac{k}{100}\)是非整數:

類推適用w (好我不知道我在說什麼

令\(m = (n\times\frac{k}{100}\)無條件進入到整數位),則\(P_m=\frac{x_m+x_{m+1}}{2}\)

四分位數

第一四分位數為\(Q_1 = P_{25}\)

第二四分位數為\(Q_2 = P_{50}\)

第三四分位數為\(Q_3 = P_{75}\)

呈上頁,第\(k\)百分位數為\(P_k\)

很小的練習

一組數據\(22, 25, 29, 29, 25, 26, a, b, c\),已知眾數是\(29\),中位數是\(28\),算術平均數是\(27\),且\(a > b > c\)),求\(a\)。

ans: 30

很小的練習

在九年級的籃球比賽中,925 班進行班級的自主練習。導師將全班同學人數平分成甲、乙兩組。因為乙組的身高太矮,所以將原本甲組\(5\)為平均身高為\(165\)公分的同學調到乙組,再將乙組\(5\)位平均身高為\(153\)公分的同學調到甲組,結果乙組後來的平均身高增加\(3\)公分。試求全班人數?

ans: 40人

一維數據分析

但試試你們沒學過的,吧

離均差:\(x_i - \mu_x\)

變異數\(\sigma^2\)

變異數:所有離均差的平方和的平均

於是事情開始變麻煩ㄌ...

變異數\( \sum^2 = \displaystyle \frac{1}{n} \sum_{i=1}^{n} (x_i-\mu_x)^2  = \frac{1}{n} \sum_{i=1}^{n} x_i^2 - \mu_x^2\)

知道怎麼證明ㄇ(?

變異數\( \sum^2 = \displaystyle \frac{1}{n} \sum_{i=1}^{n} (x_i-\mu_x)^2\)

標準差\(\sigma\)

剛剛的變異數取正平方根而已la

母體標準差\(\sigma = \sqrt{\frac{1}{n}\displaystyle\sum_{i=1}^{n} (x_i-\mu_x)^2}  = \sqrt{\frac{1}{n}\displaystyle\sum_{i=1}^{n} x_i^2 - \mu_x^2}\)

樣本標準差\(\sigma = \sqrt{\frac{1}{n-1}\displaystyle\sum_{i=1}^{n} (x_i-\mu_x)^2}\)

非常小小的例題 :thonk:

酥育根很在意他的體態,習慣在起床後站上電子體重機五次,重複地量測體重。以下是他在某個早上的測量數據:

測量次數 第一次 第二次 第三次 第四次 第五次
體重(kg) 49.9 50.1 50.0 50.1 49.9

ans: 0.1kg

根據上面的數據,試求出酥育根體重的標準差?

數據的線性變換

針對一組數據\(x_1, x_2, x_3,...,x_n\)進行線性變換,即\(y_i = ax_i + b\),則:

  •  \(\mu_y = a\mu_x + b\)
  •  \(\sigma_y = |a|\sigma_x\)

標準化分數(\(z\)分數)

設一組\(n\)個數據\(x_1, x_2, x_3,...,x_n\)的算術平均數為\(\mu_x\),標準差為\(\sigma_x\),則規定

標準化分數\(x_i' = \frac{x_i - \mu_x}{\sigma_x}\)

標準化分數(\(z\)分數)的性質

(1)\(z_1', z_2', z_3',...,z_n'\)的算術平均數為0

這些性質會證明ㄇ(?

(2)\(z_1', z_2', z_3',...,z_n'\)的標準差為1

(3)\(\displaystyle\sum_{i=1}^{n} x_i'^2 = n\)

某次段考後,多數同學成績偏低,因此決定將每人的原始成績取平方根再乘以\(10\)作為正式紀錄。今\(100\)位同學,發現調整後的平均為\(55\)分,標準差為\(20\)分,求這\(100\)位同學未調整前的平均數。

ans: 34.25分

小小練習

設\(f(x) = \displaystyle\sum_{i=1}^{n} (x_i - x)^2\),

則其在 \(x = \mu_x\),也就是\(x\)是所有\(x_i\)的算術平均數時有最小值。

快速穿插小觀念 :thonk:

\(f(x) = \displaystyle\sum_{i=1}^{n} (x_i - x)^2 \\ = \displaystyle\sum_{i=1}^{n} ({x_i}^2 - 2{x_i}{x} + x^2) \\ = \displaystyle\sum_{i=1}^{n} {x_i}^2 - 2x \displaystyle\sum_{i=1}^{n} x_i + \displaystyle\sum_{i=1}^{n} x^2 \\ \)

\( \displaystyle\sum_{i=1}^{n} x^2 - 2x\displaystyle\sum_{i=1}^{n} x_i \\ = nx^2 - 2xn\mu_{x_i} \\ = n(x^2 - 2x\mu_{x_i} + {\mu_{x_i}}^2) \\ = n(x - \mu_{x_i})^2\)

所以 \(x = \mu_{x_i} \),也就是算術平均數時有最小值!

有\(10\)名學生的數學考科及分數分別為\(x_1\),\(x_2\),\(x_3\),...,\(x_{10}\),其算術平均數為\(8\)分,標準差為\(2\)分。若令\(f(x)=(x_1-x)^2+(x_2-x)^2+...+(x_{10}-x)^2\),請選出正確的選項。

(1) \(f(8)=20\)

(2) \(f(8)=40\)

(3) \({x_1}^2+{x_2}^2+...+{x_{10}}^2=680\)

(4) \(f(7)<f(8)\)

(5) \(f(8)<f(9)\)

ans: 2, 3, 5

小小練習

假設有\(n\)個數據成等差數列,且其公差為\(\sqrt{\frac{2}{3}}\),若此資料的變異數為\(231\),求\(n\)之值。

p.s. 為方便計算,可討論\(n\)為奇數的情況即可。

ans: 43

挑戰題 (嗎

可是他被歸類在 A 部分 :thonk:

二維數據分析 --- 相關係數

相關係數

設一組\(n\)個數據 \((x_1, y_1), (x_2, y_2), (x_3, y_3),...,(x_n,y_n)\)

將這些數據標準化為\((x_1', y_1'),(x_2', y_2'), (x_3', y_3'),..., (x_n', y_n')\),則

定義相關係數\(r = \frac{\Sigma_{i=1}^{n} x_i'y_i'}{n}\)

我ㄉ數據沒有標準化怎麼辦

我們現在定義三ㄍ咚咚:

\(S_{XX} = \displaystyle\sum_{i=1}^{n} x_i^2 - n\mu_x^2\)

\(S_{YY} = \displaystyle\sum_{i=1}^{n} y_i^2 - n\mu_y^2\)

\(S_{XY} = \displaystyle\sum_{i=1}^{n} x_iy_i - n\mu_x\mu_y\)

\(S_{XX} = \displaystyle\sum_{i=1}^{n} x_i^2 - n\mu_x^2 = n\sigma_x^2\)

\(S_{YY} = \displaystyle\sum_{i=1}^{n} y_i^2 - n\mu_y^2 = n\sigma_y^2\)

我ㄉ數據沒有標準化怎麼辦

定義相關係數\(r = \frac{S_{XY}}{\sqrt{S_{XX}}\sqrt{S_{YY}}}\)

有被一堆式子搞得暈頭轉向了ㄇ

定義相關係數

\(r = \frac{S_{XY}}{\sqrt{S_{XX}}\sqrt{S_{YY}}} = \frac{\displaystyle\sum_{i=0}^{n} (x_i - \mu_x)(y_i - \mu_y)}{n\sigma_x\sigma_y}\)

相關係數\(r\)的意義

\(r = -1\):

完全負相關

\(r = 1\):

完全正相關

相關係數\(r\)的意義

\(-1 < r < 0\):

負相關

\(0 < r < 1\):

正相關

相關係數\(r\)的意義

\(r = 0\):零相關

成立於當所有點所形成的圖形呈線對稱

相關係數\(r\)的性質

  • \(-1\leq r \leq 1\)
  • 令\(X\)與\(Y\)的相關係數為\(r_{(X,Y)}\),則\(r_{(X,Y)} = r_{(Y,X)}\)
  • 設\(X' = aX+b, Y' = cX+d\),則:

當\(ac>0\)時,\(r_{(X',Y')} = r_{(X,Y)}\)

當\(ac<0\)時,\(r_{(X',Y')} = -r_{(X,Y)}\) 

五位同學在某次定期考中,國文與英文的成績分別如下:

ans: 0.4

小練習

國文成績x 英文成績y
章程一 84 70
格列格里七世 90 75
シエスタ大好き 87 90
米斯塔 96 85
E 93 80

求這五位同學兩科成績的相關係數。

令\(X\)代表每個高中生平均每天研讀數學的時間(以小時計),則\(W = 7(24-X)\)代表每個高中生平均每週花在研讀數學以外的時間。令\(Y\)代表每個高中生數學學科能力測驗的成績。設\(X, Y\)之相關係數為\(0.83\),求\(w, Y\)之相關係數。

ans: -0.83

小練習

二維數據分析 --- 回歸直線

what is 回歸直線

生出一組數據,把它變成散佈圖,

然後我們試圖找到一條距離這些點最近的理想直線

就是鼎鼎大名的回歸直線ㄌ🤤

正式的定義,還有我們具體要怎麼求出的部分ㄋ(?

尋找回歸直線 --- 最小平方法

設一組\(n\)個數據\((x_1,y_1), (x_2,y_2), (x_3,y_3),...,(x_n,y_n)\),

\(y\)對\(x\)(即要從x來推測y的數值)的回歸直線為\(y=ax+b\)

我們從平面座標上各點做垂直線到\(y=ax+b\)

可以發現,這個線段的距離是\(|y_i - (ax+b)|\)

所以所有的點分別作垂直線到回歸直線的總距離為

\(\Sigma_{i=1}^{n} |y_i -(ax+b)|\)

所以我們找出這個咚咚的最小值就好了...ㄇ?

絕對值超級難算ㄟ

尋找回歸直線 --- 最小平方法

人們的解決方法:改成求這些距離的平方和,就輕鬆解決啦~

於是我們現在要求的是:

\(\Sigma_{i=1}^{n} (y_i - (ax+b))^2\)的最小值

怎麼做呢? 土法煉鋼

尋找回歸直線 --- 最小平方法

我們直接來個實例

設\(5\)個二維數據為:

X -2 -1 0 1 2
Y 0 0 1 1 3

利用最小平方法,求\(Y\)對\(X\)的最適直線方程式。

ans: \(y=\frac{7}{10}x + 1\)

尋找回歸直線 --- 最小平方法

怎麼做呢?

設回歸直線為\(y=a+bx\)

則所求\(D = \Sigma_{i=1}^{5} (y_i - a - bx_i)^2)\)

\(= (0-a+2b)^2 + (0-a+b)^2 + ... +(3-a-2b)^2\)

\(= 5a^2 + 10b^2 -10a - 14b +11\)

\(= 5(a-1)^2 + 10(b-\frac{7}{10})^2 + \frac{11}{10}\)

由此可知,當\(a = 1, b = \frac{7}{10}\)時,所求\(D\)有最小值\(\frac{11}{10}\)

所以我們的回歸直線就是\(y = \frac{7}{10}x + 1\)

尋找回歸直線 --- 相關係數(?

很多數據怎麼辦?

我們的相關係數\(r\)派上用場ㄌ!

一組標準化數據的回歸直線為:\(y' = rx'\)

也就是說...

(1)標準化數據的回歸直線必通過\((0,0)\)

(2)標準化數據的回歸直線斜率為\(r\)

尋找回歸直線 --- 相關係數(?

一組標準化數據的回歸直線為:\(y' = rx'\)

以\(x' = \frac{x_i - \mu_x}{\sigma_x}, y' = \frac{y_i - \mu_y}{\sigma_y}\)代入

可以發現\(y - \mu_y = m(x - \mu_x)\)

而回歸直線必通過\((\mu_x, \mu_y)\)

其中,斜率\(m = r \cdot \frac{\sigma_y}{\sigma_x}  = \frac{S_{XY}}{S_{XX}} \)

你還醒著ㄇw

已知\(X\)與\(Y\)的二維數據\((x_i, y_i), i = 1, 2, ..., 5\),如下表所示

ans: (1) 0.8 (2) \(y = 0.8x\)

小練習

X 34 25 28 16 22
Y 15 13 19 7 11

標準化得\(X'\)與\(Y'\)的二維數據\((x_i, y_i)\),其中\(x_i' = \frac{x_i-\mu_x}{\sigma_x}\),\(y_i' = \frac{y_i-\mu_y}{\sigma_y}\),\(i = 1, 2, ..., 5\),求:

(1) \(X'\)與\(Y'\)的相關係數。

(2) \(Y'\)對\(X'\)的最適直線方程式

設二組數據\(x_1, x_2, ..., x_{10}\)與\(y_1, y_2, ..., y_{10}\),\(x_1+x_2+...+x_10=140\),\(y_1+y_2+..+y_10=1300\),\({x_1}^2+{x_2}^+...+{x_{10}}^2 = 2528\),\({y_1}^2+{y_2}^2+...+{y_{10}}^2 = 184730\),\(x_1y_1 + x_2y_2 + ... + x_{10}y_{10} = 21040\),利用最適直線,預測若\(x\)之值為\(25\),\(y\)之值。

ans: 185

挑戰題 (吧