AI / Big Data
- ESC:全覽所有投影片
- 方向鍵:控制位置
學經歷
- 交大資工系
- 台大資工所
- Appier 軟體工程師
- 2014~2019
- 即將到日本工作
科普文寫作
- 2600+ followers
自我介紹
課前提醒
- 教學(x)交流(o)
- 過程中歡迎隨時發問
- 為了簡單易懂,大部分比喻都做了相當程度的簡化
大綱
- Part1. 認識 AI
- Part2. 數據與隱私
- Part3. AI 的是非對錯
Part1. 認識 AI
- AI 能做些什麼?談日常應用
- 做 AI 的食譜:機器學習
- 做 AI 的食材:資料
AI 能做什麼
日常生活中的 AI 應用無所不在
Part1. 認識 AI
電腦視覺
Part1. 認識 AI
Object Detection
Object Detection
pedestrian detection
Face & License plate detection
Video surveillance: event detection
自然語言處理
Part1. 認識 AI
常見應用
- 機器翻譯
- 聊天機器人
- 語音助手
- Google Assistant, Siri,
- 情感分析
- 騰訊AI:輿情、口碑、話題分析
- 自動文摘(auto text summarization)
- 記者快抄
機器翻譯 (2012/9)
離奇!Google翻譯堅稱「台灣是中國的一部分」 https://www.ettoday.net/news/20120914/102479.htm
機器翻譯 (2019/6)
難過變高興?Google翻譯香港情勢 疑遭「天朝網軍」惡搞 https://www.ettoday.net/news/20120914/102479.htm
聊天機器人
V:「如果你相信惡魔,那你肯定也相信神。」
E:「但我不相信惡魔啊。」
V:「那你相信基督教的神嗎?」
E:「不。」
V:「你為什麼不相信神?」
E:「我不相信神。我想知道為什麼你不相信神。」
V:「因為他是最棒的,你不相信神。」
E:「神不存在,所以我沒法相信他。就像聖誕老人一樣。」
V:「但他存在,而且不相信任何人。」
E:「神如何可以相信任何人,如果他根本不存在?」
兩個AI在Twitch上進行了一段哲學對話
Google Assistant 電話訂位
半夜突然發出詭笑,亞馬遜智慧語音助理Alexa大失控!
自己發出笑聲的聊天機器人
情感分析:輿情、口碑、話題分析
標題寫著:「少女歌劇手遊」,一則這樣的提問文章,讓PTT鄉民紛紛出籠,提供各式解答。
作者Neptunia的回文表示:「這款我覺得很坑就是課金跟無課差距很大,已過一關的獎勵50石頭來說,不過課金一單給的石頭根據比例來算」
對這篇回覆,鄉民紛紛表示:「目前抽五次各出一次四星3個是禮裝」、「難怪我怎麼抽都是四星禮裝」、「無課就把這款的劇情當作本體吧,全語音也很有誠意了XD」,而Serio則評論說:「PVP,大概到銅三,就覺得開始是無課就不要去玩…」
網民想法、背景各不相同,回答時而紛亂時而搞怪,難免有時令人摸不著頭緒。或許p200404寫下的:「我自己是放棄PVP了,給課金的人去玩就好」,是最認真的回覆。
推薦系統
Part1. 認識 AI
電商商品推薦:博X來
電商商品推薦:X寶
Youtube 影片推薦
Netflix - 配圖推薦
《心靈捕手》
上:喜歡愛情片的用戶
下:喜歡喜劇片的用戶
Netflix - 配圖推薦
《黑色追緝令》
上:喜歡鄔瑪·舒曼(Uma Thurman)的用戶
下:喜歡約翰·屈伏塔(John Travolta)的用戶
Spotify
- 協同過濾(collaborative filtering)
- 跟你類似的使用者也喜歡...
- 自然語言處理(NLP)
- 相關文字訊息的歌曲相似度
- 音訊內容
- 歌曲「聽起來」的相似度
或者更多...
你會擔心的事情
Part1. 認識 AI
DeepFake
DeepNude
延伸議題:美國馬里蘭大學法學院教授奇特隆(Danielle Citron)表示,這類科技是對「性隱私權的侵害」
怎樣才算侵犯隱私
如果有一個 AI 可以看臉預測收入
要預測到多精準才算侵犯隱私?
- PR 30%~50%
- PR 3%~5%
- 年薪介於 100~400 萬
- 年薪為 87 萬元
如果實際答案是年薪百萬,算侵犯隱私嗎?
如果實際答案是月薪 22k,算侵犯隱私嗎?
Part1. 認識 AI
Style2Paints
Neural Style
Neural Doodle
Srez
9 個超酷的深度學習案例 https://www.itread01.com/articles/1487093906.html
Part1. 認識 AI
更多關於 AI 的疑問
機器學習是怎麼做到的
Part1. 認識 AI
機器學習就像食譜,告訴你怎麼做出餐點
機器學習的分類
- 監督式學習(supervised learning)
- 非監督式學習(unsupervised learning)
- 半監督學習(Semi-supervised learning)
- 增強學習(reinforcement learning)
- ... and more
Part1. 認識 AI
監督式學習
supervised learning
- 給你考古題跟答案
- 最常見的類別
Part1. 認識 AI
- 不給你答案,要你自己歸類
- 用什麼當標準?分幾類?
Part1. 認識 AI
非監督式學習
unsupervised learning
Part1. 認識 AI
- 不需要 label
- 但問題必須受限於固定的框架:要能從環境得到回饋,並且目標(獎勵)明確
- 遊戲:不管做了什麼選擇,最後一定會知道贏或輸,就能夠自己產生數據(i.e. 做了什麼行為得到什麼結果)
Part1. 認識 AI
增強學習
reinforcement learning
Reinforcement Learning
Part1. 認識 AI
數據對 AI 的重要性
Part1. 認識 AI
數據就像食材,有好的原料才能做出好食物
Big Data's 5V
- Volume 資料量大
- Velocity 資料流動速率快
- Variety 資料多樣性雜
- Veracity 真實性存疑
- (Value 價值)
Part1. 認識 AI
監督式學習
supervised learning
- 要有人告訴機器答案(label)
- 答案很貴
- outsourcing
- 換個問題就可能要重學
- transfer learning
Part1. 認識 AI
背錯考古題
訓練數據(Training Data)的重要性
Part1. 認識 AI
Part2. 數據與隱私
- 新科技的隱私問題
- GDPR:更嚴格的隱私與數據利用規範
- 大企業與歐盟的攻防
- GDPR 的難處
現代的法律議題
當我們習慣於出賣數據
Part2. 數據與隱私
魔鬼藏在同意書 (Terms and Conditions May Apply)
Part2. 數據與隱私
「中國人對隱私問題的態度更開放,也相對來說沒那麼敏感。如果他們可以用隱私換取便利、安全或者效率。在很多情況下,他們就願意這麼做。」
李彥宏還說,「如果這個數據能讓用戶受益,他們又願意給我們用,我們就會去使用它的。我想這就是我們能做什麼和不能做什麼的基本標準。」
中國人願意用隱私換便利? 百度被罵慘
Part2. 數據與隱私
當我們不知不覺被出賣
Part2. 數據與隱私
不保護好資料隱私可能是致命的
根據《紐約時報》報導,香港警方鎖定了一個有兩萬名成員的 Telegram 聊天群組的管理員,並將他視為主謀。群組管理員表示警察在晚上持搜捕令到他家,要求將手機解鎖,確認群組中的極端分子名單。
Part2. 數據與隱私
使用真名或手機註冊的風險
PTT 創辦人杜奕瑾則在 Facebook 發文,表示香港警方的說法沒錯,由於群組管理員使用小米 6 手機,因此中國政府可以遠端直接以使用者身分打開應用程式,即使 Telegram 加密也沒用。杜奕瑾在 1 月就曾在 Facebook 發文,指出中國的手機具有嚴重的資安問題,中國政府可以遠端植入後門程式,掌握手機用戶的各種資料。
Part2. 數據與隱私
雖然他一開始拒絕,但警方威脅他能夠用其他方式強行解開他的小米 6 手機,他才屈服並輸入密碼,警方隨即下載了群組的對話紀錄。
手機預載程式擁有管理員權限
有問題的並非ADB功能本身,而是該功能被供應商以錯誤的方式部署,Kevin Beaumont表示,理論上Root在非開發者版本應該被停用,但在不少裝置上明顯存在旁路。
新型態服務帶來的風險
Part2. 數據與隱私
案例一:一卡通個資風波
電子支付機構業務管理規則第 7 條
使用者支付指示應記載下列事項:
一、付款方姓名或名稱及其電子支付帳戶帳號。
二、收款方姓名或名稱及其電子支付帳戶帳號。
所以我在 Line 群裡面,對一個陌生人按下「付款」不用真的付給他錢,就會顯示真實姓名
Line pay 發生了什麼事
Part2. 數據與隱私
更糟的是,支付系統任何人都可以存取,並且只要更改流水號就可以看到下一個用戶資料
因此寫程式將所有用戶的照片與姓名抓下來,是實際上可行的
Line pay 發生了什麼事
Part2. 數據與隱私
去銀行跟行員說:「我想要你們客戶所有姓名跟照片」會成功嗎?
同樣行為在一卡通卻可能做得到。
- 制定法條的人把收受雙方的資訊當作在寫匯款條,但卻忽略了電支的使用情境
- 電支情境中潛在的資安風險也沒有考慮進去。
- 事後已經修正,但目前的法律規範還是很模糊
銀行願意給你所有客戶姓名嗎?談支付情境的差異
Part2. 數據與隱私
新型態服務帶來的風險
Part2. 數據與隱私
案例二:北市校園自動販賣機
- 個人資料風險低
- 去識別化無法追蹤到個人身分
- 資料分析利用價值高
- 學生喜歡在什麼時候喝什麼飲料
GDPR
Part2. 現代的法律議題
GDPR 賦予的權利
- 資料的蒐集、處理、利用需經過當事人同意
- 新增被遺忘權
- 明定資料可攜權
- 當事人有權反對被剖析(profiling)
跨國企業:逃
搬離歐盟營運,或是乾脆不服務歐盟人
Part2. 數據與隱私
愛爾蘭的國際總部,管理3.7億名歐洲用戶以及15.2億名來自其它市場的用戶
...
臉書將在 5 月把 15.2 億名用戶的服務條款從愛爾蘭版變更為美國版,也意謂著 GDPR 將只能保障 3.7 億名歐洲用戶,約佔臉書全球用戶數的17.4%。(也就是說,82.6% 不受 GDPR 保障。)
Part2. 數據與隱私
因應歐盟個人資料保護法規 (GDPR),歐盟國家用戶將無法繼續使用Yahoo台灣電子商務服務、股市APP及公益服務。
若您是屬於歐盟的用戶,我們將自2018/5/7 起停止提供您上述服務。
Part2. 數據與隱私
哈佛大學尼曼基金會 (Nieman Foundation)成立的尼曼新聞學實驗室指出,目前美國境內前百大新聞網站至少有三分之一比例選擇封鎖歐盟地區用戶,藉此避免違反GDPR規範。
而網站開發人員Joseph O’Connor 發現至少有超過1000個新聞網站已經透過IP阻擋等方式限制歐盟地區用戶存取內容。
Part2. 數據與隱私
歐盟法院:追
即使你搬離歐盟營運
只要服務的是歐盟人就要遵守?
Part2. 數據與隱私
歐盟法院希望將「被遺忘權」擴展至全球範圍,將使 Google 等網路服務面臨更大壓力
歐盟法院最近則想要更進一步將 GDPR 的標準延伸到所有「非歐盟地區」的歐盟居民,換句話說,只要你是歐盟居民,你跑到台灣旅遊、跑到美國工作,在使用服務的時候,這些公司也都要符合 GDPR。
Part2. 數據與隱私
GDPR 實行的困難
Part2. 數據與隱私
屬地?屬人?
- 屬地:德國用戶在台灣開戶,需遵守台灣法規
- 屬人:德國用戶在台灣開戶,需遵守歐盟法規
- 德國用戶飛來飛去,該怎麼辦?
- 網路銀行、跨國企業怎麼算?
- 主機位置?
- 企業登記位置?
Part2. 數據與隱私
GDPR 賦予的權利
- 資料的蒐集、處理、利用需經過當事人同意
- 新增被遺忘權
- 明定資料可攜權
- 當事人有權反對被剖析(profiling)
每一項都很難落實
Part2. 數據與隱私
資料的蒐集、處理、利用
需經過當事人同意
- 使用者根本不看隱私條款
- 就算看了,為了要用免費服務也只能按同意
Part2. 數據與隱私
被遺忘權與反對被剖析
- 如何證明刪除你的數據?
- 去識別化就好了
- 即使刪除你的數據
- 個人數據並不是以「個體」存在企業中
- 行為模式早就被學起來
- 反對被機器「學習」或者被「剖析」
- 沒有任何方式可以從外部證明
Part2. 數據與隱私
資料可攜權
- 規定必須方便地轉移到另一個平台
- 輸出成 PDF / 圖片讓你需要手動輸入,算方便嗎?
- 輸出成純文字,但是排版與格式亂掉,需要花一個月整理,算方便嗎?
- 不同平台能接受的格式不一樣
- 轉出的平台不可能對所有其它平台都做到完美
Part2. 數據與隱私
有網友就表示,自己10多年來的寫作、上萬張的攝影心血都存放於此,昨晚花了1小時,才也備份100多張照片。
同為部落格服務業者的痞客邦對此表示,將公布對於天空部落格的轉移方案,準備資源空間及技術來承接,希望能協助使用者保存回憶。
又一時代眼淚!天空部落格宣布10/1刪除所有檔案資料
Part2. 數據與隱私
Part3. AI 的是非對錯
正確的 AI 使用方式
Part3. AI 的是非對錯
最強的需求在中國政府
目前,中國正在打造「全球最大監視網」,當局已經在各地架設了 1億7,000萬台監視攝影機,預估未來三年還會再加裝 4億台監視攝影機,而大部分的監視攝影機已經內建人臉辨識科技,可以快速地比對影中人的身分。
Part3. AI 的是非對錯
影片顯示北京的人工智慧公司曠視科技正在使用面部識別系統軟體
今年四月,兩名戴著智慧型眼鏡的警察在河南省洛陽市執勤。路透社
諷刺的是,「社會信用體系」的核心技術——「臉孔辨識」——最主要的提供者是家香港公司,而中國公安單位就是此公司最主要的客戶。
該公司自豪「一秒可以同時辨認幾萬人」,也坦承其臉孔辨識監控技術,早在2014年香港雨傘運動即派上用場。
《黑鏡》劇情成真?社會信用體系即將籠罩香港 https://opinion.udn.com/opinion/story/120611/3920296
香港也不例外
中國貨幣網發佈報告,列出中國14家估值達到或超過10億美元的人工智能(AI)公司。這些「獨角獸」公司的總價值達到405億美元。
AI 中國浪潮與深度學習
Part3. AI 的是非對錯
2018年3月,雲從科技打破三項世界記錄,讓跨鏡追蹤(ReID)在準確率上首次達到商用水平,讓計算機視覺由「認臉」進化到「識人」。
雲從科技於2017年3月、2018年1月分別承擔了國家級「人工智能基礎資源公共服務平台」和「高準確度人臉識別系統產業化及應用項目」建設任務。
據悉,2018年下半年,雲從科技基於國家項目佈局良久的“視覺+大數據”平台戰略會逐漸浮出水面,通過該戰略,雲從科技逐漸在銀行、安防、民航、商業等領域佔據龍頭地位。
Part3. AI 的是非對錯
另一方面,2018年初,在短短兩個月內拿下十多億美元融資的商湯科技,震驚了業內。
商湯建立的自主研發的深度學習超算中心,是亞洲最大的AI研發基地;在人臉識別、圖像識別、文本識別、醫療影像識別、視頻分析、無人駕駛等技術領域的創新成果,支撐了十多個垂直行業的AI變革。
Part3. AI 的是非對錯
人類 vs. AI
人權 vs. 極權
Part3. AI 的是非對錯
一一一一一一一一
無孔不入的監視器
+取之不盡的個資
+政府資金全力扶植人臉辨識
+反蒙面法
=(你對未來的想像)
Part3. AI 的是非對錯
這是中國與其他極權國家的情況
Part3. AI 的是非對錯
自由的民主國家
應該沒差吧?嗎?
Part3. AI 的是非對錯
劍橋分析醜聞中的
千里達選舉事件
非裔加勒比人
- 比較叛逆
印度人
- 重視階級
- 尊敬長者與家庭
50%
50%
Part3. AI 的是非對錯
非裔加勒比人
- 比較叛逆
印度人
- 重視階級
- 尊敬長者與家庭
win
政治很骯髒!
不要碰政治!
一起這樣做!
各個領域的道德難題
Part3. AI 的是非對錯
金融
銀行雖不是慈善企業,但某種程度也承擔了誤判的道德責任
目前:根據聯徵中心的信用記錄以及收入,人工審核貸款
未來:分析過往數據、AI 自動判斷貸款風險
Part3. AI 的是非對錯
民生消費
目前:隨機發送優惠券
未來:分析數據、差別給予優惠
當差異化全面延伸到基本民生用品?
你買衛生紙100,我買只要80?
目前的數位廣告就已經將每個人標上「價碼」
Part3. AI 的是非對錯
醫療保險
保險的本質:契約互助->對賭協議
目前:就醫記錄、體檢指數
未來:數據行為
當保險公司比你自己還清楚身體健康?
- 基因不好、窮人能獲得的保障變少
- 但也有可能從社會福利能夠提供更多預防疾病的預測
Part3. AI 的是非對錯
從5月1日開始,中共官方要開始為國民打分數,並懲罰信用分數很低的人。目前祭出的懲罰是限制買火車票、機票權利,也能限制乘坐車廂等級,最少罰180天、最多1年。
最終是希望2020年能落實從每個人的行政事務、商業活動、社會行為以及司法行為中,由各種數據為每個公民做出評分。
電子支付:公司擁有大量的名單,與客戶消費習慣等資料。刷臉技術:買票、領錢、購物,只要你一張臉就能行,享受方便的同時也親手奉上了臉部影像資料。
Part3. AI 的是非對錯
AI 的責任歸誰?
案例:Uber 自動駕駛肇事
Part3. AI 的是非對錯
Uber 撞死人事件
Part3. AI 的是非對錯
消費端量產成本過高
LiDAR (light detection and ranging)
Part3. AI 的是非對錯
LiDAR (light detection and ranging)
Part3. AI 的是非對錯
LiDAR (light detection and ranging)
Velodyne 生產的一套測距 100 米的 16 線激光雷達系統售價就達 7000 USD
Google Waymo 無人車:6 個
通用汽車:5 個。
路透社:Uber 將這款車型的 LiDAR 數量從測試的 5 個減少到只剩車頂上的 1 個,車輛前、後及兩側的 LiDAR 全部被砍掉。
Part3. AI 的是非對錯
-
駕駛不專心?
-
為了壓低成本減少雷射雷達數量?
-
演算法沒寫好?
-
硬體裝置有問題?
Part3. AI 的是非對錯
雙軌並行的責任歸屬?
楊博堯:「在自動駕駛尚未全面取代人類駕駛之前,這種雙軌並行的模式勢必將使得原本就難以釐清的交通事故責任歸屬,變得更加複雜。」
Part3. AI 的是非對錯
電車難題
Part3. AI 的是非對錯
Part3. AI 的是非對錯
人工智慧自駕車難題
你在自駕車中哼著歌,當機器自動導航的時候你正在用 iPhone37 聊天,然後,一群人突然出現在你車輛即將行經的路徑上。
現在有一個計算必須完成:避開人群然後讓車主受傷,還是繼續向前造成多人死傷?如果開車的人無法做這件事情,要交給 AI 判斷呢?
Part3. AI 的是非對錯
人工智慧自駕車難題
自駕車該被設計成怎樣才有人買/可以上路?
Part3. AI 的是非對錯
人工智慧自駕車難題
誰該活下來?
Part3. AI 的是非對錯
人工智慧自駕車難題
-
這些道德問題原本就存在,只是人工智慧放大了它
即使自駕車理論上會降低傷亡,但仍然會被放大檢視
-
用其他的人工智慧預防?
道路監視器偵測可能違規的行人並事先阻止
行人配戴 AI 眼鏡,遠方的車事先就能發現
Part3. AI 的是非對錯
我們會把責任推給 AI 嗎?
Part3. AI 的是非對錯
問題
AI 與數據讓判斷更精準,但差異化服務做到極致後
貧富差距更容易被拉大(跟社會福利牴觸)
誰有權力、用什麼標準定你的生死?
該由誰負責?政府?科學家?PM?整間公司?還是所有人都變成旁觀者?
Part3. AI 的是非對錯
史丹佛監獄實驗與路西法效應
Part3. AI 的是非對錯
為何平凡的普通人或社會團體,在特定情形之下會轉變成為他們原本所厭惡甚至是獵殺的事物?菲利浦教授做出了以下解釋:
在有意或不經意之情形下跨越自己的道德底線。
將其他人或個體去人性化。
將自己去識別化。(透過匿名、變裝等方式、如:三K黨)
-
分散與推諉個人之責任。(如:納粹)
容易產生旁觀者效應
盲目服從於權威。
不經批判地盲目服從團體規範。
藉由不作為與冷漠,被動地容忍惡存在。
Part3. AI 的是非對錯
機械擬人化、人類機械化
機械、演算法幫我們決定怎麼過生活
Part3. AI 的是非對錯
Google是否自動完成了我們的人生?
投你所好,但難道不影響你的思想嗎?
臉書推薦你喜歡的同溫層言論
-
Google 推薦你的搜尋結果
限制你的思考模式與觀點
-
電商推薦你喜歡的商品
那些潛在有興趣的商品可能看不到
-
求知管道已經線上化了,那教育、價值觀呢?
以前的「八股」仰賴的是大人的「智慧」
AI 推薦什麼,終究還是後面的人在決定
Part3. AI 的是非對錯
很常聽到「機器像人怎麼辦」
卻很少聽到有人說「人像機器怎麼辦」
Part3. AI 的是非對錯
1990年6月9日
「現代文明」意味著機械與人的混同:
機械的擬人化、精細化、適應力提高。如電腦的普遍應用。
人的機械化,人失去個體性,喪失自由活動的時間,不以服從即以模仿為生活的指南。
Part3. AI 的是非對錯
「科技理應是要幫助人從繁瑣工作中解放,但我觀察到的現象反而是多數人因為方便,而不知不覺被機械化,接著能提供的價值都將變得跟機器差不多。」
Part3. AI 的是非對錯
其他相關閱讀
文中提及的參考閱讀
探討隱私、集權、去人性化,以及AI濫用
AI / 大數據:AI的應用、數據隱私、與 AI 的是非對錯
By leafwind
AI / 大數據:AI的應用、數據隱私、與 AI 的是非對錯
這份簡報是 2018/11/2, 2019/10/25 受邀到交大科法所演講所用的投影片,對象是法律背景的學生,希望能用較科普的方式介紹 AI 產業的現況,與實際上的應用能做到什麼程度。
- 3,422