股市新聞情緒溫度計

Team 5 不吃肯德基要肯德基

王勻、林尚廷、林秉軒

動機

高中生投資?

動機

別人貪婪時恐懼,別人恐懼時貪婪                                       ——巴菲特

動機

  • 公開客觀方法衡量股市」新聞情緒

  • 非結構化的資料(Unstructured Data)

  • 新聞資訊量日益龐大

  • 國外已有英文新聞股市溫度計,但仍未有臺灣版本
  • 新聞指標性

目標

  • 自然語言處理(NLP)的技術,分析新聞,衡量每日大盤、產業及個股的新聞情緒指標
  • 利用中文的新聞衡量台股相關新聞情緒指標

方法

資料處理

  • 以網路爬蟲抓取新聞資料、股市指數

資料處理

  • 理想新聞資料

8月12日盤前/短線拉回無礙多方格局,逢低布局業績股

 

昨日台股以下跌38點至12856點開出後,由於台積電七月營收下滑,拖累高價的上游半導體及IC族群全面回檔,愛普跌停,力旺、譜瑞、精測、家登、弘塑、雍智,下跌逾3%;網通Server族群信驊、緯穎、智邦、嘉澤、健策弱勢,台股跌幅擴大,盤面上僅紡織、風電、航運等零星族群有表現。終場台股下跌113點,以12780點作收,成交量能為2054億元。觀察盤面變化,三大類股全數走跌,其中電子、傳產及金融,分別下跌1.18%、0.38%及0.54%。在次族群部份,以玻璃陶瓷、橡膠及觀光走勢最強,分別上漲7.6%、1.46%及1.16%。資金動向三大法人合計賣超56.32億元。其中外資賣超49.74億元,投信賣超6.23億元,自營商賣超0.38億元。…

資料處理

  • 理想新聞資料

遊戲機台系鏈 商機大


三大家用遊戲主機混戰,微軟新Xbox、索尼PS 5慘遭任天堂Switch超車,Switch甚至在日本市場首度創下連十周銷售突破10萬台佳績。法人認為,疫情帶動的「宅經濟」娛樂商機持續,將持續為鴻海(2317)、和碩、台達電、光寶等遊戲機供應鏈上半年淡季營運添柴火。根據日本遊戲總合情報媒體Famitsu統計數據顯示,Switch系列受惠近期新遊戲熱賣,帶動日本市場一般版Switch及小型廉價版機種Switch Lite銷量增長,統計1月4日至10日單周銷量來到16萬7,596台,寫下連續十周銷量突破十萬台的新紀錄。相較之下,PS 5在大本營日本市場同期銷量僅約1.1萬台,為2020年11月12日開賣來第二低。…

資料處理

  • 過濾新聞資料

富邦金:富邦金控代富昇財產保代公告董事長變動情形


第二條 第6款
1.董事會決議日期或發生變動日期:104/05/22
2.舊任者姓名及簡歷:劉邦仁
3.新任者姓名及簡歷:鄭基男
4.異動情形(請輸入「辭職」、「職務調整」、「解任」、「任期屆滿」或「新任」):
任期屆滿
5.異動原因:任期屆滿
6.新任生效日期:104/05/22
7.其他應敘明事項:無

資料處理

  • 過濾新聞資料

和碩:公告本公司召開民國104年第四季營運說明會相關內容

 

第二條 第12款
符合條款第四條第XX款:12
事實發生日:105/03/17
1.召開法人說明會之日期:105/03/17
2.召開法人說明會之時間:14 時 30 分
3.召開法人說明會之地點:台北市北投區立功街96號
4.法人說明會擇要訊息:說明公司營運概況
5.其他應敘明事項:本公司於法人說明會後將公佈營運說明會資料於公開資訊觀測站及公司網站
完整財務業務資訊請至公開資訊觀測站之法人說明會一覽表或法說會項目下查閱。

資料處理

  • 過濾新聞資料

矽創電子8月營收8.92億元年減9.17% 1—8月達61.25億元

 

矽創電子(8016-TW)2017年 8月營收資料(單位:千元)
        項目
        8月營收
        1—8月營收
        本年度
        891,613
        6,125,274
        去年同期
        981,682
        6,484,025

 \(\vdots\)

Summary

股票名稱 台積電 鴻海 國巨 聯電 總計
資料筆數 3873 2609 583 1276 41461
天數 912 1082 341 390 5748

training / validation split: 20%

建立模型

BERT

  • 2018 年由 Google 發表

  • attention base

  • 字詞\(\rightarrow\)詞彙向量(word embedding)

  • 以「字」為單位而非「詞」

  • 僅須小量資料 fine-tune

  • 支援大部分語言

Bidirectional Encoder Representations from Transformers

BERT

限制:

  • 輸入最大長度為256

  • 無法直接處理新聞資料

  • solution1:僅選用標題

  • solution2:截取文章前綴

  • solution3:斷句整合

solution 1

新聞標題

tokens

 tokenizer

句意向量

 BERT

 Dense Layers

股市溫度

遊戲機台系鏈 商機大

\begin{bmatrix} 101 & 6879 & 2783 & \cdots & 3582 & 1920 & 102 \end{bmatrix}
\begin{bmatrix} x_{11} & \dots & x_{1d} \\ \vdots & \ddots & \vdots \\ x_{n1} & \dots & x_{nd} \end{bmatrix} _{N\times 768}

0 ~ 1

solution 2

tokens

 tokenizer

句意向量

 BERT

 Dense Layers

股市溫度

\begin{bmatrix} 101 & 6879 & 2783 & \cdots & 3582 & 1920 & 102 \end{bmatrix}
\begin{bmatrix} x_{11} & \dots & x_{1d} \\ \vdots & \ddots & \vdots \\ x_{n1} & \dots & x_{nd} \end{bmatrix} _{N\times 768}

0 ~ 1

新聞內容(前200字)

三大家用遊戲主機混戰…

solution 3

A句。B句。C句?D句!

新聞內容(斷句)

tokens

tokenizer

句意向量

BERT

LSTM

股市溫度\(\longleftarrow\)    

0~1

\begin{bmatrix} \cdots\\ \end{bmatrix}
\begin{bmatrix} \cdots\\ \end{bmatrix}
\begin{bmatrix} \cdots\\ \end{bmatrix}
\begin{bmatrix} \cdots\\ \end{bmatrix}
\begin{bmatrix} \cdots\\ \end{bmatrix}
\begin{bmatrix} \cdots\\ \end{bmatrix}
\begin{bmatrix} \cdots\\ \end{bmatrix}
\begin{bmatrix} \cdots\\ \end{bmatrix}

訓練參數

  • epochs: 150

  • optimizer: Adam (learning rate 0.001)

  • loss function: cross entropy

result

method training-acc training-loss testing-acc testing-loss
solution 1 60.0% 0.665 59.4% 0.673
solution 2 67.9% 0.608 67.3% 0.609
solution 3 52.0% 0.692 53.7% 0.690

loss

accuracy

混淆矩陣

predicted class

true class

結果

總結

  • 標題代表性不高
  • 截取前256字的新聞內容效果較佳
  • LSTM結構複雜,不易訓練
  • 二元分類正確率約 70%
  • 股市新聞情緒溫度精準度誤差 33%

欣興電子股價走勢與溫度預測

(初音)未來

未來展望

  • 不同股市指標作為溫度依據

    • 漲跌幅

    • 加權指數

  • 持續蒐集最新新聞資料

  • 以此指標回測投資利率

  • 做成 App / API 方便查詢

感謝聆聽

ytp

By bingxuan9112

ytp

  • 575