問題發現:BERT << GloVe
靜態詞嵌入/語境化詞嵌入的分布情況
各向異性/各向同性?
改善嵌入分布至各向同性是否成功改善效能
如何從理論解釋各向同性比各向異性優秀:
餘弦相似度的假設
去相關
Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks (Reimers & Gurevych, EMNLP-IJCNLP 2019)斯皮爾曼等級相關係數
x,y 排序相同 ρ = 1
x,y 排序相反 ρ = -1
x,y 排序無關 ρ = 0
Representation Degeneration Problem in Training Natural Language Generation Models(Gao, Jun, et al., ICLR 2019)
Learning to remove: Towards isotropic pre-trained BERT embedding (Liang, Yuxin, et al., Artificial Neural Networks and Machine Learning–ICANN 2021: 30th International Conference on Artificial Neural Networks)
各向同性
在不同方向均勻擴展
各向異性
在不同方向不均勻擴展
Vershynin, Roman. "High-Dimensional Probability: An Introduction with Applications in Data Science. 2018." URL https://www.math.uci.edu/~rvershyn/papers/HDP-book/HDP-book.pdf (2018).各向同性
在不同方向均勻擴展
各向異性
在不同方向不均勻擴展
a(2,2)、b(2,-2)、c(-2,2)
a
c
b
c
a
b
各向同性
在不同方向均勻擴展
各向異性
在不同方向不均勻擴展
a(2,2)、b(2,-2)、c(-2,2)
各向同性
在不同方向均勻擴展
各向異性
在不同方向不均勻擴展
a(2,2)、b(2,-2)、c(-2,2)
餘弦相似度失真
Su, Jianlin, et al. "Whitening sentence representations for better semantics and faster retrieval." arXiv preprint arXiv:2103.15316 (2021).SimCSE: Simple Contrastive Learning of Sentence Embeddings (Gao et al., EMNLP 2021)只使用座標計算,而座標值依賴於所在空間的基(basis)
基不相同,計算出的餘弦值就不同
(0,0)
所有的token都有一定程度的相似