2024年5月26日, 09:15-09:40 | 中国 · 杭州

人工智能与引力波天文学:挑战、机遇与人才培养

王赫 (He Wang)

20分钟 大概20页

我在北师大的求学和渊源(1)

  • 提及早期关于黑洞精确解、黑洞微扰论、黑洞稳定性等理论物理研究
  • 但一直对编程和算法感兴趣,切入点一直找的不好

引力波天文学与AI

  • 2017年的契机,围棋机器人,开始接触AI和引力波天文学
  • 引力波天文学(非常优良的信使,能直面大多数乌云级别的问题)
  • 引力波数据分析的重要性和面临的挑战
  • 大数据与人工智能领域的蓬勃发展 - 技术奇点
  • AI与引力波天文学现今是非常火热的领域,也越来越流行和重要
    • 引力波信号探测
    • 引力波参数反演
  • 人工智能与科学研究的关系:机遇与挑战

人才培养

  • 基础知识架构是非常交叉的
    • 国内引力波数据分析的从无到有
    • 大数据与人工智能学科从不成熟到成熟
      曾经博士期间观察到
  • 训练营
    • 本质上是一门技术
  • 我的开源博士论文
  • 引力波开源数据平台基础设施

Content

  • 在北师大求学(2015-2020)
  • 引力波天文学与数据处理
  • 人工智能与引力波天文学
    • ​信号探测
    • 参数反演
  • 人工智能与引力波数据分析:教

学 (2015-2020)

  1. 研究生期间的研究焦点
    • 研究黑洞的精确解 (Wu&Wang PRD 2015),黑洞微扰论,以及黑洞稳定性等问题
  2. 对编程和算法的兴趣
    • 尽管主攻理论物理,但一直保持对编程和算法的浓厚兴趣。
    • 自学多种编程语言和算法设计,希望在物理研究中应用计算方法。
  3. 研究课题的挑战
    • 在物理和计算领域之间寻找合适的研究切入点一直较为困难。
    • 探索如何将算法和编程技术有效融入理论物理研究,以解决复杂的物理问题。

学 (2015-2020)

  1. 2017年的启示
    • AlphaGo的成功不仅在围棋界引起了轰动,也让科学界重新思考计算机算法解决复杂问题的可能性。这一事件表明,即使是NP-Hard难题,也有可能通过算法找到有效的解决方案。
  2. AI与科学的结合
    • AlphaGo的胜利激发了对于AI在其他科学领域应用的探索,比如我们开始幻想在理论物理学中,如黑洞的精确解求解和数值相对论的计算等等。
  3. 引力波天文学的接触
    • 由于AI在处理复杂数据和模式识别方面的潜力,开始考虑其在引力波天文学中的应用,这是研究宇宙中极端天体事件(如黑洞和中子星碰撞)产生的引力波的一个新兴的跨学科领域。

AlphaGo
围棋机器人

AlphaTensor
发现矩阵算法

AlphaFold
蛋白质结构预测

验证数学猜想

Content

  • 在北师大求学(2015-2020)
  • 引力波天文学与数据处理
  • 人工智能与引力波天文学
    • ​信号探测
    • 参数反演
  • 人工智能与引力波数据分析:教

引力波天文学

  • 爱因斯坦于1916年提出广义相对论,并预言了引力波的存在
  • 引力波是广义相对论中的一种强场效应
    • 2015年:首次实验探测到双黑洞并合引力波
    • 2017年:首次双中子星多信使探测,开启多信使天文学时代
    • 2017年:引力波探测成果被授予诺贝尔物理学奖
    • 至今:发现了超过 90 个引力波事件
  • 未来:
    • 2023-2024年:有希望探测到更多不同类型的引力波事件
    • 空间引力波探测计划 (LISA/Taiji/Tianqin) + XG (CE/ET)

Gravitational waves generated by binary black holes system

GW detector

引力波天文学

  • 引力波探测打开了探索宇宙的新窗口

  • 不同波源,频率跨越 20 个数量级,不同探测器

  • 多信使天文学

引力波天文学

  • 基础理论的检验与修正
    • 基础物理学
      • 引力子是否有质量, 引力波的传播速度 ...
    • 天体物理学
      • 大质量恒星演化模型, 恒星级双黑洞的形成机制 ...
    • 宇宙学
      • 哈勃常数的测量, 暗能量 ...

​​​

  • The current clouds over fundamental physics:
    • 量子力学与广义相对论的统一
    • 星系旋转曲线(暗物质)、宇宙加速膨胀(暗能量)
    • 哈勃常数H0
    • 中微子震荡和质量问题
    • ...

引力波天文学与数据处理

  • 伯纳德·舒尔茨曾列出成功观测引力波的五条关键要素:
    1. 良好的探测器技术
    2. 良好的波形模板
    3. 良好的数据分析方法和技术
    4. 多个独立探测器间的一致性观测
    5. 引力波天文学和电磁波天文学的一致性观测

​​DOI:10.1063/1.1629411

©Floor Broekgaarden (repo)

The first GW event of GW150914

引力波天文学与数据处理

引力波观测数据

  • ​噪声: 非高斯 + 非稳态

 

 

 

 

 

 

  • (地面引力波探测) 信噪比极低,通常约为噪声幅度的1/100(-60分贝)
    (空间引力波探测) 在任务观测期间接收到的所有引力波信号的叠加(例如:\(10^4\)  个双星黑洞系统,\(10\sim10^2\) 个超大质量黑洞,以及\(10\sim10^3\) 个极端质量比旋近系统等)。

匹配滤波方法

  • 高斯稳态噪声环境下,提取信号的最优算法

  • 假设:引力波观测数据 = 高斯稳态噪声 + 某引力波信号

                                   \(d(t) = n(t) + h(t)\)

LIGO-VIRGO-KAGRA

LISA / Taiji project

科学智能:AI for Science

  • 2016年,AlphaGo 第一版发表在了 Nature 杂志上

  • 2021年,AI预测蛋白质结构登上 Science、Nature 年度技术突破,潜力无穷

  • 2022年,DeepMind团队通过游戏训练AI发现矩阵乘法算法问题​

  • 《达摩院2022十大科技趋势》将 AI for Science 列为重要趋势

    • 人工智能成为科学家的新生产工具,催生科研新范式

  • 2023年,DeepMind发布AI工具GNoME (Nature),成功预测220万种晶体结构

  • AI for Science:为科学带来了模型与数据双驱动的新的研究范式

    • AI + 数学、AI + 化学、AI + 医药、AI + 量子、AI + 物理、AI + 天文 ...

AlphaGo 围棋机器人

AlphaTensor 发现矩阵算法

AlphaFold 蛋白质结构预测

验证数学猜想

Content

  • 在北师大求学(2015-2020)
  • 引力波天文学与数据处理
  • 人工智能与引力波天文学
    • ​信号探测
    • 参数反演
  • 人工智能与引力波数据分析:教

人工智能技术与引力波数据处理

Text

Pioneering works utilizing CNN

  • The most common and direct approach, from Computer Vision (CV) to GW signal processing: pixel point \(\Rightarrow\) sampling point.

 

 





 

  • Convolutional neural networks (CNN) can achieve comparable performance to Matched Filtering and surpass them in terms of execution speed (with GPU support) under Gaussian stationary noise.

AI for Science \(\rightarrow\) AI for GW Astronomy






 

 

 

 




 

  • Artificial Intelligence (AI) has great potential to revolutionize gravitational wave astronomy by improving data analysis, modeling, and detector development.
  • Representation and supervised learning crucially extract features from GW signals, autonomously identifying informative features and leveraging labeled data for accuracy.

Text

Exported: Oct, 2023 (in preparation)

PRL, 2018, 120(14): 141103.

PRD, 2018, 97(4): 044039.

人工智能技术与引力波数据处理:信号探测

Matched-filtering Convolutional Neural Network (MFCNN)

Text

  • GW templates can be utilized as recognizable features for signal detection.
  • It is feasible to generalize both matched-filtering and neural networks.
  • Linear filters (i.e., matched-filtering) in signal processing can be reformulated as neural layers (i.e., CNNs).

MLGWSC-1

  • The majority of AI algorithms used for testing are highly sensitive to non-Gaussian real noise backgrounds, resulting in high false positive rates.

(MFCNN group) H.W., et al. PRD (2023)

Text

CL.M., W.W., H.W., et al. PRD (2022)

Ensemble learning

  • Leverages statistical approaches to utilize more information for making informed decisions by combining multiple models.

Real-time GW searches for GW150914

H.W., et al. PRD (2020)

Text

Expanding the dimension of the output

  • is to call more information to make decisions in improving AI models.

Text

CL.M., W.W., H.W., et al. PRD (2023)

Text

Beyond Speed: Generalization and Discovery in GW Detection

  • Leveraging our experience in  signal modeling  (MFCNN)
    and noise modeling (WaveFormer), we are gradually
    building an offline pipeline capable of searching for
    signals in complete GW observation data and calculating
    FARs.

He Wang, et al. MLST. 5, 1 (2024): 015046.

人工智能技术与引力波数据处理:信号探测

Text

Challenges in Model Interpretability

  • The black-box nature of AI models poses significant challenges in interpretability, making it difficult to compare AI-generated detection statistics with those derived from matched filtering chi-square distributions.
  • Despite being able to identify potential gravitational wave signals, convincing the scientific community of the pipeline's validity and the statistical significance of new discoveries remains a hurdle.

He Wang, et al. MLST. 5, 1 (2024): 015046.

GW151226

GW151012

LVK.  arXiv:1602.03839

人工智能技术与引力波数据处理:信号探测

Content

  • 在北师大求学(2015-2020)
  • 引力波天文学与数据处理
  • 人工智能与引力波天文学
    • ​信号探测
    • 参数反演
  • 人工智能与引力波数据分析:教

Credit: LIGO Magazine.

人工智能技术与引力波数据处理:参数反演

  • Traditional parameter estimation (PE) techniques rely on Bayesian analysis methods (posteriors + evidence)

  • Computing the full 15-dimensional posterior distribution estimate is very time-consuming:
    • Calculating likelihood function
    • Template generation time-consuming
  • Machine learning algorithms are expected to speed up

Bayesian statistics

Data quality improvement

Credit: Marco Cavaglià 

LIGO-Virgo data processing

GW searches

Astrophsical interpretation of GW sources

人工智能技术与引力波数据处理:参数反演

  • A complete 15-dimensional posterior probability distribution, taking about 1 s (<< \(10^4\) s).
  • Prior Sampling: 50,000 Posterior samples in approximately 8 Seconds.
  • Capable of calculating evidence
  • Processing time: (using 64 CPU cores)
    • less than 1 hour with IMRPhenomXPHM,
    • approximately 10 hours with SEOBNRv4PHM

PRL 127, 24 (2021) 241103.

PRL 130, 17 (2023) 171403.

Nature Physics 18, 1 (2022) 112–17

HW, et al. Big Data Mining and Analytics 5, 1 (2021) 53–63.

A diagram of prior sampling between feature space and physical parameter space

人工智能技术与引力波数据处理:参数反演

  • Bayesian inference, the Holy Grail of gravitational-wave data analysis,
    enables astrophysical interpretation and scientific discoveries.
     

Simulation-Based Inference (SBI)

  • SBI \(\Rightarrow\) Fast and precise parameter estimation.
  • SBI \(\Rightarrow\) TGR / Cosmology / PTA ...

Text

PRL 127, 24 (2021) 241103.

PRL 130, 17 (2023) 171403.

Real-time gravitational wave science with neural posterior estimation

Sampling with prior knowledge for high-dimensional gravitational wave data analysis

He Wang, et al. Big Data Min. Anal. (2021)

PRD 108, 4 (2023): 044029.

Neural Posterior Estimation with Guaranteed Exact Coverage: The Ringdown of GW150914

arXiv:2310.13405, LIGO-P2300306

Cosmological Inference using Gravitational Waves and Normalising Flows

Fast Parameter Inference on Pulsar Timing Arrays with Normalizing Flows

arXiv:2310.12209

Normalizing Flows as an Avenue to Studying Overlapping Gravitational Wave Signals

PRL 131, 17 (2023): 171403.

Angular Power Spectrum of Gravitational-Wave Transient Sources as a Probe of the Large-Scale Structure

人工智能技术与引力波数据处理:参数反演

人工智能技术与引力波数据处理:参数反演

M. Du, B. Liang, HW*, P. Xu, Z. Luo, Y. Wu*. SCPMA 67, 230412 (2024).

  • Multimodality in extrinsic parameters

  • Computational performance

    • 10000 samples in 2.7 sec

Text

Rapid PE for Space-borne GW Detection

  •  To preprocess Global Fit data for early detection of merged EM observations for MBHBs.

Content

  • 在北师大求学(2015-2020)
  • 引力波天文学与数据处理
  • 人工智能与引力波天文学
    • ​信号探测
    • 参数反演
  • 人工智能与引力波数据分析:教

数字信号处理

R.C. Cofer, Benjamin F. Harding, in Rapid System Prototyping with FPGAs, 2006

Dieter Rasch, Dieter Schott. Mathematical Statistics, (2018)

数理统计

引力波数据分析:知识框架

  1. 理论基础:

    • 引力波物理

    • 数字信号处理

    • 数理统计

  2. 编程基础:

    •  

    •  

    •  

  3. 硬件基础:

    •  

    •  

Miller, M.C., Yunes, N. The new frontier of gravitational waves. Nature 568, 469–476 (2019).

引力波物理与引力波天文学

引力波数据分析:知识框架

  1. 理论基础:

    • 引力波物理 (pycbc, lalsuite, lisacode, bilby, ... )

    • 数字信号处理 (scipy, stat, ...)

    • 数理统计 (bilby, emcee, ptemcee, ptmcmc, …)

  2. 编程基础:

    • Python (numpy, pandas; matplotlib; ...),

    • AI (scikit-learn, XGBoost, PyTorch, TensorFlow, JAX, ...)

    • Linux (docker, github, bash, vim, emacs …)

  3. 硬件基础:

人工智能学科的快速发展

  • 国内引力波数据分析的从无到有
  • 大数据与人工智能学科的成熟
    • 政策推动下的学科建设:2020年3月,全国约180所高校新增“人工智能”本科专业。数据科学与大数据技术专业的学校数量也达到了100多所。智能制造、机器人工程、智能科学与技术等专业也在数十所学校中得到了发展。
  • 通过授课和与工业界的交流,不断更新和提升个人技能,保持学科前沿的敏感性:
  • Aug 2023:引力波暑期学校《引力波数据处理与机器学习》:中山大学天琴中心
  • Jan 2022 - May 2022:《数据可视化初了解》知乎盐选
  • Apr 2021 – Jul 2021:《人工智能从业者认证课程》 腾讯云
  • Dec 2020 – Jul 2021:《深度学习之 PyTorch 实战》万⻔大学
  • Jun 2020 – Nov 2020:《Python 数据可视化与实战》万⻔大学
  • Apr 2020 – Oct 2020:《大数据预处理》国家开放大学 · 大数据挖掘与技术系列课程
  • Feb 2020 – Nov 2020:《Python 程序设计》国家开放大学 · 大数据挖掘与技术系列课程
  • Aug 2019:《Python 数据挖掘工具》中原银行 · 校招生培训系列课程

人工智能与引力波数据分析:

  1. 开源共享的博士论文《引力波探测中关于深度学习数据分析的研究》

人工智能与引力波数据分析:

2. ​引力波太极实验室:《引力波数据探索:编程与分析实战训练营》 2023.11 - 2024.1

  • 训练营报名初期,有效申请的学员人数共 432 人,来自各行各业。其中一半以上来自理论物理、物理学、天体物理和天文学等专业方向。
  • 在“其他”专业类别中,包含心理学、生物信息与医药、工商管理、材料与化工、地震与地球物理、金融、控制工程等等。
  • 在学员填写的 “个人研究的主要障碍” 和 “对本课程的期望” 的词云分析中,“引力波”、“机器学习”、“数据处理”、“深度学习”、“能力”、“编程”等是最常见的关键词。

人工智能与引力波数据分析:

2. ​引力波太极实验室:《引力波数据探索:编程与分析实战训练营》 2023.11 - 2024.1

  • 第 3 部分:机器学习基础
    • 机器学习算法之应用起步
    • 机器学习算法之应用进阶
    • 实战项目:基于 LIGO 的 Glitch 元数据完成多分类任务
    • 实战项目:基于 LIGO 的 Glitch 时频图数据实现聚类分析
  • 第 4 部分:深度学习基础
    • 深度学习技术概述与神经网络基础
    • 实战项目:训练一个3层神经网络(手撸版)
    • 卷积神经网络与引力波信号探测
    • 实战项目:使用 CNN 识别双黑洞系统引力波信号
    • Kaggle数据科学竞赛 (黑客马拉松): Can you find the GW signals?
  • 【公开课】AI发展全景与GPT前沿解析 (特邀嘉宾:高民权)
  • 第 0 部分:通向自我实现之路
  • 第 1 部分:编程开发环境与工作流
    • 基础运维技术
    • 容器化技术
    • 实战项目:Python / Jupyter 开发环境搭建 + 远程连接 VS Code
    • 实战项目:LALsuite / LISAcode 的源码编译 (optional)
    • Git 分布式版本控制系统
  • 【公开课】数据技术演进与现实应用 (特邀嘉宾:田昕峣)
  • 第 2 部分:基于 Python 的数据分析基础
    • 数据科学语言 Python 从入门到熟悉
    • 数据分析实训之 Numpy / Pandas
    • 实战项目:GW Event Catalog 的探索性数据分析
    • 实战项目:股票数据分析案例 (optional)
    • 基于 Python 的数据可视化理论与实践之 Matplotlib / Seaborn
    • 实战项目:GWTC 论文中的 Figures
    • 实战项目:针对 GW150914 信号处理与匹配滤波数据分析
  • 【公开课】贝叶斯推断在引力波科学中的应用 (特邀嘉宾:赵俊杰)

人工智能与引力波数据分析:

2. ​引力波太极实验室:《引力波数据探索:编程与分析实战训练营》 2023.11 - 2024.1

谢谢!

  • 在北师大求学(2015-2020)
  • 引力波天文学与数据处理
  • 人工智能与引力波天文学
    • ​信号探测
    • 参数反演
  • 人工智能与引力波数据分析:教

AI Predicting the Universe: Opportunities and Challenges

  • Exploring the importance of understanding how AI models make predictions in scientific research.
    • The critical role of generative models (生成模型是关键)
    • Quantifying uncertainty: a key aspect (不确定性量化问题)
    • Fostering controllable and reliable models (模型的可控可信问题)

AI or Bayes

Text-to-image

"A running dog"
  • The most common and direct approach, from Artificial Intelligence Generated Content (AIGC) to GW statistical inference: pixel point \(\Rightarrow\) inferred parameter.

AI Predicting the Universe: Opportunities and Challenges

  • Exploring the importance of understanding how AI models make predictions in scientific research.
    • The critical role of generative models (生成模型是关键)
    • Quantifying uncertainty: a key aspect (不确定性量化问题)
    • Fostering controllable and reliable models (模型的可控可信问题)

AI or Bayes

Text-to-image

"A corgi running on the street"

A picture is worth a thousand words.

A fraction of a thousand words.

Credit: 李宏毅

"A running dog"
  • The most common and direct approach, from Artificial Intelligence Generated Content (AIGC) to GW statistical inference: pixel point \(\Rightarrow\) inferred parameter.

AI Predicting the Universe: Opportunities and Challenges

2310.12528

Ongoing and Future Projects

Pipeline Targets Programing Language (sampling method) Comments
GLASS 
(Littenberg&Cornish 2023)
Noise,
UCB, VGB, MBHB
C / Python (TPMCMC / RJMCMC) noise_mcmc+gb_mcmc+vb_mcmc+global_fit
Eryn UCB Python (TPMCMC / RJMCMC) Mini code for UCB case
PyCBC-INFERENCE MBHB Python (?) Unavailable
Bilby in Space / tBilby MBHB / ? ? / Python? (RJMCMC) Unavailable
Strub et al. UCB ? (GP) Unavailable / GPU-based
Zhang et al. (LZU) UCB ? (PSO) MLP
Balrog MBHB ?

(Sec.8.6 Red Book)

Global Fit

  • The idea of the global fit method is to comprehensively model all astrophysical and instrumental features present in the space-borne gravitational wave data.
  • This approach not only focuses on the signal from a single source, but attempts to capture the combined effects of all sources in the data, conducting a comprehensive analysis of the entire dataset to identify and model all potential signal and noise sources.

Technical challenges:

  • High dimensional
  • Highly correlated
  • Multimodality
  • Trans-dimensional

Text

Ongoing and Future Projects

Neural density estimation

  • Density fit for posterior distributions
    • use the old posterior to form a proposal for the extended data.
  • Density fit for the Galaxy
    • fitt a Galaxy model for joint distribution for \((A, \beta, \lambda)\).
  • ...

Text

Ref:

  • Ashton, G, and C Talbot. MNRAS 507, no. 2 (2021): 2037–51.
  • Korsakova, N, et al. (2402.13701)
  • Wouters, T, et al. (2404.11397​)

Ongoing and Future Projects

Neural density estimation

  • Density fit for posterior distributions
    • use the old posterior to form a proposal for the extended data.
  • Density fit for the Galaxy
    • fitt a Galaxy model for joint distribution for \((A, \beta, \lambda)\).
  • ...

Text

nflow

\mathcal{N}(0,\mathbb{I})