AstroOne 理论参数与 LAMOST 实测参数对比研究报告

Comparative Research Report on AstroOne Predicted Parameters
and LAMOST Measured Parameters

分享人:蒲帅

AstroInfer 团队成员:蒲帅(杭州电子科技大学王琰诗琪(桂林理工大学王赫(中国科学院大学

目录

  • 00 前言
  • 01 数据准备
  • 02 数据清洗
  • 03 数据分析
    • • 单变量相对残差分析
    • • 多变量相关性分析
  • 04 数据降维可视化分析
  • 05 结论

1. 数据的准备

  • 数据来源

本研究使用了两个主要数据源:

1.LAMOST 光谱巡天数据:从中国科学院国家天文台大科学装置郭守敬望远镜(LAMOST)官方网站获取。

  • -径向速度(RV)
  • -有效温度(TEFF)
  • -表面重力(LOGG)
  • -金属丰度(FE_H)
  • -α元素丰度(ALPHA_FE)

2.AstroOne 理论模型数据:从项目主办方提供的链接下载,包含基于理论模型计算的上述五个参数预测值。

  • 数据整合

为确保两个数据集中的恒星对象一一对应,我们采用了三重匹配策略:

  • -观测编号(OBSID):确保对象身份一致
  • -赤经(RA):天球坐标系中的经度坐标
  • -赤纬(DEC):天球坐标系中的纬度坐标

通过这种方式,我们成功构建了包含理论预测值和实测值的综合数据集,为后续分析提供了基础。每个参数均以"-la"(LAMOST实测值)和"-as"(AstroOne理论值)后缀区分。

  • 完全重复的行数: 588926
  • 占总行数的比例: 0.271567
  • 移除重复行后的数据集大小: 1579694

2. 数据清理与分析总结

在本分析中,我们对LAMOST和AstroOne两个天文数据集进行了清理和初步分析。以下是主要步骤和发现:

1.数据加载与合并

  • -加载了两个天文数据集并合并为一个DataFrame
  • -创建了唯一标识符`combined_id`,基于观测ID和坐标

2.缺失值处理

  • -识别了两种类型的缺失值:标准NaN和特殊值-9999
  • -分析了各列中缺失值的分布情况
  • -特别注意到ALPHA_FE列中存在大量-9999值,这在LAMOST数据中尤为明显(存在618,122个,占比39.13%)
  • -对于LAMOST中ALPHA_FE的缺失值(-9999),我们选择不进行填充,因为无法确定真实的分布情况,且不能简单地假设AstroOne的分布可以作为填充的合理依据

这些清理步骤为后续的深入分析和模型构建奠定了基础,确保我们使用的数据尽可能完整和可靠。

2. 数据清理与分析总结

在本分析中,我们对LAMOST和AstroOne两个天文数据集进行了清理和初步分析。以下是主要步骤和发现:

3.数据分布可视化

  • -为关键参数(RA, TEFF, LOGG, FE_H, ALPHA_FE)创建了分布直方图
  • -在绘制ALPHA_FE时特别过滤掉了-9999值以避免扭曲分布
  • -对比了LAMOST和AstroOne数据源的参数分布差异
  • -即使去除掉了大量的ALPHA_FE中的缺失值之后,发现其他feature的分布没有任何变化,说明ALPHA_FE的缺失与其他参数没有明显相关性

4.数据质量观察

  • -LAMOST数据在某些参数上(如ALPHA_FE)存在更多缺失值
  • -两个数据源的参数分布存在差异,这可能反映了不同观测方法或目标选择的偏差

这些清理步骤为后续的深入分析和模型构建奠定了基础,确保我们使用的数据尽可能完整和可靠。

3. 数据分析与特征关系探索

在上一节中,我们已经完成了对各个变量的单变量分析,包括分布特性、缺失值处理和数据质量评估。这为我们理解数据集的基本特征提供了重要基础。现在,我们将进一步深入探索变量之间的关系和交互作用。

3. 1 单变量分析与误差评估

天文观测数据的质量评估对于后续分析至关重要。不同观测设备和方法可能导致系统性差异,因此我们需要:

1.
测量误差分析 评估LAMOST和AstroOne两个数据源之间的测量差异
2.
误差分布特征 考察误差的分布形态、中心趋势和离散程度
3.
系统性偏差识别 检测是否存在一致性的测量偏差

对于每个关键天体物理参数(RV, TEFF, LOGG, FE_H, ALPHA_FE),我们将:

  • 计算绝对差异 (AstroOne - LAMOST)
  • 分析相对差异 ((AstroOne - LAMOST)/LAMOST)
  • 评估误差的统计特性(均值、中位数、标准差)
  • 可视化误差分布

这种分析将帮助我们理解数据质量,识别潜在的系统性偏差,并为后续的多变量分析和模型构建提供依据。特别是,我们将关注ALPHA_FE参数,由于其在LAMOST数据中存在大量缺失,了解其在有效测量中的误差特性尤为重要。

下面进一步考察每个变量的误差情况。

3.1.1 径向速度(RV)残差分析结果

从上图的径向速度(Radial Velocity)残差分析可以观察到以下几个关键特点:

1.残差分布特征

  • -相对残差呈现出明显的对称性分布,大部分数据点集中在零附近
  • -分布呈现出"蝴蝶"形状,表明在极端RV值处测量差异较大
  • -直方图显示出尖峰分布特征,中心峰值明显高于正态分布

2.测量一致性

  • -在RV值接近0的区域,相对误差较大,可能由于分母接近零导致的数值不稳定性
  • -在中等RV值范围(-200至200 km/s),两种测量方法的一致性较好
  • -在高RV值区域(>300 km/s或<-300 km/s),相对残差再次增大

3.误差特性评估

  • -理想情况下,测量误差应呈现高斯随机分布,但图中残差显示出明显的结构性模式
  • -"蝴蝶"形状表明误差与测量值大小存在相关性,违背了随机误差的基本假设
  • -残差分布的尖峰特性表明可能存在过度拟合或系统性偏差
  • -在某些RV区间,残差呈现出可预测的模式,这违背了理想误差应不可预测的原则

4.潜在问题

  • -数据中存在少量极端离群值,可能需要进一步筛选
  • -残差分布的非对称性暗示可能存在系统性偏差
  • -误差与RV值之间存在明显的依赖关系,表明测量方法可能需要校准
  • -残差的非高斯特性可能导致基于正态分布假设的统计分析产生偏差

这些观察结果对于理解两种测量方法的适用范围和限制非常重要,也为后续分析提供了方向。特别是,需要考虑开发更适合处理这种非高斯、非随机误差结构的统计模型。

3.1.2 有效温度(TEFF)残差分析结果

从上图的有效温度(Effective Temperature)残差分析可以观察到以下几个关键特点:

1.残差分布特征

  • -相对残差呈现出明显的"蝴蝶"或"沙漏"形状分布,在中等温度区域(5000-7000K)相对残差较小
  • -在低温区域(<5000K)和高温区域(>8000K),相对残差明显增大
  • -直方图显示残差分布较为对称,但中心峰值比正态分布更尖锐

2.测量一致性

  • -在温度范围5000-7000K之间,LAMOST和AstroOne的测量相对一致性最高
  • -温度低于5000K或高于8000K时,两种方法的测量差异显著增大
  • -在某些温度区间,残差呈现出系统性的偏移,而非随机分布

3.误差特性评估

  • -残差的"沙漏"形状表明测量误差与温度值存在明显的相关性
  • -在极端温度区域,相对误差可达到10%以上,而在中等温度区域,大多控制在5%以内
  • -残差分布的尖峰特性表明在主要温度范围内,两种测量方法的一致性好于预期

4.潜在问题与解释

  • -在低温恒星中,分子吸收线增多导致光谱更复杂,可能是低温区域误差增大的原因
  • -高温恒星的光谱特征较少,这可能导致参数提取的不确定性增加
  • -残差的系统性结构表明可能需要温度依赖的校准方法来改进测量一致性
  • -少量极端离群值可能代表特殊类型的恒星或测量故障,需要单独分析

5.与RV残差对比

  • -与径向速度残差相比,温度残差同样呈现"蝴蝶"形状
  • -温度残差的分布更加对称,而RV残差在极值处表现出更明显的不对称性
  • -两种参数的残差都显示出与测量值大小相关的模式

这些观察结果对于理解恒星参数测量的系统性误差非常重要,也为改进光谱分析方法提供了方向。特别是,针对不同温度区间开发专门的校准方法可能会显著提高测量精度。

3.1.3 表面重力(LOGG)残差分析结果

从上图的表面重力(Surface Gravity)残差分析可以观察到以下几个关键特点:

1.残差分布特征

  • -相对残差呈现出明显的扇形分布,在低表面重力区域(0-2)相对残差较大
  • -在中高表面重力区域(2-4),相对残差逐渐收敛,表明这一区间的测量一致性较好
  • -直方图显示残差分布较为对称,但比正态分布更尖锐,表明大部分测量值的差异较小

2.测量一致性

  • -在表面重力范围2-4之间,LAMOST和AstroOne的测量相对一致性最高
  • -表面重力低于2时,两种方法的测量差异显著增大,可能反映了对巨星参数测量的挑战
  • -在某些表面重力区间,残差呈现出系统性的模式,而非完全随机分布

3.误差特性评估

  • -残差的扇形分布表明测量误差与表面重力值存在明显的相关性
  • -在低表面重力区域,相对误差可能达到10%以上,而在中高表面重力区域,大多数测量的相对误差控制在5%以内
  • -残差分布的尖峰特性表明在主要表面重力范围内,两种测量方法的一致性好于预期

4.潜在问题与解释

  • -低表面重力恒星(如巨星)的光谱特征可能更复杂,导致参数提取的不确定性增加
  • -残差的系统性结构表明可能需要表面重力依赖的校准方法来改进测量一致性
  • -少量极端离群值可能代表特殊类型的恒星或测量异常,需要单独分析

5.与温度和RV残差对比

  • -与温度残差类似,表面重力残差也呈现出参数依赖的分布模式
  • -表面重力残差的扇形分布与温度残差的"蝴蝶"形状有所不同,反映了不同物理参数的测量特性
  • -三种参数的残差分析共同表明,恒星参数测量的精度在参数空间中是不均匀的

这些观察结果对于理解恒星表面重力测量的系统性误差非常重要,也为改进光谱分析方法提供了方向。特别是,针对低表面重力恒星开发专门的校准方法可能会显著提高测量精度。

3.1.4 金属丰度(FE_H)残差分析结果

从上图的金属丰度(Metallicity)残差分析可以观察到以下几个关键特点:

1.残差分布特征

  • -相对残差呈现出明显的"蝴蝶"或"沙漏"形状分布,在金属丰度极低和极高区域相对残差较大
  • -在中等金属丰度区域(-1.5至0),相对残差较小,表明这一区间的测量一致性较好
  • -直方图显示残差分布较为对称,但有轻微的负偏态,表明AstroOne的测量值整体略低于LAMOST

2.测量一致性

  • -在金属丰度范围-1.5至0之间,LAMOST和AstroOne的测量相对一致性最高
  • -金属丰度低于-2或高于0.5时,两种方法的测量差异显著增大
  • -在极端金属贫乏恒星中,残差的分散程度特别明显,反映了对这类恒星参数测量的挑战

3.误差特性评估

  • -残差的"蝴蝶"分布表明测量误差与金属丰度值存在明显的非线性关系
  • -在极端金属丰度区域,相对误差可能达到20%以上,而在中等金属丰度区域,大多数测量的相对误差控制在10%以内
  • -残差分布的对称性表明两种测量方法之间没有显著的系统性偏差

4.潜在问题与解释

  • -极端金属贫乏恒星的光谱特征较弱,导致参数提取的不确定性增加
  • -高金属丰度恒星的光谱线可能出现饱和或混叠,增加了测量难度
  • -残差的系统性结构表明可能需要金属丰度依赖的校准方法来改进测量一致性

5.与温度和表面重力残差对比

  • -金属丰度残差的"蝴蝶"形状与温度残差分布相似,但与表面重力的扇形分布不同
  • -三种参数的残差分析共同表明,恒星参数测量的精度在参数空间中是不均匀的
  • -金属丰度测量在中等值区域表现最佳,这与温度和表面重力的测量特性一致

这些观察结果对于理解恒星金属丰度测量的系统性误差非常重要,也为改进光谱分析方法提供了方向。特别是,针对极端金属丰度恒星开发专门的校准方法可能会显著提高测量精度。

3.1.5 α元素丰度(ALPHA_FE)残差分析结果

从上图的α元素丰度残差分析可以观察到以下几个关键特点:

1.残差分布特征

  • -相对残差呈现出明显的"蝴蝶"或"沙漏"形状分布,在α元素丰度极低和极高区域相对残差较大
  • -在中等α元素丰度区域(-0.1至0.2),相对残差较小,表明这一区间的测量一致性较好
  • -直方图显示残差分布较为对称,但有一定的分散性

2.测量一致性

  • -在α元素丰度接近0的区域,LAMOST和AstroOne的测量相对一致性最高
  • -α元素丰度低于-0.2或高于0.3时,两种方法的测量差异显著增大
  • -特别是在极端值区域,残差的分散程度非常明显

3.误差特性评估

  • -残差的"蝴蝶"分布表明测量误差与α元素丰度值存在明显的非线性关系
  • -在极端α元素丰度区域,相对误差可能较大,而在中等丰度区域,大多数测量的相对误差较小
  • -数据点的密度分布显示大多数恒星的α元素丰度测量集中在特定区域

4.潜在问题与解释

  • -α元素丰度的测量依赖于特定光谱线的强度,在极端值区域这些特征可能变得难以准确测量
  • -两种测量方法可能对α元素丰度的定义或计算方式存在细微差异
  • -残差的系统性结构表明可能需要针对不同α元素丰度区域开发专门的校准方法

5.与其他参数残差的比较

  • -α元素丰度残差的分布模式与金属丰度和温度残差有相似之处,都呈现出在极端值区域误差增大的特点
  • -这种一致性表明恒星参数测量的精度在参数空间的边缘区域普遍降低

这些观察结果对于理解恒星α元素丰度测量的系统性误差非常重要,也为改进光谱分析方法提供了方向。特别是,针对极端α元素丰度恒星开发专门的校准方法可能会显著提高测量精度。

3.2 多变量关系分析

天体物理参数之间通常存在复杂的相互关系,这些关系可以揭示恒星演化和宇宙化学演化的重要信息。在这一部分,我们将:

  • 分析关键物理参数(如温度、表面重力、金属丰度和α元素丰度)之间的相关性
  • 比较LAMOST和AstroOne两个数据源在这些相关性上的异同
  • 探索可能存在的物理规律和数据采集偏差
  • 通过散点图、热图和配对图等可视化方法直观呈现多维数据关系

LAMOST与AstroOne关键物理参数相关性

相关性矩阵分析结果

从相关性矩阵图中,我们可以观察到LAMOST和AstroOne两个数据集之间的参数相关性差异:

主要发现

1.
自相关性:对角线上的值均为1.00,表示每个参数与自身完全相关,这是预期的结果。
2.
金属丰度与α元素丰度:两个数据集都显示出金属丰度(Metallicity)与α元素丰度(α-element Abundance)之间存在明显的负相关性(约-0.53),这与恒星演化理论一致,即金属贫星往往α元素增丰。
3.
表面重力与温度:两个数据集都显示出表面重力(Surface Gravity)与温度(Temperature)之间存在中等程度的正相关性(0.44),这反映了恒星演化过程中的物理关系。
4.
温度与α元素丰度:AstroOne数据集显示温度与α元素丰度之间存在较强的负相关性(-0.56),而LAMOST数据集中这种相关性较弱。
5.
表面重力与金属丰度:两个数据集都显示出表面重力与金属丰度之间存在弱到中等的正相关性(0.25~0.31)。

数据集差异

1.LAMOST和AstroOne在某些参数对的相关性强度上存在差异,这可能反映了两种光谱分析方法的系统性差异。

2.径向速度(Radial Velocity)与其他参数的相关性在两个数据集中都较弱,表明恒星运动学特性与大气参数之间没有强关联。

结论

这种相关性分析有助于理解恒星参数之间的物理关系,以及不同光谱分析方法可能引入的系统性差异。特别是对于金属丰度与α元素丰度之间的负相关性,这是恒星化学演化的重要指标,在两个数据集中都得到了验证。

4. 数据降维可视化:Alpha元素丰度(ALPHA_FE)分布分析

两个数据集的关键差异

1. 分布模式:LAMOST数据集的Alpha元素丰度分布呈现出更明显的双峰结构,对应于银河系盘和晕的恒星种群;而AstroOne数据集的分布相对更为连续

2. 区分度:LAMOST数据在降维空间中基于Alpha元素丰度的区分更为明显,这可能反映了LAMOST光谱分析方法对Alpha元素丰度测量的敏感性更高

3. 与金属丰度的相关性:在两个数据集中,Alpha元素丰度与金属丰度(FE_H)都表现出一定的相关性,但LAMOST数据中这种相关性更为明显,特别是在低金属丰度区域的高Alpha元素丰度恒星

这些差异对于研究银河系化学演化历史和恒星形成历史具有重要意义,特别是在区分不同恒星种群(如银河系盘、晕、球状星团等)时,Alpha元素丰度是一个关键的判断指标。

降维分析是天体物理数据分析中的一个重要工具,它可以帮助我们理解数据集的结构和模式。在这一部分,我们使用PCA(主成分分析)、t-SNE(t-分布随机邻域嵌入)和UMAP(统一流形近似与投影)来对比LAMOST和AstroOne数据集在降维空间中的特征分布差异。

AstroOne数据集中的Alpha元素丰度分布特点

PCA空间

AstroOne的PCA结果中Alpha元素丰度分布更为均匀,从低值(紫色)到高值(绿色)的过渡更为连续

t-SNE空间

Alpha元素丰度在AstroOne的t-SNE空间中形成了较为模糊的边界,聚类结构不如LAMOST数据明显

UMAP空间

UMAP显示AstroOne的Alpha元素丰度分布形成了连续的流形结构,但区分度不如LAMOST数据清晰

LAMOST数据集中的Alpha元素丰度分布特点

PCA空间

Alpha元素丰度在LAMOST的PCA空间中呈现出较为清晰的分层结构,高Alpha元素丰度(黄色)和低Alpha元素丰度(紫色)形成了不同的区域

t-SNE空间

在t-SNE降维结果中,Alpha元素丰度形成了几个明显的聚类,特别是高Alpha元素丰度恒星形成了独立的聚类区域

UMAP空间

UMAP结果显示Alpha元素丰度在LAMOST数据中形成了分支状结构,高Alpha元素丰度恒星群体与低Alpha元素丰度恒星群体明显分离

5. 总结分析结果

数据集概述

在本分析中,我们比较了LAMOST和AstroOne两个天文光谱巡天数据集的恒星参数。这两个数据集包含了相同天区的恒星,但使用了不同的光谱分析方法得到恒星的物理参数,如有效温度(TEFF)表面重力(LOGG)金属丰度(FE_H)α元素丰度(ALPHA_FE)和径向速度(RV)

主要发现

1. 参数分布差异

  • 有效温度(TEFF): 两个数据集的温度测量存在系统性差异,但总体趋势相似。
  • 表面重力(LOGG): AstroOne的LOGG值分布较窄,可能表明其在某些参数区间的测量精度有限。
  • 金属丰度(FE_H): 两个数据集的金属丰度测量显示出一定的相关性,但在极端值处存在偏差。
  • α元素丰度(ALPHA_FE): LAMOST数据中存在大量缺失值(-9999),而AstroOne提供了更完整的测量。
  • 径向速度(RV): 两个数据集的径向速度测量存在显著差异,这可能反映了不同分析方法的系统误差。

2. 降维分析结果

  • PCA分析: 主成分分析显示两个数据集在参数空间中有明显的重叠,但也存在系统性偏移。
  • t-SNE分析: t-SNE揭示了数据的局部结构,显示出两个数据集在某些区域的聚类模式差异。
  • UMAP分析: UMAP进一步确认了两个数据集在参数空间中的分布差异,同时保留了更多的全局结构。

3. 关键结论

  • 1. 两个数据集虽然测量相同的天体,但由于分析方法不同,产生了系统性的参数差异。
  • 2. AstroOne在α元素丰度测量方面提供了更完整的数据,这是相对于LAMOST的优势。
  • 3. 径向速度测量显示出最大的不一致性,使用时需要特别注意。
  • 4. 降维分析表明,尽管存在系统差异,两个数据集在参数空间中仍然表现出相似的整体结构。

应用价值

这项分析对于理解不同光谱巡天数据集之间的系统差异至关重要,有助于:

  • 1. 在合并多个数据集进行科学研究时进行适当的校准
  • 2. 评估不同光谱分析方法的优缺点
  • 3. 为未来的天文巡天项目提供参考,改进恒星参数的测量方法

未来工作方向

  • 1. 开发更精确的数据集间校准方法
  • 2. 探索导致系统差异的具体原因
  • 3. 结合其他天文数据集进行交叉验证
  • 4. 针对特定类型恒星(如金属贫星、巨星等)进行更深入的比较分析

致谢

感谢各位专家对本研究的指导与支持,特别感谢LAMOST团队和AstroOne项目组提供宝贵的数据资源。

AstroOne 理论参数与 LAMOST 实测参数对比研究报告

By He Wang

AstroOne 理论参数与 LAMOST 实测参数对比研究报告

  • 0