行业资讯丨HPC+AI,推动“星系总动员”计划进入新时代

2019-08-02 16:58:38 朱明劲 0
作为天文学研究中规模最大的一次普查活动,“星系总动员(Galaxy Zoo)”项目在过去十几年中邀请了众多天文爱好者通过人工查看并分类“斯隆数字巡天计划”产生的数十万星系图片,来帮助科学家确定众多星系的类型。但随着自动化天文观测海量数据的产生,该人工查看并分类方式也遇到了严峻的挑战。

最近,利用最新人工智能技术和超级计算机的强大处理能力,来自美国国家超算应用中心和阿贡国家实验室的研究团队,开发出一种新型的深度学习组合方法来分类数亿张未标记的星系图片,准确率高达99.6%,帮助人类更快地认识和理解整个宇宙。

image.png



2007年,致力于绘制精细化三维宇宙图谱的“斯隆数字巡天计划(SDSS)”发起了一项名为“星系总动员(Galaxy Zoo)”的全民科学活动,号召众多天文爱好者帮助对由光学望远镜拍摄的数十万张星系图像进行分类。该项目吸引了全球超过8万名志愿者热情参与,他们通过专有在线平台,查看由光学望远镜拍摄的各个星系图片,并帮助确定是漩涡星系还是椭圆星系,或者根本就不是星系。“星系总动员”项目被称为“天文学研究中一次规模最大的普查活动”,通过众多志愿者的参与,加速了星系分类工作。但随着“斯隆数字巡天计划”产生的数据集日益庞大,人工查看并分类星系图像也面临了前所未有的挑战。


image.png


什么是“斯隆数字巡天计划”(SDSS)?

斯隆数字巡天是使用位于新墨西哥州阿帕奇山顶天文台的2.5米口径望远镜进行的红移巡天项目。该项目开始于2000年,以阿尔弗雷德·斯隆的名字命名,计划观测33%的星空,获取超过三百万个天体的多色测光资料和光谱数据。

image.png

最近,利用前期“星系总动员”活动产生的分类数据,一个由多位科学家组成的项目团队正在利用最新人工智能技术和超级计算机的强大处理能力,加速分析由“斯隆数字巡天计划”产生的日益增长的庞大数据集。

在这项研究中,来自美国国家超算应用中心(NCSA)和阿贡国家实验室(ANL)的研究人员利用最新的Xception神经网络,开发出一种新型的深度学习组合方法他们使用“星系总动员”项目生成的数据集,来训练其深度学习模型,然后将训练过的模型应用到暗能量巡天(DES)的星系图像中。实验表明该模型可提供高准确率的方法来分类数亿张未标记的星系图片。其研究成果于2019年7月成功在线发表在《物理快报B》上。

image.png

“我们NCSA重力小组率先在引力波天体物理学中使用大规模深度学习,并逐步扩展了研究范围。为了应对宇宙科学计算中的巨大挑战,基于超算资源我们创新性地使用多种深度学习组合方法”,NCSA 重力小组负责人Eliu Huerta说,“我们的工作还展示了如何使国家科学基金会和能源部的超算资源相结合来加速科学发现。

“深度学习已在多个学科中获得了蓬勃的发展。我们的研究结果表明,深度学习和高性能计算的融合可以应对大规模电磁勘探带来的大数据挑战。该项研究只是NCSA正在推进的支持人工智能和高性能计算深度融合多学科项目的一部分”。该研究论文的第一作者、NCSA 重力小组的研究生Asad Khan补充道。

在阿贡国家实验室数据科学项目奖的支持下,该团队使用了“星系总动员”活动产生的数据集来训练人工神经网络模型,以便在暗能量巡天计划(DES)中对重叠了的星系进行分类。利用阿贡国家实验室的超级计算资源,使用“星系总动员”项目的数据集来训练Xception模型的时间从5小时缩短到8分钟,极大地提高了处理效率。并且,使用该方法识别漩涡星系和椭圆星系的准确率高达99.6%。研究人员还成功研发了一个可视化程序来显示深度神经网络的倒数第二层在训练时的输出。如下图是模型正在学习将星系分类为螺旋状或椭圆形。

image.png

深度神经网路模型在学习漩涡星系和椭圆星系时,倒数第二层网络的输出

“利用民众在‘星系总动员活动中进行的数百万次分类来训练神经网络,是对大众科学计划的一个鼓舞人心的应用,”阿贡国家实验室计算科学家Elise Jennings说,“这项激动人心的研究也揭示了神经网络的内部运作原理,它清楚地学习了两个不同的特征聚类来识别漩涡星系和椭圆星系。”

该团队的创新框架为在大口径综合巡天望远镜时代利用大规模深度迁移学习、数据聚类和递归训练生成大规模星系目录奠定了良好基础,推动“星系总动员”计划进入新时代,帮助人类更快地探索宇宙的奥秘。


image.png