京公网安备 11010802034615号
经营许可证编号:京B2-20210330
引力波数据分析中的人工智能技术
最近国内各种媒体广泛报道了备受瞩目的引力波被人类直接探测到的事件,引起了人们对基础科学研究的极大兴趣。早在100年前,爱因斯坦的广义相对论发布后,就预言了引力波的存在。从文献中我们可以知道,目前宇宙中最有可能存在的引力波源以及几种引力波探测方式如下:
随机背景辐射:包括在宇宙早期电磁辐射演化到今天变成宇宙微波背景辐射(CMB)。通过对CMB 的相关测量可测量宇宙早期的引力波,这样的探测器包括BICEP 等。
宇宙中的星体,如脉冲星、地球等。通过测量脉冲星与地球间的距离变化测量引力波。包括脉冲星计时测量等测量方式。
通过悬挂或者无拖拽等先进技术让测试质量沿测地线运动,同时通过激光干涉测量测试质量间的距离变化也可达到引力波测量的目的。这种方式包括正在运行的LIGO 等地面干涉仪和计划中的空间引力波探测计划eLISA 和天琴计划等。
引力波和物体相互作用,在适当的情况下可以导致物体共振,例如韦伯型共振棒测量引力波。
通过测量引力波对高斯型微波光子流的影响也可以达到引力波探测的目的。微波频带高频引力波探测器等采用的测量方式。
从实际探测的角度看,这些探测器具有不同的测量频段。但是在人类能够感知的尺度下,引力是一个非常弱的相互作用。只有靠天文中大质量的星体的运动,例如致密双星互绕及合并事件,才能产生相对比较强一些的引力波。这次LIGO探测到的就是双黑洞合并事件激发的引力波。
LIGO(Laser Interferometer Gravitational-Wave Observatory),即激光干涉引力波天文台。 LIGO探测器由10个子系统组成,其中之一是数据和计算系统(Data and ComputingSystems, DSC)。
LIGO获取的数据不但包括激光干涉仪引力波探测器输出的数据,还包括了各种独立的对探测器的环境和探测器设备状态进行监控的探测器和纪录仪,对诸如温度﹑气压﹑风力﹑大雨﹑冰雹﹑地表震动﹑声响﹑电场﹑磁场等环境条件进行监测,以及对引力波探测器内部的平面镜和透镜的位置等探测器自身状态进行监测的数据。在数据获取方面,例如在初级LIGO汉福德天文台,DAQ的H1和H2干涉仪记录共12733个通道,其中1279个是快速通道(数字化速率在2048 Sa /秒或16384 Sa秒)。升级的LIGO的设计为记录大于300000个通道的数据采集,其中大约3000个快速通道。 (https://www.advancedligo.mit.edu/daq.html)
这是典型的大数据分析处理问题,需要强大的计算资源与先进的算法,才能有效处理如此巨大的数据量。其中一些人工智能技术被应用到LIGO的DSC,例如Einstein@home项目(http://einsteinathome.org/)。该项目的长期目标是能首次直接检测旋转中子星(脉冲中子星)的引力波发射,目前采用了分布式计算技术,即利用大众的计算机闲暇机时来搜寻较弱的引力波信号。这可以看做是一种众包技术,将人脑与计算机结合起来,是群体智能技术的具体应用。
清华大学的曹军威研究团队探索了将人工智能技术应用到引力波数据噪声的分析中。他们应用了随机森林算法(random forest)、人工神经网络(artificial neural network)和支持向量机(Support Vector Machine)等三种不同的算法,来分析引力波数据道中的噪音,对引力波数据道上捕捉到的事件进行分类。他们的结论是虽然这三种机器学习的方法各有千秋,但是经过调优之后,它们在引力波数据噪音分析和事件分类上表现出来的能力基本相同.这个结论很有意思.它告诉我们,机器学习方法在应用中所能达到的效果,很大程度上决定于数据质量,与具体采用哪种方法关系不太大。在对分类的效率改进因此可能来自包括其他有用的信息来源,而不是对算法本身的改进。
这次LIGO公布的GW150914事件,在线触发延迟是大约3 min,用了5个离线分析流水线,消耗的CPU 时间大约是5千万小时(=20,000PCs 运行100 天)。如此的计算强度与海量的数据以及采用的分析算法有关。在搜寻引力波信号中,采用的是匹配滤波技术。匹配滤波是基于波形分析的技术,要求对引力波波源建立合理的物理模型,根据模型产生成千上万的模板,用这些模板去匹配引力波数据中信号,从而找到相关的事件。从中我们可以看出匹配滤波技术使用的前提条件是已知引力波的理论模型,即需要对引力波波源进行建模。但是,对引力波波源建模涉及的是引力波的动力学,需要求解爱因斯坦方程,而且是针对宇宙中实际的天体求解爱因斯坦方程。目前在引力波波源建模问题中大多采用了数值计算的方法,典型的方法是蒙特卡洛计算法。但是对于爱因斯坦方程,即使是数值计算也非常困难。近些年发展起来的数值相对论成为广义相对论一个独立的研究方向,但是基普• 索恩(KipThorne)认为数值相对论比引力波探测本身还难。这导致在引力波探测中,大量事件的波形是未知的,如超新星爆发及质量巨大的星体核的坍塌等,它们就不能用匹配滤波器技术来分析了。基于上述原因,这次探测到的事件是双黑洞并合事件,这是由于双黑洞系统是理论上知道得最清楚的引力波源。对有无其他引力波源产生的信号,目前对数据仍在分析处理中。
事实上,我们可以考虑将人工智能技术应用于引力波大数据分析处理上,发展相应的算法,提高处理引力波大数据的速度与精度。大数据对计算智能的发展提出了新的机遇和挑战,这里我们探讨将人工智能应用于引力波大数据分析处理上,至少有几个方面值得我们去研究。
有监督学习:匹配滤波器法需要知道信号的波形,这次引力波应变数据分析是与海量波形库中的波形匹配,显然是一个计算工作量巨大的过程。如何提高搜索效率,降低对计算资源的消耗,无疑是值得去深入研究的。事实上,根据我们在反卷积抽谱方面的研究经验,对天文学家认为需要高性能计算机才可进行的巨型矩阵的计算,通过发展有效的算法,在普通的PC机,甚至是笔记本电脑上也可实现反卷积抽谱的计算工作。我们知道人工智能是一个“算法为王”的研究领域,将智能搜索算法应用于引力波数据,将会极大提高其效率。例如在人工智能研究领域,最近较为热门的事件是谷歌人工智能系统AlphaGo(阿尔法围棋)将于3月9号在韩国首尔和韩国围棋选手李世石九段进行比赛。AlphaGo采用了深度学习和增强学习,这是当前人工智能界最前沿的研究方向。原先的围棋软件多数采用了蒙特卡洛树搜索(MCTS)技术,使用蒙特卡洛算法的模拟结果来估算一个搜索树中每一个状态值。随着进行了越来越多的模拟,搜索树会变得越来越庞大,而相关的值也会变得越来越精确。通过选取值更高的子树,用于选择行动的策略概率在搜索的过程中会一直随着时间而有所改进。这是一种用穷举搜索法寻找最优解的策略,(匹配滤波也可以看成是一种穷举搜索法),但是围棋的走法是个天文数字——有250^150种,这超过了我们可观测宇宙中的所有原子数量,可想而知通常的计算机已经无法计算了。AlphaGo采用的方法是Value Networks(价值网络)和 Policy Networks(策略网络),以及蒙特卡洛树搜索算法。通过有监督学习训练价值网络和策略网络,分别降低搜索的深度和搜索的宽度。再结合蒙特卡洛法让搜索达到深度的极限、没有任何分支树。在引力波波型搜索中,我们也可以考虑采用类似的搜索策略,以及结合深度学习与强化学习,发展高效的算法,将引力波事件的模式快速识别出来。
无监督学习:在引力波探测中, 大量事件的波形是未知的,对于超新星和旋转中子星,目前的天文观测积累还无法给出一个它们所释放引力波强度的理论估计。这需要采用无监督学习算法来发现引力波数据中未知的模式。这种学习方式也是对人工智能发展的最大挑战。在人工智能领域,Google X 实验室开发了一个称为GoogleBrain 的系统,该系统由1000台计算机、16000个芯片组成。系统“学习了”从YouTube 视频中提取的 1000 万个静态图像,将线条、亮度、边界、色彩等多个特征分类。经过3天寻找重复出现的模式后,Google Brain凭自身判断,它可以识别一些特定的重复类别:人类面孔和人类身体,甚至是猫。Google Brain使用的是正是无监督学习的方法。但是,它的精确度还没有达到可以使用的水平。Facebook人工智能研究组主管Yann LeCun说,如果人工智能要满足人们更大的野心,就必须弄清楚软件如何才能完成那些对人类婴儿来说十分容易的事情。他说:“我们都知道,最终的答案就是无监督学习。解决了无监督学习的问题,将把我们带向更高的级别。” 目前在无监督学习方面已经有了一些探索,通过概率程序归纳实现人类级别的概念学习,即仅从一个例子就形成概念。但是迄今为止,这些探索都尚未揭示出一条能让无监督学习达到人类水平的路径,或者说,算法还不能仅通过经历或实验就学会与真实世界有关的复杂东西。百度硅谷AI实验室主任AdamCoates认为“目前,我们似乎缺失了某个关键的思想。” 在引力波潜在模式发现中,如何发展高效的无监督学习算法,仍需要进行深入研究。也许需要结合认知学习,类脑学习等多学科的研究成果,才有可能弥补这个缺失的关键环节,从而形成重大突破。
集成学习策略:这次探测到的双黑洞并合的引力波之外的连续引力波、原初引力波等等其他类型的引力波还没有被探测到。例如来自旋转中子星的连续引力波,除了对探测器的灵敏度要求更高之外,对数据分析的能力也提出极高的要求。有个别连续引力波项目,需要1万台电脑跑一年才能得到结果。因此除了Einstein@Home项目采用的众包技术外,我们还应该结合有监督学习,无监督学习,半监督学习,增强学习,迁移学习等学习策略,发展高效的引力波数据分析算法,加速发现更多引力波事件的过程。
MIT校长就这次引力波发现致全校信中说道:我们今天所庆祝的这项发现很好地体现了基础科学中的悖论:基础科学的研究是艰苦、严格且缓慢的——但与此同时,它也是激动人心的、革命性的和具有催化作用的。如果没有基础科学,我们最好的猜想将不能得到任何改进,而“创新”也只能是周围的边缘修修补补。只有随着基础科学的进步,社会也才能进步。这说出了对基础科学研究意义。对信息技术等学科而言,研究引力波大数据分析处理技术,是向基础自然科学研究领域的应用,不像其他大数据有可能涉及到企业的核心商业利益、国家安全、公民隐私、法律法规等诸多问题,天文大数据完全可以在全球范围内实现数据资源的公开和共享。
虽说研究引力波数据分析技术没有直接的商业价值,但后续可考虑技术(算法)迁移,将发展的大数据分析处理技术应用到其他商业领域,或者其他学术研究上。引力波数据分析大部分是采用了一维信号处理技术,这可迁移到光谱数据分析,FAST探测数据分析。脑电数据分析等方面。
探索人工智能领域的技术在引力波数据分析中应用,发展新的算法,将会促进人工智能研究领域的发展。对天文学而言,所发展的技术若能以更快的速度、更高的精度实时处理得到引力波源的方向、位置等信息,就能为相应的研究争取宝贵的天文观测时间,进而形成以引力波观测为触发的全新天文观测方法——多信使天文学(Multimessenger Astronomy)。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01在时间序列预测任务中,LSTM(长短期记忆网络)凭借对时序依赖关系的捕捉能力成为主流模型。但很多开发者在实操中会遇到困惑:用 ...
2025-12-01引言:数据时代的“透视镜”与“掘金者” 在数字经济浪潮下,数据已成为企业决策的核心资产,而CDA数据分析师正是挖掘数据价值的 ...
2025-12-01数据分析师的日常,常始于一堆“毫无章法”的数据点:电商后台导出的零散订单记录、APP埋点收集的无序用户行为日志、传感器实时 ...
2025-11-28在MySQL数据库运维中,“query end”是查询执行生命周期的收尾阶段,理论上耗时极短——主要完成结果集封装、资源释放、事务状态 ...
2025-11-28在CDA(Certified Data Analyst)数据分析师的工具包中,透视分析方法是处理表结构数据的“瑞士军刀”——无需复杂代码,仅通过 ...
2025-11-28在统计分析中,数据的分布形态是决定“用什么方法分析、信什么结果”的底层逻辑——它如同数据的“性格”,直接影响着描述统计的 ...
2025-11-27在电商订单查询、用户信息导出等业务场景中,技术人员常面临一个选择:是一次性查询500条数据,还是分5次每次查询100条?这个问 ...
2025-11-27