京公网安备 11010802034615号
经营许可证编号:京B2-20210330
探秘“气象大数据”
实况数据是气象学科发展的最基础数据,也是模式数据产生的源头。如果没有实况数据,计算机在运算“模式数据”时就少了初始值,即使是回归到没有计算机的人工预报时代,少了实况数据也无法进行天气预报。
有人说,在“大数据时代”这个概念出现前,最名副其实的大数据应该数气象数据。气象数据一贯以庞杂众多数据量大而著称,但无论气象数据多么复杂,总体可以分为两类:一类数据被称为“实况数据”,一类被称为“模式数据”。
简单来说,实况数据属于“一般过去时数据”,来自不同的观测设备。采集实况数据的气象站点遍布全球,观测范围从几千米的高空到地面,观测手段从高科技的雷达卫星到最原始的人工观测,这些数据的采集都是为了更真实地反映出地球外围大气圈的运动变化,而这些宝贵的数据也可以称之为天气预报之源。
模式数据与实况数据相比,可以说更简单也可以说更复杂。简单的是,这类数据仅由各类计算机的程序运算生成,属于预测未来的“一般将来时数据”;说它复杂则是因为计算量非常庞大,运用到的计算公式也异常复杂,为了更真实地模拟全球大气的走向,运算出的数据量也是十分惊人的!
下面,我们就一一来详细揭秘这两类“气象大数据”。
天气预报之源——实况数据
实况数据是气象学科发展的最基础数据,也是模式数据产生的源头。如果没有实况数据,计算机在运算“模式数据”时就少了初始值,即使是回归到没有计算机的人工预报时代,少了实况数据也无法进行天气预报。
那么,实况数据是如何采集的呢?
很多年前,实况数据的采集和传输工作大部分都要靠人力完成。气象观测员每天要定时记录百叶箱内的温度、湿度等,并通过打电话、发电报等方式将全国观测数据进行汇总。到今天为止,仍有很多发展中国家采用这种采集传输方式。
而随着科技的发展,在计算机、电子和通信技术高度发达的今天,实况数据的采集和传输技术也有了天翻地覆的变化。所有实况数据的采集和传输几乎都可以通过自动化完成,仅有少数几个项目需要人工参与,比如地面能见度观测、施放探空气球、卫星轨道控制等。
目前,在气象观测站中温度、湿度、气压、风向、风速等物理量均由电子控制的机械设备完成,这些观测站配有嵌入式芯片,芯片上有一个精确的时钟,可以准时地周期性工作,例如在整点每隔5分钟、10分钟或1小时自动采集周围的环境数据,并自动将采集的气象数据编码为二进制数据流,发送到数据库中。截至2015年年底,我国大约有50000多个这样的地面观测站,所有观测站均为自动站。
由气象观测站观测到的数据信息会首先在各省的气象台进行汇总,然后通过“质量控制”的环节,去掉或订正某些由于观测设备故障造成的错误数据,质量控制过程同样也是由计算机程序自动实现的。完成初步的质量控制后,各省就利用FTP文件传输的方式,将该省该时刻全部观测站点全部物理量数据打包为一个大文件,上传到位于北京的国家气象信息中心的通信台。
世界其他国家的观测数据的采集和传输也基本大同小异。除此以外,国与国之间也要进行实况数据的交换,而且必须是无偿交换。这是因为大气的运动是全球性的,仅仅依靠本国的实况数据无法做出准确的天气预报,因此,世界气象组织规定各国之间必须无偿提供气象观测资料。不过,有的时候出于信息保护或军事安全的考虑,并不会对外广播全部的观测站点数据。那么,每个国家需要义务提供多少站点信息,又以什么标准交换,都交换哪些观测项目,这些都由世界气象组织(WMO)制定和协调。
气象大数据之魂——模式数据
模式数据是由高性能计算机根据当前天气实况数据(包括地面、高空、卫星等)通过物理方程计算得出的。可以简单形象地认为,有这样一套庞大的计算天气预报的程序,输入当前已知的天气现象,就可以输出未来还没有发生的天气现象。计算出的天气预报结果通常以规则的等经纬度网格来表示,网格上的每一个点代表这个经纬度上未来某时刻某个物理量(比如温度)的数值。这就是现代天气预报业务的基础叫“数值模式预报”,而这个庞大的计算机程序就被称作“模式系统”。
所有的发达国家都有自己的一套用来演算天气情况的模式系统,有的国家甚至还具有不止一套的系统。模式系统一般每天计算2~4次,通常在整点开始,利用整点前采集到的实况数据进行计算,每次计算要生成大概几百个物理量,包括从开始计算的时刻(又称作“起报时刻”)至未来240小时时效(或更长)的一系列二进制网格数据,预报时效通常间隔3小时。目前气象网格经纬度间距一般在0.25度数量级,一个网格文件大小通常在1~2兆,包含几十万个浮点数值。
当模式的预报时效越长,时效间隔越密,网格点间距越小,网格点数值和未来实况差异越小,就证明该模式系统性能越好,该国气象水平越发达。由于模式预测的物理量多,每天还要多次起报,预报时效密集,模式种类繁多,模式数据必须至少存储一星期等要求,因此,在气象数据中,无论从数据个数还是数据存储量来说,模式数据是比重最大的“大数据”。
和实况数据不同的是,具备模式系统的国家通常没有义务向其他国家无偿提供本国的模式数据,或者最多无偿提供经过抽稀处理的粗粒度模式数据。想要得到发达国家的高质量模式数据,必须通过购买才可以。例如想要得到欧洲中心的0.125度细网格模式数据,无论中国气象局还是美国气象局都必须向欧洲中心支付高昂的年费,才能每天获得高质量的欧洲中心模式数据。
需要注意的是,这里购买的仅仅是模式系统最终的“输出”数据,而不是模式系统本身。因为模式系统水平的好坏代表了一个国家气象的硬实力,模式系统的源代码(通常是大量的Fortran程序)更是顶级领域技术机密,属于非卖品。
跨国模式数据也是利用FTP等方式进行传输,传输的格式一般是采用世界气象组织制定的一种称作GRIB编码的文件规范,这种文件比较适合描述模式数据。
气象数据如何传输
看完“实况数据”和“模式数据”的介绍,有没有觉得气象数据量大浩如烟海,这么多的数据都要一一传送到预报员手里,又需要多长时间呢?一般来说,地面、高空、雷达观测数据的采集和传输过程较快,从数据采集到可视化向预报员展示,通常几分钟时间就可以完成。也就是说,如果某地出现降雨天气,只要仪器能观测到,几分钟后位于气象台的预报员就会知道。
相对而言,静止气象卫星观测的时间稍长,中国的风云卫星一般需要20多分钟才能完成全球扫描,大概半小时后,预报员才能在电脑上看到卫星云图。
这里面模式数据传输最慢。以上午08时起报的欧洲中心模式系统为例,首先计算未来3小时(上午11时)的所有物理量,打包为1个GRIB文件并向其他国家传输,然后再计算未来6小时的数据,打包传输,直到最后完成10天后上午08时的预报数据计算并传输,每个预报时效的GRIB文件大概100多兆,计算一个预报时效大概需要几分钟时间,模式系统启动也需要很长时间,这样北京收到欧洲中心在早08时起报的第1个GRIB文件大概要到下午1时45分,完成最后一个240小时预报时效GRIB文件的接收要到下午3时。这样,如果要做早08时到下午3时的天气预报,只能使用前1个起报时刻的模式数据,比如前一天晚20时的模式数据。
在我国,国家气象信息中心通信台承担着数据传输和分发的枢纽作用。接收的数据包含来自各省的地面、高空、雷达数据、卫星数据、中国模式系统输出结果的数据以及其他国家的观测数据和模式数据。同时,还承担数据的发送功能,每天将各种观测数据和模式数据通过地面网络或通信卫星收发系统传送给31个省市区气象台和其他国家。
省一级的气象台只负责将本省的观测数据发送至国家气象信息中心,不进行其他数据的传送,同时接收来自国家气象信息中心分发的其他省的数据或各国模式系统数据。一般来说,由于国家到省级的网络传输需要较长时间,因此,国家级预报员在时间上将先于省级预报员查看到最新的气象数据。
预报员如何接收气象数据
解释完了数据是怎么进行传输和接收的,最后一个问题,一个个数据又是如何出现在预报员的计算机中?这其实是一套先进、复杂的大数据处理系统。
数据到达通信台后,首先兵分两路,地面、高空站点实况报文数据被转发至解报计算机,完成对于BUFR编码的解码,提取出报文中的站号、物理量值等信息,写入一个关系型数据库中作为缓存,然后通过每隔几分钟的定时作业,将同一观测时刻全部站点的物理量信息从关系型数据库中提取出来,制作为一个全国全部站点观测文件,写入到一个专供预报员客户端软件访问的高速存储服务器中。
另外一路大数据包括模式数据、卫星、雷达数据,这一类数据本身不是报文,不需要像站点实况数据那样先拼接再写入的过程,因此,通信台直接将这些数据发送给高速解析服务器,完成类似GRIB解码、卫星通道拆分等操作,解码后的结果一般是一些更小更多的文件,直接写入到和存储全国站点观测文件相同的高速存储服务器中,供预报员客户端软件访问。所有数据的解报、解码时间一般几秒钟即可完成。
中国的预报客户端称作“MICAPS”(全称气象信息综合分析处理系统),主要功能是将高速存储服务器中的所有气象数据进行可视化展示,并提供便捷的浏览和交互操作,预报员利用显示出来的模式数据和所有实况数据,结合自己的分析,在MICAPS上绘制出天气预报的最终结果,最后将预报结果出图和撰写成文字发送给发布部门,比如网站、报纸、电视台等。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20