京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据,这样采这样用_数据分析师培训
虽然大数据早已不是什么新鲜词,而且大家都能说上两句自己心中大数据的模样,可一旦细究起来,到底什么是大数据,大数据从何而来,如何应用,相信不少人就说不清楚了。
由东北大学、沈阳市政府及战略投资者共同投资成立的东北大学东网科技有限公司,其超算中心和云计算中心拥有1170万亿次/秒计算能力、30PB云存储空间。目前,东网科技与沈阳市环保局合作,正在通过大数据技术开展大气环境监测预报。怀揣着对大数据的好奇,记者走访了这家公司。
获取10%的信息量,预测剩余90%,这是小数据;而掌握90%的信息量,预测余下的,则是大数据
在一片尚未平整完毕的荒野中,矗立着一座极具现代科技感的建筑物:深蓝色的圆形玻璃幕墙、航空级别的安保设施。此种场景,和美国科幻大片中看到的场景倒有几分相似。
经过一系列安保检查,记者得以进入东网科技的超算中心和云计算中心,一台台超过2米的黑色机柜密密麻麻地排列在机房中。“左手边是超级计算机,右手边是云存储器”,东网科技工作人员许冕介绍说。
这和大数据有什么关系?“超算能力和云存储就相当于大数据的大脑,是大数据必备的硬件条件”,东网科技总经理杨宝卫打了个比喻。对于东网科技拥有的1170万亿次/秒的超算能力,杨宝卫说,这在目前国内的超级计算机中名列前茅,而30PB则是一个存储容量,相当于约50万个容量为64GB智能手机存储容量总和。
那到底什么是大数据?从网络上查询,答案五花八门。“针对某一事物,如果了解了10%的信息量,预测剩余的90%,这是小数据,需要抽样然后概率分析;而掌握80%—90%的信息量,预测余下的10%—20%,则是大数据。也就是说,大数据是对某一事物的样本空间的覆盖,通过智能分析,对事物进行预测预报”,杨宝卫试图用最简单的话来说明他所理解的大数据。
对于大数据,杨宝卫趣称为“经验主义的复活”。过去我们是通过观察和经验,经过大脑的分析总结后,指导人类活动,比如一些天象的观察等。后来,人类发展到一定阶段后,信息越来越多,人脑计算不过来,就发明了电脑来帮助处理信息。现在的超算就能够帮助处理更多的信息,而大数据下的超算,就是通过大量可信赖样本提供的经验,对复杂事件进行计算和预测。
天气预报就是个直观的例子。人类能够进行天气预报,是因为一个事物通过足够的数据完全可以在数字世界里进行虚拟的演化。那么对天气预报来说,我们把今天的天气数据放到电脑里,在虚拟世界里模拟天气的变化。或许超算只需要10分钟,就可以预测某地3天后的天气状况。
大数据技术包括数据采集—传输—集中存储—再处理—再应用等过程,其中采集是关键
大数据来自何方,通过什么途径我们可以获取这些数据?不少人直观的感受是:数据主要来自于互联网。
杨宝卫认为,获取数据目前有三个渠道:第一,来自于互联网的数据。比如阿里巴巴的交易数据、百度的查询数据、腾讯的交流沟通数据,“这些还都是外围的”。
第二,来源于政府的数据。这才是真正的核心数据。比如经济运行数据、人口数据、地理数据、政府服务数据、公共服务数据。
第三,对原有世界的数据再次采集,这源于我们更多更先进的技术手段采集到更多的数据,这就是如日中天的物联网。我们要让每一个物体都是传感器,时刻在回传数据,物联网的发展会极大地丰富数据。
然而,大数据真正的核心数据——政府所掌握的数据目前大多都处于“死机”状态,如何激活还有待探索。业内许多专家呼吁,在保证信息安全的基础上,政府可开放一些并不敏感的数据,实行数据的可交易、资产化,据了解,上海已经开始建设数据交易所。
杨宝卫认为,大数据技术包括数据的采集—传输—集中存储—再处理—再应用等一系列过程。其中,数据的采集是关键。
“大数据并不是今天做,明天就有,它是台阶式的发展。我们目前就在某些领域里进行数据收集和智能分析,让它能够预测预报”,杨宝卫介绍说,比如目前中心与沈阳、本溪合作建设智慧城市,就是把一些相关信息进行集中,同时中心还从事互联网的一些商业应用。这些都是数据的采集和集中。
采集之后,就是传输环节,如何能够快速地传输?这涉及运营商、基础设施通讯等方面。接下来是数据存储环节,也就是云计算中心的价值所在。然后是数据的处理和再处理,这就要用到超算。最后就是数据的再应用,这是各个软件公司、信息服务公司要做的事情。
随着在医疗、环保、航空等更多领域的广泛应用,大数据将实实在在地改变人们的日常生活
业内专家认为,如果把大数据比作一种产业,那么这个产业实现盈利的关键,在于对数据的高加工能力,通过加工实现数据的增值。简单地说,就是大数据要实现高效应用。
“目前,东网科技已经在大数据应用方面做出努力和尝试”,据介绍,针对雾霾天气,东网科技公司自2013年10月起就与沈阳市携手创建了“环保云”。东网公司与沈阳市环保局就空间信息需求对接,为PM2.5监测治理提供解决方案。公司首先启动了沈阳市市辖区未来三天大气污染状况预报项目,利用自主研发的大气成分反演模型和遥感数据处理软件,进行沈阳市冬季供暖期大气环境监测预报,为排放管控和污染治理提供科学手段。
“大数据技术可以促进医疗、环保、教育等民生问题的解决”,杨宝卫说,随着大数据技术的进一步完善,其应用必将给人们的生活带来实实在在的改变。“给早产儿戴上传感器,可以分分秒秒收集他(她)身上的海量个人生理信息,通过数据分析就能找到这个婴儿在将来出现感染的几率从而及早预防;收集飞机飞行时的空气信息,以实现飞机的自动飞行。”这些场景都将逐步实现。城市将更聪明,生活将更智慧。
据介绍,基于大数据技术,还可模拟基因的演化,药厂也可以用计算机进行成千上万的病例与药物的作用演化。水稻种植实验,一个品种在种下去一年后,才能看得到结果。未来只要把基因数据放入计算机,很快就能看到结果,这样可以大大加快科研进程。
大数据技术的发展也引发了人们对于信息和隐私安全问题的担忧。杨宝卫对此持乐观态度:通过发展技术、加强管理、完善法律等多方面的努力,问题将逐步得到解决。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【专访摘要】本次CDA持证专访邀请到拥有丰富物流供应链数据分析经验的赖尧,他结合自身在京东、华莱士、兰格赛等企业的从业经历 ...
2026-05-15在数字化时代,企业的每一次业务优化、每一项技术迭代,都需要回答一个核心问题:这个动作到底能带来多少价值?是提升了用户转化 ...
2026-05-15在数据仓库建设中,事实表与维度表是两大核心组件,二者相互关联、缺一不可,共同构成数据仓库的基础架构。事实表聚焦“发生了什 ...
2026-05-15 很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问 ...
2026-05-15【核心关键词】互联网、机会、运营、关键词、账户、数字化、后台、客户、成本、网络、数据分析、底层逻辑、市场推广、数据反馈 ...
2026-05-14在Python数据分析中,Pandas作为核心工具库,凭借简洁高效的数据处理能力,成为数据分析从业者的必备技能。其中,基于两列(或多 ...
2026-05-14 很多人把统计学理解为“一堆公式和计算”,却忽略了它的本质——一门让数据“开口说话”的科学。真正的数据分析高手,不是会 ...
2026-05-14在零售行业存量竞争日趋激烈的当下,客户流失已成为侵蚀企业利润的“隐形杀手”——据行业数据显示,零售企业平均客户流失率高达 ...
2026-05-13当流量红利消退、用户需求日趋多元,“凭经验决策、广撒网投放”的传统营销模式早已难以为继。大数据的崛起,为企业营销提供了全 ...
2026-05-13 许多数据分析师精通Excel函数和SQL查询,但当面对一张上万行的销售明细表,要快速回答“哪个地区销量最高”“哪款产品增长最 ...
2026-05-13在手游行业存量竞争日趋激烈、流量成本持续高企的当下,“拉新”早已不是行业核心痛点,“留存”尤其是“付费留存”,成为决定手 ...
2026-05-12 很多数据分析师掌握了Excel函数、会写SQL查询,但当被问到“数据从哪里来”“数据加工有哪些步骤”“如何使用分析工具连接数 ...
2026-05-12用户调研是企业洞察客户需求、优化产品服务、制定运营策略的核心前提,而调研数据的可靠性,直接决定了决策的科学性与有效性。在 ...
2026-05-11在市场竞争日趋激烈、流量成本持续攀升的今天,企业的核心竞争力已从“获取流量”转向“挖掘客户价值”。客户作为企业最宝贵的资 ...
2026-05-11 很多数据分析师精通Excel单元格操作,熟练应用多种公式,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质 ...
2026-05-11在互联网运营、产品优化、用户增长等领域,次日留存率是衡量产品价值、用户粘性与运营效果的核心指标,更是判断新用户是否认可产 ...
2026-05-09相关性分析是数据分析领域中用于探究两个或多个变量之间关联强度与方向的核心方法,广泛应用于科研探索、商业决策、医疗研究、社 ...
2026-05-09 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-05-09在数据驱动运营的时代,指标是连接业务目标与实际行动的核心桥梁,是企业解读业务现状、发现问题、预判趋势的“量化标尺”。一套 ...
2026-05-08在存量竞争日趋激烈的商业时代,“以客户为中心”早已从口号落地为企业运营的核心逻辑。而客户画像作为打通“了解客户”与“服务 ...
2026-05-08