京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据,这样采这样用_数据分析师培训
虽然大数据早已不是什么新鲜词,而且大家都能说上两句自己心中大数据的模样,可一旦细究起来,到底什么是大数据,大数据从何而来,如何应用,相信不少人就说不清楚了。
由东北大学、沈阳市政府及战略投资者共同投资成立的东北大学东网科技有限公司,其超算中心和云计算中心拥有1170万亿次/秒计算能力、30PB云存储空间。目前,东网科技与沈阳市环保局合作,正在通过大数据技术开展大气环境监测预报。怀揣着对大数据的好奇,记者走访了这家公司。
获取10%的信息量,预测剩余90%,这是小数据;而掌握90%的信息量,预测余下的,则是大数据
在一片尚未平整完毕的荒野中,矗立着一座极具现代科技感的建筑物:深蓝色的圆形玻璃幕墙、航空级别的安保设施。此种场景,和美国科幻大片中看到的场景倒有几分相似。
经过一系列安保检查,记者得以进入东网科技的超算中心和云计算中心,一台台超过2米的黑色机柜密密麻麻地排列在机房中。“左手边是超级计算机,右手边是云存储器”,东网科技工作人员许冕介绍说。
这和大数据有什么关系?“超算能力和云存储就相当于大数据的大脑,是大数据必备的硬件条件”,东网科技总经理杨宝卫打了个比喻。对于东网科技拥有的1170万亿次/秒的超算能力,杨宝卫说,这在目前国内的超级计算机中名列前茅,而30PB则是一个存储容量,相当于约50万个容量为64GB智能手机存储容量总和。
那到底什么是大数据?从网络上查询,答案五花八门。“针对某一事物,如果了解了10%的信息量,预测剩余的90%,这是小数据,需要抽样然后概率分析;而掌握80%—90%的信息量,预测余下的10%—20%,则是大数据。也就是说,大数据是对某一事物的样本空间的覆盖,通过智能分析,对事物进行预测预报”,杨宝卫试图用最简单的话来说明他所理解的大数据。
对于大数据,杨宝卫趣称为“经验主义的复活”。过去我们是通过观察和经验,经过大脑的分析总结后,指导人类活动,比如一些天象的观察等。后来,人类发展到一定阶段后,信息越来越多,人脑计算不过来,就发明了电脑来帮助处理信息。现在的超算就能够帮助处理更多的信息,而大数据下的超算,就是通过大量可信赖样本提供的经验,对复杂事件进行计算和预测。
天气预报就是个直观的例子。人类能够进行天气预报,是因为一个事物通过足够的数据完全可以在数字世界里进行虚拟的演化。那么对天气预报来说,我们把今天的天气数据放到电脑里,在虚拟世界里模拟天气的变化。或许超算只需要10分钟,就可以预测某地3天后的天气状况。
大数据技术包括数据采集—传输—集中存储—再处理—再应用等过程,其中采集是关键
大数据来自何方,通过什么途径我们可以获取这些数据?不少人直观的感受是:数据主要来自于互联网。
杨宝卫认为,获取数据目前有三个渠道:第一,来自于互联网的数据。比如阿里巴巴的交易数据、百度的查询数据、腾讯的交流沟通数据,“这些还都是外围的”。
第二,来源于政府的数据。这才是真正的核心数据。比如经济运行数据、人口数据、地理数据、政府服务数据、公共服务数据。
第三,对原有世界的数据再次采集,这源于我们更多更先进的技术手段采集到更多的数据,这就是如日中天的物联网。我们要让每一个物体都是传感器,时刻在回传数据,物联网的发展会极大地丰富数据。
然而,大数据真正的核心数据——政府所掌握的数据目前大多都处于“死机”状态,如何激活还有待探索。业内许多专家呼吁,在保证信息安全的基础上,政府可开放一些并不敏感的数据,实行数据的可交易、资产化,据了解,上海已经开始建设数据交易所。
杨宝卫认为,大数据技术包括数据的采集—传输—集中存储—再处理—再应用等一系列过程。其中,数据的采集是关键。
“大数据并不是今天做,明天就有,它是台阶式的发展。我们目前就在某些领域里进行数据收集和智能分析,让它能够预测预报”,杨宝卫介绍说,比如目前中心与沈阳、本溪合作建设智慧城市,就是把一些相关信息进行集中,同时中心还从事互联网的一些商业应用。这些都是数据的采集和集中。
采集之后,就是传输环节,如何能够快速地传输?这涉及运营商、基础设施通讯等方面。接下来是数据存储环节,也就是云计算中心的价值所在。然后是数据的处理和再处理,这就要用到超算。最后就是数据的再应用,这是各个软件公司、信息服务公司要做的事情。
随着在医疗、环保、航空等更多领域的广泛应用,大数据将实实在在地改变人们的日常生活
业内专家认为,如果把大数据比作一种产业,那么这个产业实现盈利的关键,在于对数据的高加工能力,通过加工实现数据的增值。简单地说,就是大数据要实现高效应用。
“目前,东网科技已经在大数据应用方面做出努力和尝试”,据介绍,针对雾霾天气,东网科技公司自2013年10月起就与沈阳市携手创建了“环保云”。东网公司与沈阳市环保局就空间信息需求对接,为PM2.5监测治理提供解决方案。公司首先启动了沈阳市市辖区未来三天大气污染状况预报项目,利用自主研发的大气成分反演模型和遥感数据处理软件,进行沈阳市冬季供暖期大气环境监测预报,为排放管控和污染治理提供科学手段。
“大数据技术可以促进医疗、环保、教育等民生问题的解决”,杨宝卫说,随着大数据技术的进一步完善,其应用必将给人们的生活带来实实在在的改变。“给早产儿戴上传感器,可以分分秒秒收集他(她)身上的海量个人生理信息,通过数据分析就能找到这个婴儿在将来出现感染的几率从而及早预防;收集飞机飞行时的空气信息,以实现飞机的自动飞行。”这些场景都将逐步实现。城市将更聪明,生活将更智慧。
据介绍,基于大数据技术,还可模拟基因的演化,药厂也可以用计算机进行成千上万的病例与药物的作用演化。水稻种植实验,一个品种在种下去一年后,才能看得到结果。未来只要把基因数据放入计算机,很快就能看到结果,这样可以大大加快科研进程。
大数据技术的发展也引发了人们对于信息和隐私安全问题的担忧。杨宝卫对此持乐观态度:通过发展技术、加强管理、完善法律等多方面的努力,问题将逐步得到解决。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、业务决策、科学研究等领域,统计模型是连接原始数据与业务价值的核心工具——它通过对数据的规律提炼、变量关联分析 ...
2026-02-14在SQL查询实操中,SELECT * 与 SELECT 字段1, 字段2,...(指定个别字段)是最常用的两种查询方式。很多开发者在日常开发中,为了 ...
2026-02-14对CDA(Certified Data Analyst)数据分析师而言,数据分析的核心不是孤立解读单个指标数值,而是构建一套科学、完整、贴合业务 ...
2026-02-14在Power BI实操中,函数是实现数据清洗、建模计算、可视化呈现的核心工具——无论是简单的数据筛选、异常值处理,还是复杂的度量 ...
2026-02-13在互联网运营、产品迭代、用户增长等工作中,“留存率”是衡量产品核心价值、用户粘性的核心指标——而次日留存率,作为留存率体 ...
2026-02-13对CDA(Certified Data Analyst)数据分析师而言,指标是贯穿工作全流程的核心载体,更是连接原始数据与业务洞察的关键桥梁。CDA ...
2026-02-13在机器学习建模实操中,“特征选择”是提升模型性能、简化模型复杂度、解读数据逻辑的核心步骤——而随机森林(Random Forest) ...
2026-02-12在MySQL数据查询实操中,按日期分组统计是高频需求——比如统计每日用户登录量、每日订单量、每日销售额,需要按日期分组展示, ...
2026-02-12对CDA(Certified Data Analyst)数据分析师而言,描述性统计是贯穿实操全流程的核心基础,更是从“原始数据”到“初步洞察”的 ...
2026-02-12备考CDA的小伙伴,专属宠粉福利来啦! 不用拼运气抽奖,不用复杂操作,只要转发CDA真题海报到朋友圈集赞,就能免费抱走实用好礼 ...
2026-02-11在数据科学、机器学习实操中,Anaconda是必备工具——它集成了Python解释器、conda包管理器,能快速搭建独立的虚拟环境,便捷安 ...
2026-02-11在Tableau数据可视化实操中,多表连接是高频操作——无论是将“产品表”与“销量表”连接分析产品销量,还是将“用户表”与“消 ...
2026-02-11在CDA(Certified Data Analyst)数据分析师的实操体系中,统计基本概念是不可或缺的核心根基,更是连接原始数据与业务洞察的关 ...
2026-02-11在数字经济飞速发展的今天,数据已成为核心生产要素,渗透到企业运营、民生服务、科技研发等各个领域。从个人手机里的浏览记录、 ...
2026-02-10在数据分析、实验研究中,我们经常会遇到小样本配对数据的差异检验场景——比如同一组受试者用药前后的指标对比、配对分组的两组 ...
2026-02-10在结构化数据分析领域,透视分析(Pivot Analysis)是CDA(Certified Data Analyst)数据分析师最常用、最高效的核心实操方法之 ...
2026-02-10在SQL数据库实操中,字段类型的合理设置是保证数据运算、统计准确性的基础。日常开发或数据分析时,我们常会遇到这样的问题:数 ...
2026-02-09在日常办公数据分析中,Excel数据透视表是最常用的高效工具之一——它能快速对海量数据进行分类汇总、分组统计,将杂乱无章的数 ...
2026-02-09表结构数据作为结构化数据的核心载体,其“获取-加工-使用”全流程,是CDA(Certified Data Analyst)数据分析师开展专业工作的 ...
2026-02-09在互联网产品运营、用户增长的实战场景中,很多从业者都会陷入一个误区:盲目投入资源做推广、拉新,却忽视了“拉新后的用户激活 ...
2026-02-06