京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据对社会创新的作用_数据分析师培训
“大数据”一语用来描述数据的日益增长和我们不断加强的有效利用数据的的能力,并且大数据已经在科学和商业领域获得了极大的应用。但是在社会领域“大数据”的应用却是滞后的。
大数据所提供的信息和帮助解决社会问题之间存在巨大的鸿沟。有一些社会问题可以通过大数据来解决,例如利用交通流量数据来缓解高速公路交通拥堵问题;但另一些社会问题的解决却没那么容易,例如如何利用数据来解决无家可归者的问题,或者贩卖人口的问题?
社会问题之所以复杂,是因为涉及的利益相关者众多,所以目标也是多重的。不像技术问题一样,目标往往是单一的,比如说优化。但在社会问题上,到底什么叫“优化”呢?尤其是社会问题往往涉及政府的公共政策和行政机构的介入,使得社会问题又不单纯是社会问题,而成为政治问题。
大数据使用的问题
另一个问题与大数据本身的使用有关系。事实上,但切入一个社会问题时,你可能会遇上不上数字,但这些数字往往不是结构化的,很难被调用。结构化的大数据相对缺乏有四个主要的原因:数据淹没在行政系统、数据管理标准缺乏、数据往往不可靠以及数据可能导致意想不到的后果。
比如说,全球每年被贩卖的人口估计高达3000万人次,这是个约320亿美元的“产业”。要打击人口贩子,大数据当然可以帮忙。但问题是人口贩子用的手机、社交媒体、在线广告和其他网络平台产生的数据,并没有被系统的收集,更遑论共享给相关的组织。当然原始数据本身的收集就很难,并且各个组织之间的数据共享做得也不到位。
更糟的是,打击人口贩卖的各家机构经常互相争夺的稀缺资源:无论资金、捐赠还是来自媒体和社会的认同。因为这种竞争,各机构之间的数据共享几乎不可能。例如,北极星项目(the Polaris Project)一直致力于打击人口贩卖。2003年至2006年,Polaris为被贩卖的幸存者提供热线电话。2007年,美国卫生和公众服务部选定Polaris作为全国首个国家贩卖人口资源热线。多年来,Polaris记录了75000多个呼叫;然而,获得这些数据受到限制,其可靠性和来源鲜为人知。
如果Polaris信息向公众开放,并结合其他数据源,如经济指标、运输路线、教育统计和受害者服务等,能更加有效帮助打击人口贩卖。2012年Google Giving(谷歌捐赠)授予Polaris和另外两家国际反人口贩卖组织300万美元以资助将他们三条电话热线收集到的数据予以整合,并发展为国际热线。目前,三个组织都已在全球人口贩运热线网络(Global Human Trafficking Hotline Network)下联合起来。这是一个积极的迹象,但是这次的合作成果仍有待观察。
增加大数据使用的步骤
大数据于决策时充分了解信息以帮助解决世界上最棘手的社会问题有着巨大潜力。但是要做到这一点,有关数据的收集、组织和分析的问题必须首先得到解决。下列四项建议有助于创建数据集,并以此为据进行决策。
首先,在关键问题上建立全球数据银行。全球需要对复杂的问题,如贩卖人口、全球饥饿和贫穷创建大型数据银行。数据银行有处理不同数据格式和描述数据集的元数据的能力。为了做到这一点,促进专题问题的数据共享需要创建多部门的联盟。
其次,让公民参与和公民科学。大数据不是专业人士的地盘。公民也可以参与帮助创建和分析这些数据集。随着通过开放的数据平台数据激增,越来越多的公民通过“公民科学”来开创新理念和产品。
再次,建立数据管理人和分析人的框架。今天,我们不仅缺乏可以解决社会问题的数据管理人和分析师,对于接受必要培训和能力的现有人员,我们的途径也是有限。在大多数情况下,我们将数据科学留给了科学界和商界。社会科学往往给学生提供简单的统计基础知识。如果我们要利用大数据,这种做法是不可接受的。我们需要让学生和分析人员掌握必要技能,以管理数据同时也创建大型数据集。我们要开发课程,让学生了解数据的组织、保存、可视化、搜索和检索以及使用。除了这些技能,要让学生能更多地思考能利用数据做什么是至关重要。考虑数据集之间的网络关系,以及如何发现数据集中的潜在模式,是需要开发的能力。
最后,促进虚拟实验平台。为了提高我们对如何使用大数据解决社会问题的理解,我们需要推动更多的实验。虚拟实验平台,允许个人交流思想、与别人的想法交流、携手合作以找到解决问题的方法或利用机会,它能够将各个感兴趣的相关方聚集在一起共同打造大型数据集、开发创新算法来分析和可视化的数据,并开发新知识。如果我们要使用大数据解决社会挑战,虚拟实验平台是必不可少的。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、机器学习的实操场景中,聚类分析与主成分分析(PCA)是两种高频使用的统计与数据处理方法。二者常被用于数据预处理 ...
2026-02-24在聚类分析的实操场景中,K-Means算法因其简单高效、易落地的特点,成为处理无监督分类问题的首选工具——无论是用户画像分层、 ...
2026-02-24数字化浪潮下,数据已成为企业核心竞争力,“用数据说话、用数据决策”成为企业发展的核心逻辑。CDA(Certified Data Analyst) ...
2026-02-24CDA一级知识点汇总手册 第五章 业务数据的特征、处理与透视分析考点52:业务数据分析基础考点53:输入和资源需求考点54:业务数 ...
2026-02-23CDA一级知识点汇总手册 第四章 战略与业务数据分析考点43:战略数据分析基础考点44:表格结构数据的使用考点45:输入数据和资源 ...
2026-02-22CDA一级知识点汇总手册 第三章 商业数据分析框架考点27:商业数据分析体系的核心逻辑——BSC五视角框架考点28:战略视角考点29: ...
2026-02-20CDA一级知识点汇总手册 第二章 数据分析方法考点7:基础范式的核心逻辑(本体论与流程化)考点8:分类分析(本体论核心应用)考 ...
2026-02-18第一章:数据分析思维考点1:UVCA时代的特点考点2:数据分析背后的逻辑思维方法论考点3:流程化企业的数据分析需求考点4:企业数 ...
2026-02-16在数据分析、业务决策、科学研究等领域,统计模型是连接原始数据与业务价值的核心工具——它通过对数据的规律提炼、变量关联分析 ...
2026-02-14在SQL查询实操中,SELECT * 与 SELECT 字段1, 字段2,...(指定个别字段)是最常用的两种查询方式。很多开发者在日常开发中,为了 ...
2026-02-14对CDA(Certified Data Analyst)数据分析师而言,数据分析的核心不是孤立解读单个指标数值,而是构建一套科学、完整、贴合业务 ...
2026-02-14在Power BI实操中,函数是实现数据清洗、建模计算、可视化呈现的核心工具——无论是简单的数据筛选、异常值处理,还是复杂的度量 ...
2026-02-13在互联网运营、产品迭代、用户增长等工作中,“留存率”是衡量产品核心价值、用户粘性的核心指标——而次日留存率,作为留存率体 ...
2026-02-13对CDA(Certified Data Analyst)数据分析师而言,指标是贯穿工作全流程的核心载体,更是连接原始数据与业务洞察的关键桥梁。CDA ...
2026-02-13在机器学习建模实操中,“特征选择”是提升模型性能、简化模型复杂度、解读数据逻辑的核心步骤——而随机森林(Random Forest) ...
2026-02-12在MySQL数据查询实操中,按日期分组统计是高频需求——比如统计每日用户登录量、每日订单量、每日销售额,需要按日期分组展示, ...
2026-02-12对CDA(Certified Data Analyst)数据分析师而言,描述性统计是贯穿实操全流程的核心基础,更是从“原始数据”到“初步洞察”的 ...
2026-02-12备考CDA的小伙伴,专属宠粉福利来啦! 不用拼运气抽奖,不用复杂操作,只要转发CDA真题海报到朋友圈集赞,就能免费抱走实用好礼 ...
2026-02-11在数据科学、机器学习实操中,Anaconda是必备工具——它集成了Python解释器、conda包管理器,能快速搭建独立的虚拟环境,便捷安 ...
2026-02-11在Tableau数据可视化实操中,多表连接是高频操作——无论是将“产品表”与“销量表”连接分析产品销量,还是将“用户表”与“消 ...
2026-02-11