京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据带来社科研究新变化_数据分析师考试
近年来,云计算、物联网、移动互联网的广泛应用,把人类社会带入大数据时代。大数据的产生和运用,使我们能够对置身其中的社会进行更加广泛和深入的认知、更加客观和准确的把握,从而以更精确的语言、更精密的思维加以描述、解释和界定,以更加科学、更加有效的方法进行治理。
全面真实展现社会面貌
大数据深刻影响和改变研究社会问题的方法,使社会科学研究领域发生深刻变化。美国学者杰弗里·汉考克认为,大数据对社会科学研究的意义,堪与显微镜的诞生对化学发展所起到的促进作用媲美。
过去,社会科学研究数据主要来源于田野调查和采访,受调查成本和可操作性等因素的限制,获得的数据数量和质量都十分有限。计算机及网络技术兴起后,社会科学研究除了依赖一手的调查数据,还可借助各类专业数据库,但这些数据的准确性、真实性和全面性依旧存在不尽如人意之处。
大数据能够为研究者提供前所未有的海量和高质量的社会数据、资料和信息。利用这些数据和数据挖掘技术,研究者能够深入观察和分析人类社会的复杂行为模式。
“一个时代的特征在很大程度上与该时代的数学密切相关。”(美国学者莫里斯·克莱因语)网络化和数据化使社会环境更加公开和透明。民众、企业和政府都处在互联网环境中,一切行为都会被记录、分析和预测。智能手机和计算机用户、政府机构、统计部门及大型企业、网络平台数据监控等,构成数据增长的重要来源。现今,全球有约30亿人使用互联网,我国网民规模达6.68亿,手机网民规模达5.94亿。这些人每天收发的信息,以及与这一收发过程相关联的信息,都会变成可揭示人的行为以及人与人之间关系的数据并被存储。信息技术与各行业的深度融合,科技、商业、教育、医疗、智能交通、智慧环保、智能家居、智慧城市建设等社会生活的各个领域,也无时无刻不在产生大量数据。这些开放、流动的数据,成为人们观察社会行为的“显微镜”,帮助研究者直接利用更加全面、真实的资料进行研究,捕捉以往难以获取的关系和知识。
大数据使社科研究更加方便、快捷、全面和深入。研究者坐在屏幕前就可以接入数百万的互联网用户资料,这也使他们不再满足于得到部分信息,而是倾向于收集对象的全部信息。有别于传统计算技术,数据挖掘技术使研究者能够快速处理海量数据,信息资源得以高度整合,在最大程度上得到利用。
探索未知世界的新方法
大数据的应用使社科研究者得以避免主观臆断的局限,有效提高研究的客观性和科学性。
传统实证研究是一种自上而下的决策和验证过程,其特征是研究者在理论分析的基础上提出假设,之后通过调查和数据分析来验证假设。其不足或缺陷在于研究者本人的经验、见识、认知和判断决定了研究成果的方向与深度,被调查者也只能回答访谈和问卷提出的问题,调查结果自然局限在研究者的视野之内。
大数据的应用将研究者的视野有效扩展到个人经验、见识甚至想象之外。大数据的海量信息在时空上具有传统抽样数据无法比拟的广度和深度,其全样本的性质能够在最大程度上避免个人经验有限性对研究过程客观性的负面影响。研究者不仅能通过对大量数据实时、动态的监测与分析来解决社会问题,更能通过这些海量数据来思考、设计和实施研究计划;可以通过数据的相关性测量揭示事物的本来面目,发现规律和展示规律,提炼出重要的理论。
数据挖掘为研究者提供了深入分析和有效利用大数据的手段。数据挖掘的特性在于,它不是用于验证某个假定模型的正确性,而是在数据库中自己寻找模型,本质上是一个归纳的过程,并不需要假设或期待可能的结果,从而突破了研究者的视野局限,扩展了人类的经验范畴。通过数据挖掘技术,研究者能够从海量数据中搜索和发现信息与知识,找出存在于数据中的潜在关联和规则。
以大规模数据分析为特征的研究方法的广泛应用,使社会科学的科学性显著提升,学科融合趋势进一步增强。大数据的获取和分析,需要有别于传统社会科学的方法和工具,从而使在计算机、人工智能甚至物理、数学等领域具有专长的学者在社科研究领域有了大显身手的机会,如小世界网络研究者邓肯·瓦兹原先就是物理学家。近年来,发表在英文刊物上的基于谷歌图书、维基百科等大数据的语言学、经济学研究论文,其作者队伍不断有计算机领域的研究者和自然科学家加入。此外,由于大数据为社会科学提供了全新的分析对象,学术界越来越认识到交叉学科的重要性。“计算社会科学”兴起,就是一个生动事例。
大数据带来社会分工形态的变化,加速了认识世界和改造世界相统一的进程。研究者和生产经营者、社会治理者之间的距离不断缩小,各行各业越来越依赖大数据开展工作,杰出的经营与治理越来越依靠杰出的数据分析。目前,全球大数据应用在互联网、零售、电信、金融、地理信息科学、教育、医疗、交通等诸多行业创造了巨大的经济价值,并且将信息转化为了解世界、市场、人自身的知识与智慧。由于大数据的分析结果更可靠,在社科研究诸多领域特别是对策性研究领域,社会科学研究者与专业数据公司的合作已经成为重要趋势。
增长新知识新智慧
西方有人说,“有些事情我们知道我们自己知道,有些事情我们知道我们自己不知道,更有些事情我们不知道我们自己不知道。”大数据不仅使社科研究者知道以前“不知道”的事情,而且能把研究者带入一个“不知道自己不知道”的世界。
随着大数据思维与分析技术的深入发展,社会科学研究能够通过片段数据、海量数据、非结构化数据的采集、梳理与分析,通过碎片重组,深度揭示以往难以处理或无法预知的难题和关系。我国警方通过大平台、大数据和大联动打击信息诈骗犯罪,来自各个领域的联盟成员协同攻关,一起对大数据进行挖掘分析,从中观察到大量之前单靠个体和单个数据库难以发现的联系。如确认某个诈骗电话号码后,联盟中成员马上就可以根据这个号码发现骗子的踪迹。从前隐藏在各个数据库中的犯罪片段,在数据挖掘技术的作用下一块块地拼接起来,形成比较完整的踪迹路线图。据此,公安部门可以马上组织精准侦查,银行或电商网站可以马上阻止骗子注册开户,运营商等可以马上通知和阻止潜在受害用户转款。
基于概率以及可能性的实证和经验研究正在被数据分析报告和专项预测研究所取代。通过大数据和数据挖掘,研究者进入一个全新的领域,在那里能够发现诸多颠覆直觉和常识的信息与联系,为预见未来提供更加可靠的依据。这种预见是一种自下而上的知识发现过程,是在没有理论假设的前提下去挖掘信息、发现知识、预知事物发展的规律和趋势,从而更具有科学性、有效性和实用性。近年来,研究者在许多社科领域运用大数据取得了突出成果,如通过海量自然语言表达观测公众的政治参与意识,预测大选结果,等等。
大数据对打击恐怖主义具有重要意义。大数据技术通过对人脸、声纹、语音数据、资本市场内幕交易等信息的分析,综合利用恐怖分子平时产生的各种信息,包括通话、交通、电子邮件、聊天记录、视频等,能够使官方对恐怖行为进行事前预警和事后分析排查。据报道,在波士顿马拉松爆炸案中,美国中情局通过采集移动基站的电话通讯记录,附近商店、加油站、报摊的监控录像,以及志愿者提供的图片和影像资料等各种数据,最终锁定嫌疑犯并找到炸弹来源。
以大数据生产、分享、使用为代表的科技革命,正在使人际关系、个人与社会的关系、个人和社会与政府的关系以及国家之间的关系,发生历史性变化。以国际关系为例,大数据的出现有助于国家间摆脱传统思维模式和固有偏见的局限,使一方对另一方的认识和了解更客观、全面、准确、深刻。一方对另一方能够进行更全面的分析,做出更清晰、准确的判断,可以有效减少误判和安全困境的发生;通过大数据分析对方的战略意图与本国的利益得失,可引领双方朝着有共同利益的方向加强合作,实现互利共赢。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01在时间序列预测任务中,LSTM(长短期记忆网络)凭借对时序依赖关系的捕捉能力成为主流模型。但很多开发者在实操中会遇到困惑:用 ...
2025-12-01引言:数据时代的“透视镜”与“掘金者” 在数字经济浪潮下,数据已成为企业决策的核心资产,而CDA数据分析师正是挖掘数据价值的 ...
2025-12-01数据分析师的日常,常始于一堆“毫无章法”的数据点:电商后台导出的零散订单记录、APP埋点收集的无序用户行为日志、传感器实时 ...
2025-11-28在MySQL数据库运维中,“query end”是查询执行生命周期的收尾阶段,理论上耗时极短——主要完成结果集封装、资源释放、事务状态 ...
2025-11-28在CDA(Certified Data Analyst)数据分析师的工具包中,透视分析方法是处理表结构数据的“瑞士军刀”——无需复杂代码,仅通过 ...
2025-11-28在统计分析中,数据的分布形态是决定“用什么方法分析、信什么结果”的底层逻辑——它如同数据的“性格”,直接影响着描述统计的 ...
2025-11-27在电商订单查询、用户信息导出等业务场景中,技术人员常面临一个选择:是一次性查询500条数据,还是分5次每次查询100条?这个问 ...
2025-11-27