京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据带来社科研究新变化_数据分析师考试
近年来,云计算、物联网、移动互联网的广泛应用,把人类社会带入大数据时代。大数据的产生和运用,使我们能够对置身其中的社会进行更加广泛和深入的认知、更加客观和准确的把握,从而以更精确的语言、更精密的思维加以描述、解释和界定,以更加科学、更加有效的方法进行治理。
全面真实展现社会面貌
大数据深刻影响和改变研究社会问题的方法,使社会科学研究领域发生深刻变化。美国学者杰弗里·汉考克认为,大数据对社会科学研究的意义,堪与显微镜的诞生对化学发展所起到的促进作用媲美。
过去,社会科学研究数据主要来源于田野调查和采访,受调查成本和可操作性等因素的限制,获得的数据数量和质量都十分有限。计算机及网络技术兴起后,社会科学研究除了依赖一手的调查数据,还可借助各类专业数据库,但这些数据的准确性、真实性和全面性依旧存在不尽如人意之处。
大数据能够为研究者提供前所未有的海量和高质量的社会数据、资料和信息。利用这些数据和数据挖掘技术,研究者能够深入观察和分析人类社会的复杂行为模式。
“一个时代的特征在很大程度上与该时代的数学密切相关。”(美国学者莫里斯·克莱因语)网络化和数据化使社会环境更加公开和透明。民众、企业和政府都处在互联网环境中,一切行为都会被记录、分析和预测。智能手机和计算机用户、政府机构、统计部门及大型企业、网络平台数据监控等,构成数据增长的重要来源。现今,全球有约30亿人使用互联网,我国网民规模达6.68亿,手机网民规模达5.94亿。这些人每天收发的信息,以及与这一收发过程相关联的信息,都会变成可揭示人的行为以及人与人之间关系的数据并被存储。信息技术与各行业的深度融合,科技、商业、教育、医疗、智能交通、智慧环保、智能家居、智慧城市建设等社会生活的各个领域,也无时无刻不在产生大量数据。这些开放、流动的数据,成为人们观察社会行为的“显微镜”,帮助研究者直接利用更加全面、真实的资料进行研究,捕捉以往难以获取的关系和知识。
大数据使社科研究更加方便、快捷、全面和深入。研究者坐在屏幕前就可以接入数百万的互联网用户资料,这也使他们不再满足于得到部分信息,而是倾向于收集对象的全部信息。有别于传统计算技术,数据挖掘技术使研究者能够快速处理海量数据,信息资源得以高度整合,在最大程度上得到利用。
探索未知世界的新方法
大数据的应用使社科研究者得以避免主观臆断的局限,有效提高研究的客观性和科学性。
传统实证研究是一种自上而下的决策和验证过程,其特征是研究者在理论分析的基础上提出假设,之后通过调查和数据分析来验证假设。其不足或缺陷在于研究者本人的经验、见识、认知和判断决定了研究成果的方向与深度,被调查者也只能回答访谈和问卷提出的问题,调查结果自然局限在研究者的视野之内。
大数据的应用将研究者的视野有效扩展到个人经验、见识甚至想象之外。大数据的海量信息在时空上具有传统抽样数据无法比拟的广度和深度,其全样本的性质能够在最大程度上避免个人经验有限性对研究过程客观性的负面影响。研究者不仅能通过对大量数据实时、动态的监测与分析来解决社会问题,更能通过这些海量数据来思考、设计和实施研究计划;可以通过数据的相关性测量揭示事物的本来面目,发现规律和展示规律,提炼出重要的理论。
数据挖掘为研究者提供了深入分析和有效利用大数据的手段。数据挖掘的特性在于,它不是用于验证某个假定模型的正确性,而是在数据库中自己寻找模型,本质上是一个归纳的过程,并不需要假设或期待可能的结果,从而突破了研究者的视野局限,扩展了人类的经验范畴。通过数据挖掘技术,研究者能够从海量数据中搜索和发现信息与知识,找出存在于数据中的潜在关联和规则。
以大规模数据分析为特征的研究方法的广泛应用,使社会科学的科学性显著提升,学科融合趋势进一步增强。大数据的获取和分析,需要有别于传统社会科学的方法和工具,从而使在计算机、人工智能甚至物理、数学等领域具有专长的学者在社科研究领域有了大显身手的机会,如小世界网络研究者邓肯·瓦兹原先就是物理学家。近年来,发表在英文刊物上的基于谷歌图书、维基百科等大数据的语言学、经济学研究论文,其作者队伍不断有计算机领域的研究者和自然科学家加入。此外,由于大数据为社会科学提供了全新的分析对象,学术界越来越认识到交叉学科的重要性。“计算社会科学”兴起,就是一个生动事例。
大数据带来社会分工形态的变化,加速了认识世界和改造世界相统一的进程。研究者和生产经营者、社会治理者之间的距离不断缩小,各行各业越来越依赖大数据开展工作,杰出的经营与治理越来越依靠杰出的数据分析。目前,全球大数据应用在互联网、零售、电信、金融、地理信息科学、教育、医疗、交通等诸多行业创造了巨大的经济价值,并且将信息转化为了解世界、市场、人自身的知识与智慧。由于大数据的分析结果更可靠,在社科研究诸多领域特别是对策性研究领域,社会科学研究者与专业数据公司的合作已经成为重要趋势。
增长新知识新智慧
西方有人说,“有些事情我们知道我们自己知道,有些事情我们知道我们自己不知道,更有些事情我们不知道我们自己不知道。”大数据不仅使社科研究者知道以前“不知道”的事情,而且能把研究者带入一个“不知道自己不知道”的世界。
随着大数据思维与分析技术的深入发展,社会科学研究能够通过片段数据、海量数据、非结构化数据的采集、梳理与分析,通过碎片重组,深度揭示以往难以处理或无法预知的难题和关系。我国警方通过大平台、大数据和大联动打击信息诈骗犯罪,来自各个领域的联盟成员协同攻关,一起对大数据进行挖掘分析,从中观察到大量之前单靠个体和单个数据库难以发现的联系。如确认某个诈骗电话号码后,联盟中成员马上就可以根据这个号码发现骗子的踪迹。从前隐藏在各个数据库中的犯罪片段,在数据挖掘技术的作用下一块块地拼接起来,形成比较完整的踪迹路线图。据此,公安部门可以马上组织精准侦查,银行或电商网站可以马上阻止骗子注册开户,运营商等可以马上通知和阻止潜在受害用户转款。
基于概率以及可能性的实证和经验研究正在被数据分析报告和专项预测研究所取代。通过大数据和数据挖掘,研究者进入一个全新的领域,在那里能够发现诸多颠覆直觉和常识的信息与联系,为预见未来提供更加可靠的依据。这种预见是一种自下而上的知识发现过程,是在没有理论假设的前提下去挖掘信息、发现知识、预知事物发展的规律和趋势,从而更具有科学性、有效性和实用性。近年来,研究者在许多社科领域运用大数据取得了突出成果,如通过海量自然语言表达观测公众的政治参与意识,预测大选结果,等等。
大数据对打击恐怖主义具有重要意义。大数据技术通过对人脸、声纹、语音数据、资本市场内幕交易等信息的分析,综合利用恐怖分子平时产生的各种信息,包括通话、交通、电子邮件、聊天记录、视频等,能够使官方对恐怖行为进行事前预警和事后分析排查。据报道,在波士顿马拉松爆炸案中,美国中情局通过采集移动基站的电话通讯记录,附近商店、加油站、报摊的监控录像,以及志愿者提供的图片和影像资料等各种数据,最终锁定嫌疑犯并找到炸弹来源。
以大数据生产、分享、使用为代表的科技革命,正在使人际关系、个人与社会的关系、个人和社会与政府的关系以及国家之间的关系,发生历史性变化。以国际关系为例,大数据的出现有助于国家间摆脱传统思维模式和固有偏见的局限,使一方对另一方的认识和了解更客观、全面、准确、深刻。一方对另一方能够进行更全面的分析,做出更清晰、准确的判断,可以有效减少误判和安全困境的发生;通过大数据分析对方的战略意图与本国的利益得失,可引领双方朝着有共同利益的方向加强合作,实现互利共赢。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15