京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据的认知存在挑战 聚类成大数据认知突破口__数据分析师考试
大数据作为网络时代的一种客观存在,是网络时代人类社会的重要资产,尽管目前对于大数据的认知存在挑战,但聚类将会成为大数据认知的突破口。
大数据聚类将成行业核心竞争力
大数据标志着一个新时代的到来,这个时代的特征不只是追求丰富的物质资源,也不只是无所不在的互联网带来的方便的多样化信息服务,同时还包含区别于物质的数据资源的价值发现和价值转换,以及由大数据带来的精神和文化方面的崭新现象。
大数据来源于人类的测量、记录和分析世界的渴望和无尽的追求。随着信息技术,尤其是传感器、通信、计算机和互联网技术的迅猛发展和广泛应用,人类获取数据的手段越来越多,速度大大加快、成本急剧降低,层次和尺度更为精细,揭示自然现象和社会现象更加深刻,人联网和物联网又使得人人物物都成为数据源,这样一来,大数据成为网络时代人类社会的重要资产。
大数据本身既不是科学,也不是技术。它反映的是网络时代的一种客观存在,各行各业的大数据,规模从TB到PB到EB到ZB,都是以三个数量级的阶梯迅速增长,是用传统工具难以认知的,具有更大挑战。
“物以类聚,人以群分”,这是人类几千年来认识世界和社会的基本能力,是从大数据中发现价值必须面对的一个普遍性、基础性问题,是认知科学作为“学科的学科”要解决的首要问题。无论是政治、经济、文学、历史、社会、文化、还是数理、化工、医农、交通、地理、各行各业的大数据或宏观或微观的任何价值发现,无不借助于大数据聚类分析的结果,因此,数据分析和挖掘的首要问题是聚类,这种聚类是跨学科、跨领域、跨媒体的。大数据聚类是数据密集型科学的基础性、普遍性问题。
以汽车保险为例,作为一个很传统的行业,保险是基于概念评估的生意,保险公司对车险客户是这样聚类的:A类连续两年没有出车祸的,B类最近一年没有出车祸的,C类过去一年出了一次车祸的,D类过去一年出了两此及以上车祸的,要做到这样的聚类,保险公司就要获得客户的相关数据。
物联网时代,当汽车成为轮式机器人,成为大数据发生器以后,就是一个大数据发生体。每一次驾驶,每一次维修,每一次行驶,甚至每一次刹车,都会记录在案,利用大数据聚类,保险公司可对一个车况好、驾驶习惯好、常走线路事故率低,不勤开车的特定客户,给予更大的优惠,而对风险太高的客户报高价甚至拒绝。总之根据大数据聚类保险公司能够给出包括保险费支付方式在内的个性化解决方案,这就颠覆了保险公司的传统商业模式。我认为将来大数据聚类成为很多行业的核心竞争力。
大数据对形式化方法的挑战是非常严峻的,在数据密集型的网络时代,任何传统学科或者传统的行业,其公理、原理和定理组成的语境,遇到互联网+的挑战之后,都将成为一个大数据、小模型、小定律、交叉学科的时代,模型和程序要围绕数据。
创新也会相应的发生变化,应该是创造一个新的语境、新的坐标系,在这个坐标系下研究大数据,否则难以有新的发现。
实践中的研究也要由下而上地深入,数据要胜过程序,价值要胜过知识,关联要胜过因果,要更多地关注有意义的小众,把这些小众累积起来才成为大众。
通过大数据聚类即时发现价值,还要充分认识大数据中的不确定性和价值的隐蔽性。
机器人是大数据认知的典型代表
智能机器人是集新材料、新工艺、新能源、机械、电子、移动通信、全球定位导航、移动互联网、云计算、大数据、自动化、人工智能、认知科学乃至人文艺术等多个学科、多种技术于一身的人造精灵,是人联网、物联网不可或缺的端设备,是人类社会走向智慧生活的重要伴侣。
机器人既是使用大数据也产生大数据,既是大数据的产物也是大数据的推动者,机器人是大数据的认知的典型代表。而在目前,无论是搬运、码垛、研磨、抛光、挖掘等灰头土脸的工业机器人还是微电子产品生产线上精细灵巧大的机器人,机器人在我们的生产生活中已经随处可见。
机器人革命是世界性的、时代性的,机器人替换的首先不是理发师之类的劳动者,而可能是产业工人、文秘人员、医生、服务员、甚至士兵,他们将升级转型成为机器人的创造者和使用者,成为懂得集成、维修、管理机器人的专业人才。跨界渗透和跨界创新诞生的智能制造也将是我国抓住历史机遇的又一次崛起。
此外,机器人还将进一步刮起“穿戴风”。苹果推出了自己的手表,并发表了5个有关医疗的App,启动全新医疗应用。试想如果有一天手机或手表将会成为医疗诊断的工具,用于慢性管理的医患视频互动平台,医疗互联网个人健康与医疗的数据发生器,这将是远程诊疗的开始,并继而成为某种流行病的社会调查,成为病友社交网络,甚至会颠覆传统看病模式,颠覆传统医学研究。
同时我们也可以期待未来的生物机器人,如果器官移植越来越发达,那么“移花接木”就屡见不鲜。改造人类胚胎DNA,会不会避免遗传性疾病?如果将人的思维移植到机器人,那么思想是不是不朽的呢……
人脑是很复杂的,科学界现在正把脑科学和认知科学作为当前的重大研究领域,我们也在热切期待生物脑的出现。
当然认知科学不仅是研究生物脑的自然属性,社会属性研究也很重要。我们各种高端生物都会有语言、文字,有了文字,才会有文明。因此我们要研究脑认知的后天属性,研究脑发育、可塑性与自然环境的关系,认知也是后天学习和积累的结果,是与社会环境、社会实践、群体交互等密切相关的,要建立人脑认知的成长机制:如何创建神经元之间新的连接和新的认知。
人的智能除了记忆之外,在学习和思维上,概括地说有两点:一个是逻辑思维,一个是形象思维,形象思维最主要的是类比和联想。
从我的技术观点来看,如果人脑的认知能力不能够全部、完整、统一地形式化,那么我们可以在特定的情境下使认知能力局部形式化,如算术运算、简单游戏、博弈、定点开车等。
在未来,我还想做一个机器驾驶脑,这个驾驶脑主要涵盖了人脑关于驾驶行为的主要功能,长期记忆、短期记忆,还有瞬间记忆,就是感觉记忆,从感知到认知,到行动。
目前,中国脑计划马上要启动了,我个人认为是要将各项研究同步进行,用大数据来认识脑袋、保护脑、模拟脑。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、质量控制、科研实验等场景中,数据波动性(离散程度)的精准衡量是判断数据可靠性、稳定性的核心环节。标准差(Stan ...
2026-01-29在数据分析、质量检测、科研实验等领域,判断数据间是否存在本质差异是核心需求,而t检验、F检验是实现这一目标的经典统计方法。 ...
2026-01-29统计制图(数据可视化)是数据分析的核心呈现载体,它将抽象的数据转化为直观的图表、图形,让数据规律、业务差异与潜在问题一目 ...
2026-01-29箱线图(Box Plot)作为数据分布可视化的核心工具,能清晰呈现数据的中位数、四分位数、异常值等关键统计特征,广泛应用于数据分 ...
2026-01-28在回归分析、机器学习建模等数据分析场景中,多重共线性是高频数据问题——当多个自变量间存在较强的线性关联时,会导致模型系数 ...
2026-01-28数据分析的价值落地,离不开科学方法的支撑。六种核心分析方法——描述性分析、诊断性分析、预测性分析、规范性分析、对比分析、 ...
2026-01-28在机器学习与数据分析领域,特征是连接数据与模型的核心载体,而特征重要性分析则是挖掘数据价值、优化模型性能、赋能业务决策的 ...
2026-01-27关联分析是数据挖掘领域中挖掘数据间潜在关联关系的经典方法,广泛应用于零售购物篮分析、电商推荐、用户行为路径挖掘等场景。而 ...
2026-01-27数据分析的基础范式,是支撑数据工作从“零散操作”走向“标准化落地”的核心方法论框架,它定义了数据分析的核心逻辑、流程与目 ...
2026-01-27在数据分析、后端开发、业务运维等工作中,SQL语句是操作数据库的核心工具。面对复杂的表结构、多表关联逻辑及灵活的查询需求, ...
2026-01-26支持向量机(SVM)作为机器学习中经典的分类算法,凭借其在小样本、高维数据场景下的优异泛化能力,被广泛应用于图像识别、文本 ...
2026-01-26在数字化浪潮下,数据分析已成为企业决策的核心支撑,而CDA数据分析师作为标准化、专业化的数据人才代表,正逐步成为连接数据资 ...
2026-01-26数据分析的核心价值在于用数据驱动决策,而指标作为数据的“载体”,其选取的合理性直接决定分析结果的有效性。选对指标能精准定 ...
2026-01-23在MySQL查询编写中,我们习惯按“SELECT → FROM → WHERE → ORDER BY”的语法顺序组织语句,直觉上认为代码顺序即执行顺序。但 ...
2026-01-23数字化转型已从企业“可选项”升级为“必答题”,其核心本质是通过数据驱动业务重构、流程优化与模式创新,实现从传统运营向智能 ...
2026-01-23CDA持证人已遍布在世界范围各行各业,包括世界500强企业、顶尖科技独角兽、大型金融机构、国企事业单位、国家行政机关等等,“CDA数据分析师”人才队伍遵守着CDA职业道德准则,发挥着专业技能,已成为支撑科技发展的核心力量。 ...
2026-01-22在数字化时代,企业积累的海量数据如同散落的珍珠,而数据模型就是串联这些珍珠的线——它并非简单的数据集合,而是对现实业务场 ...
2026-01-22在数字化运营场景中,用户每一次点击、浏览、交互都构成了行为轨迹,这些轨迹交织成海量的用户行为路径。但并非所有路径都具备业 ...
2026-01-22在数字化时代,企业数据资产的价值持续攀升,数据安全已从“合规底线”升级为“生存红线”。企业数据安全管理方法论以“战略引领 ...
2026-01-22在SQL数据分析与业务查询中,日期数据是高频处理对象——订单创建时间、用户注册日期、数据统计周期等场景,都需对日期进行格式 ...
2026-01-21