作者:付晓岩 来源:大数据DT(ID:hzdashuju) 导读:众多企业管理者都将“数字化转型”视为战略核心,那么“数字化转型”应该已经有了一个清晰的概念才对,但实际上却并非如此。经过笔者多方收集,似乎大家 ...
2020-06-28作者:Alex Petrov 来源:大数据DT(ID:hzdashuju) 内容摘编自《数据库系统内幕》 导读:本文带你了解面向列与面向行的数据库。 大多数数据库系统存储一组数据记录,这些记录由表中的列和行组成。 ...
2020-06-28作者:赵敏 宁振波 来源:大数据DT(ID:hzdashuju) 内容摘编自《铸魂:软件定义制造》 导读:数字孪生(Digital Twin)已经走过了几十年的发展历程,只不过以前没有这样命名,而是发展到了一定阶段,人们意 ...
2020-06-28导读:一次机缘巧合,在研究BI产品技术选型的时候,我接触到了ClickHouse,瞬间就被其惊人的性能所折服。这款非Hadoop生态、简单、自成一体的技术组件引起了我极大的好奇。那么ClickHouse好在哪呢?本文带你做一个 ...
2020-06-24Python火了,而且火得大红大紫,从工作到生活,处处都有python的身影。python 是一门兼具简单与功能强大的编程语言,它专注于如何解决问题、自由开放的社区环境以及丰富的第三方库......太专业了,我又不写编程, ...
2020-06-24EXCEL是数据分析入门级的工具,今天小编继续给大家带来EXCEL使用的一些小技巧——EXCEL快捷键。在分析处理庞大的数据时,EXCEL快捷键可以帮助我们提高数据分析的效率。下面,跟小编一起来看,数据分析中常用的EXCE ...
2020-06-24一、卡方分布定义 卡方分布 (χ2分布)是概率论与统计学中常用的一种概率分布。k 个独立的标准正态分布变量的平方和服从自由度为k 的卡方分布。卡方分布常用于假设检验和置信区间的计算。 若k 个随机变量Z1、 ...
2020-06-24因果推断(causalinference),缘起人类的本能或经常自发提出的一个简单问题:为什么(why)?事实上,作为科学研究的核心与宗旨——因果推断就是关于此问题的严肃思考、科学验证或因果分析(causal analysis)。目前,因 ...
2020-06-23当下数据分析与人工智能发展迅速,各行各业都需要数据做支持,小到我们每个人的社交网络、运动轨迹、消费信息,大到企业的销售、运营、产品数据,都需要做数据分析。因此,数据分析师已然成为当前最火爆、最热门就 ...
2020-06-23大家整理了,数据分析入门常用的EXCEL在数据分析行业,EXCEL是最基础的、入门级的,也是最常用,最容易上手的工具了。想要学习数据分析的小伙伴可以选择先从EXCEL入手,下面小编就给函数,希望对各位小伙伴有所帮 ...
2020-06-23目前数据分析行业火热,市面上的数据分析培训机构和课程也层出不穷,想要学习数据分析的小伙伴在选择时一定要擦亮眼睛,选择教学质量,服务质量都靠谱的机构。CDA数据分析系统培训,由经管之家CDA数据分析研 ...
2020-06-222020年5月6日,人力资源和社会保障部发布《新职业—大数据工程技术人员就业景气现状分析报告》,报告显示:预计2020年中国大数据行业人才需求规模将达210万,2025年前大数据人才需求仍将保持30%—40%的增速,需求 ...
2020-06-22CDA(Certified Data Analyst),亦称“CDA数据分析师”,指在互联网、零售、金融、电信、医疗、旅游等行业专门从事数据的采集、清洗、处理、分析并能制作业务报告、提供决策的新型数据分析人才。“CDA数据分析师认 ...
2020-06-22PCA在机器学习中很常用,是一种无参数的数据降维方法。PCA步骤: 将原始数据按列组成n行m列矩阵X 将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值 求出协方差矩阵 求 ...
2020-06-16注明:本文章所有代码均来自scikit-learn官方网站 在实际情况中,如果一个模型要上线,数据分析员需要反复调试模型,以防止模型仅在已知数据集的表现较好,在未知数据集上的表现较差。即要确保模型的泛化能力 ...
2020-06-16在翻译sklearn文档 2.无监督学习 部分过程中,发现协方差矩阵几乎贯穿整个章节,但sklearn指导手册把协方差部分放在了这一章节偏后的部分,作为机器学习一个基础概念,在这篇文章中,想把协方差矩阵的相关知识以及 ...
2020-06-16刚刚接触pandas的朋友,想了解数据结构,就一定要认识DataFrame,接下来给大家详细介绍! 初识pandas数据结构:DataFrame import numpy as np import pandas as pd data = {\"name\": [\"Jack\", \"Tom\ ...
2020-06-12异常值检测一般要求新发现的数据是否与现有观测数据具有相同的分布或者不同的分布,相同的分布可以称之为内点(inlier),具有不同分布的点可以称之为离群值。离群点和新奇点检测是不同的,有一个重要的区分必须掌 ...
2020-06-12异常值检测一般要求新发现的数据是否与现有观测数据具有相同的分布或者不同的分布,相同的分布可以称之为内点(inlier),具有不同分布的点可以称之为离群值。 下图是一个使用支持向量机SVM进行新奇点检测 ...
2020-06-12K-means算法旨在选择一个质心, 能够最小化惯性或簇内平方和的标准: K-means算法原理分析 首先随机选取K个初始质心,最基本的方法是从数据集$X$中选择$K$个样本。 将每 ...
2020-06-10在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11在机器学习建模流程中,“特征重要性分析” 是连接 “数据” 与 “业务” 的关键桥梁 —— 它不仅能帮我们筛选冗余特征、提升模 ...
2025-10-11在企业的数据体系中,未经分类的数据如同 “杂乱无章的仓库”—— 用户行为日志、订单记录、商品信息混杂存储,CDA(Certified D ...
2025-10-11在 SQL Server 数据库操作中,“数据类型转换” 是高频需求 —— 无论是将字符串格式的日期转为datetime用于筛选,还是将数值转 ...
2025-10-10在科研攻关、工业优化、产品开发中,正交试验(Orthogonal Experiment)因 “用少量试验覆盖多因素多水平组合” 的高效性,成为 ...
2025-10-10在企业数据量从 “GB 级” 迈向 “PB 级” 的过程中,“数据混乱” 的痛点逐渐从 “隐性问题” 变为 “显性瓶颈”:各部门数据口 ...
2025-10-10在深度学习中,“模型如何从错误中学习” 是最关键的问题 —— 而损失函数与反向传播正是回答这一问题的核心技术:损失函数负责 ...
2025-10-09本文将从 “检验本质” 切入,拆解两种方法的核心适用条件、场景边界与实战选择逻辑,结合医学、工业、教育领域的案例,让你明确 ...
2025-10-09在 CDA 数据分析师的日常工作中,常会遇到这样的困惑:某电商平台 11 月 GMV 同比增长 20%,但究竟是 “长期趋势自然增长”,还 ...
2025-10-09Pandas 选取特定值所在行:6 类核心方法与实战指南 在使用 pandas 处理结构化数据时,“选取特定值所在的行” 是最高频的操作之 ...
2025-09-30球面卷积神经网络(SCNN) 为解决这一痛点,球面卷积神经网络(Spherical Convolutional Neural Network, SCNN) 应运而生。它通 ...
2025-09-30在企业日常运营中,“未来会怎样” 是决策者最关心的问题 —— 电商平台想知道 “下月销量能否达标”,金融机构想预判 “下周股 ...
2025-09-30Excel 能做聚类分析吗?基础方法、进阶技巧与场景边界 在数据分析领域,聚类分析是 “无监督学习” 的核心技术 —— 无需预设分 ...
2025-09-29XGBoost 决策树:原理、优化与工业级实战指南 在机器学习领域,决策树因 “可解释性强、处理非线性关系能力突出” 成为基础模型 ...
2025-09-29