你真的会玩SQL吗?之逻辑查询处理阶段 最近要对数据库进行优化,但由于工作项目中已经很少亲自写SQL而且用的都不是很复杂的语句,所以有些生疏了,于是翻翻N年前的笔记资料,想以此来记录回顾总结一些实用的SQL ...
2017-05-21
0基础搭建Hadoop大数据处理-环境 由于Hadoop需要运行在Linux环境中,而且是分布式的,因此个人学习只能装虚拟机,本文都以VMware Workstation为准,安装CentOS7,具体的安装此处不作过多介绍,只作需要用到的知 ...
2017-05-21
提升数据建模的10种技术措施 随着企业有了能够轻松访问和分析数据以提高性能的新机会,数据建模也是变形的。数据建模不仅仅是任意组织数据结构和关系,还必须与最终用户的需求和问题联系起来,并提供指导,帮助 ...
2017-05-21
0基础搭建Hadoop大数据处理-初识 在互联网的世界中数据都是以TB、PB的数量级来增加的,特别是像BAT光每天的日志文件一个盘都不够,更何况是还要基于这些数据进行分析挖掘,更甚者还要实时进行数据分析,学习, ...
2017-05-21
Hadoop集群搭建 目的 本文描述了如何安装、配置和管理有实际意义的Hadoop集群,其规模可从几个节点的小集群到几千个节点的超大集群。 如果你希望在单机上安装Hadoop玩玩,从这里能找到相关细节。 先决 ...
2017-05-21
Hadoop面试中6个常见的问题及答案 准备好面试了吗?呀,需要Hadoop的知识!!?不要慌!这里有一些可能会问到的问题以及你应该给出的答案。 Q1.什么是Hadoop? Hadoop是一个开源软件框架,用于存储大量数 ...
2017-05-21
关于数据分析思路的4点心得 1.看数据的纬度 在对一款产品或者一款产品的其中的一个模块进行分析时,我们可以从两个大纬度去分析数据。 首先是从广阔的视角先去查看数据,这里需要对该产品所处的行业数据 ...
2017-05-20
商业数据挖掘的几种应用场景和主题 数据挖掘涉及到公司运营的方方面面,这包括对企业部门经营情况的评估、内部员工的管理、生产流程的监管、产品结构优化与新产品开发、财务成本优化、市场结构的分析和客户关系 ...
2017-05-20
关于如何解释机器学习的一些方法 到现在你可能听说过种种奇闻轶事,比如机器学习算法通过利用大数据能够预测某位慈善家是否会捐款给基金会啦,预测一个在新生儿重症病房的婴儿是否会罹患败血症啦,或者预测一位 ...
2017-05-20R语言并行计算的原理和案例 众所周知,在大数据时代R语言有两个弱项,其中一个就是只能使用单线程计算。但是R在2.14版本之后,R就内置了parallel包,强化了R的并行计算能力。 parallel包实际上整合了之前已 ...
2017-05-20
机器学习需要哪些数学基础 过去的几个月中,有几人联系我,诉说他们对尝试进入数据科学的世界,以及用机器学习的技术去探索统计规律并构建无可挑剔的数据驱动型产品的热忱。然而,我发现一些人实际上缺乏必要的 ...
2017-05-20
R语言:关联规则+时间因素=序贯关联规则 序贯模型=关联规则+时间因素。 今天下午基本上把通过arulesSequences来进行序列模式挖掘搞明白了,晚上又把arulesSequences中最重要的函数cspade查看了一下。Mark一下。 ...
2017-05-19
python实现六大分群质量评估指标(兰德系数、互信息、轮廓系数) 1 R语言中的分群质量——轮廓系数 因为先前惯用R语言,那么来看看R语言中的分群质量评估,节选自笔记︱多种常见聚类模型以及分群质量评估(聚类 ...
2017-05-19
R语言︱词典型情感分析文本操作技巧汇总(打标签、词典与数据匹配等) 情感分析中对文本处理的数据的小技巧要求比较高,笔者在学习时候会为一些小技巧感到头疼不已。 主要包括以下内容: 1 批量读取txt ...
2017-05-19
R语言︱集合运算—小而美法则 集合运算的一般规则如下: union(x,y) #求并集 intersect(x,y) #求交集 setdiff(x,y) #求属于x而不属于y的所有元素 setequal(x,y) #判断x与y是否相等 a %in% y #判断a是否为y ...
2017-05-19数据挖掘:层次性和时髦性 在银行做了两年的数据分析和挖掘工作,较少接触互联网的应用场景,因此,一直都在思考一个问题,“互联网和金融,在数据挖掘上,究竟存在什么样的区别”。在对这个问题的摸索和理解过 ...
2017-05-19做好数据挖掘模型必读的9条高端经验总结 数据挖掘是利用业务知识从数据中发现和解释知识(或称为模式)的过程,这种知识是以自然或者人工形式创造的新知识。 当前的数据挖掘形式,是在20世纪90年代实践领 ...
2017-05-19
用Python处理数据集中的缺失值 现实生活中的数据经常存在缺失值。产生缺失值的原因有很多,如观察资料未被记录、数据损坏等。由于很多机器学习算法不支持存在缺失值的数据集,正确处理缺失值就显得比较重要了。 ...
2017-05-18
Python做文本挖掘的情感极性分析 「情感极性分析」是对带有感情色彩的主观性文本进行分析、处理、归纳和推理的过程。按照处理文本的类别不同,可分为基于新闻评论的情感分析和基于产品评论的情感分析。其中,前 ...
2017-05-18
Python代码在实践过程中的经验总结 关于Python脚本,在具体的实践过程中经常会遇到一些问题,下面将其总结,便于使用。考虑使用 Logger(logger 怎么配置,需要输出哪些信息 — 可以反向考虑,比方说看到这个 lo ...
2017-05-18数字化经营时代,企业的市场竞争早已从经验决策转向数据决策。门店营收、用户转化、产品销量、成本损耗、存量资产等所有经营行为 ...
2026-05-22在MySQL数据库日常运维、业务数据校验、数据迁移与数据清洗场景中,自增主键ID的连续性校验是一项基础且关键的工作。MySQL的Auto ...
2026-05-22 很多企业团队并非缺乏指标,而是陷入“指标失控”:仪表盘上堆满实时跳动的数据,却无法回答“当前瓶颈在哪、下一步该做什么 ...
2026-05-22【核心关键词】大数据、可视化、存储、架构、客户、离线、产品、同步、实时、数据仓库、数据分析、数据可视化、存储数据、离线 ...
2026-05-21在电商流量红利消退、公域获客成本持续走高的当下,存量用户深度挖掘已成为店铺增收增效的核心抓手。相较于付费投放获取的陌生新 ...
2026-05-21 很多数据分析师每天盯着几十个指标,但当被问到“这套指标要支撑什么业务目标”“指标之间是什么逻辑关系”“业务变化时如何 ...
2026-05-21在数据驱动决策的时代,数据质量直接决定分析结果的可靠性与准确性,而异常值作为数据清洗中的核心痛点,往往会扭曲分析结论、误 ...
2026-05-20 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标在所有行业都适用”“哪些指标只对电商有意义”“二者如何搭 ...
2026-05-20Agent的能力边界,很大程度上取决于其掌握的Skill质量和数量。传统做法是靠人工编写和维护Skill,但这条路很快会遇到瓶颈。业务 ...
2026-05-20在统计分析中,方差分析(ANOVA)是一种常用的假设检验方法,核心用于分析“一个或多个自变量对单个因变量的影响”,广泛应用于 ...
2026-05-19 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“什么是指标”“指标和维度有什么区别”“如何定义指标值的计算规则和 ...
2026-05-19想高效备考 CDA 一级,拒绝盲目刷题、冗余学习?《CDA 一级教材知识手册》重磅来袭!以官方教材为核心,浓缩 13 章 103 个核心考 ...
2026-05-19在数据统计分析中,卡方检验是一种常用的非参数检验方法,核心用于判断两个或多个分类变量之间是否存在显著关联,广泛应用于市场 ...
2026-05-18在企业数字化转型的浪潮中,很多企业陷入了“技术堆砌”的误区——上线了ERP、CRM、BI等各类系统,积累了海量数据,却依然面临“ ...
2026-05-18小陈是某电商平台的数据分析师。老板交给他一个任务:“我们平台的注册用户已经突破1000万了,想了解一下用户的平均月消费金额。 ...
2026-05-18【专访摘要】本次CDA持证专访邀请到拥有丰富物流供应链数据分析经验的赖尧,他结合自身在京东、华莱士、兰格赛等企业的从业经历 ...
2026-05-15在数字化时代,企业的每一次业务优化、每一项技术迭代,都需要回答一个核心问题:这个动作到底能带来多少价值?是提升了用户转化 ...
2026-05-15在数据仓库建设中,事实表与维度表是两大核心组件,二者相互关联、缺一不可,共同构成数据仓库的基础架构。事实表聚焦“发生了什 ...
2026-05-15 很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问 ...
2026-05-15【核心关键词】互联网、机会、运营、关键词、账户、数字化、后台、客户、成本、网络、数据分析、底层逻辑、市场推广、数据反馈 ...
2026-05-14