大数据有精神分裂症_数据分析师 在物联网的产业方面,有一些商业模式使物联网货币化。近日,Kaggle已经与一家主要工业集团进行合作。其目标是开发者和数据科学家们运行公共需求以创造最好的新算法,来减少航空 ...
2014-12-02本人理解的大数据_数据分析师(2) 昨天偷懒了少了一次文字排版,没想到好多朋友发消息来说字体变小了不习惯,看来坚持大一点的字体还是有好处的。 虽然很想保持高频率更新,但没想到回阿里后工作竟然比创业时 ...
2014-12-02个人理解的大数据_数据分析师 很久前就想写一篇关于大数据的文章,但总是因为觉得自己功力不够所以迟迟不敢动笔。再到后来发现大数据的概念已经烂大街了,现在只要是个做产品的,收了点用户数 ...
2014-12-02数据科学家的4种数据科学工作,8项求职技能 “数据科学家”被誉为21世纪最性感的工作(Thomas Davenport和D.J. Patil在哈佛商业评论上曾发表的一篇文章中称),但如何成为一个数据科学家?怎样才能入 ...
2014-12-02玩转大数据,管理更省力_数据分析师 想要掌握复杂的企业管理学和办公室政治?除了读MBA和甄嬛传外,还有更省力的大数据方式。2014年腾讯WE大会上,人类行为分析和可穿戴设备专家 Ben Waber 带 ...
2014-12-02数据分析中,你认为用户行为分析最重要的点是什么 对着满屏的数据,来做用户行为分析,是不是茫然不知所措? 做用户行为分析首先要确定你的目标。目标是降低成本(比如做渠道分析,优化渠道) ...
2014-12-015个步骤来获得原始数据可操作性的见解_数据分析师 公司正在大力投资于收购和开发人才,技术和业务流程,旨在手机和分析海量数据,是他们能够开发旨在加强客户价值可操作的商业洞察力。数字业务转型 ...
2014-12-01数据可视化:柱状图、雷达图等六种基本图表的特点和适用场合 数据可视化”可以帮助用户理解数据,一直是热门方向。 图表是”数据可视化”的常用手段,其中又以基本图表—-柱状图、折线图、饼图等 ...
2014-12-01基于Hadoop MapReduce的分布式数据流聚类算法研究 基于Hadoop MapReduce的分布式数据流聚类算法研究 随着数据流规模的持续增大,现有基于网格的聚类算法对数据流的聚类效果不好,不能实时发现任意形 ...
2014-12-01如何定制一个基于REST Service的ODBC驱动程序 REST Service能够帮助开发者以简单统一的接口向终端用户提供服务。然而数据分析的应用场景中,一些成熟的数据分析工具(例如Tableau, Excel等)要求 ...
2014-12-01Spark vs. MapReduce 时间节约66%,计算节约40% MapReduce为大数据挖掘提供了有力的支持,但是复杂的挖掘算法往往需要多个MapReduce作业才能完成,多个作业之间存在着冗余的磁盘读写开销和多次资 ...
2014-12-01如何通过Java程序提交yarn的MapReduce计算任务_数据分析师 需要通过Java程序提交Yarn的MapReduce的计算任务。与一般的通过Jar包提交MapReduce任务不同,通过程序提交MapReduce任务需要有点小 ...
2014-12-01基于Hadoop的同源性搜索GO功能注释平台的研究 基于Hadoop的同源性搜索GO功能注释平台的研究 南京农业大学 吴浩宇 本文的研究工作主要如下: (1)研究了基因本体的相关理论基础,以及GO本体论在生 ...
2014-12-014问题告诉你 游戏数据分析师究竟是什么_数据分析师 关于游戏数据分析师一职位的一些看法,之前少有专门的文章深入介绍,不过在圈子内大家也都会对这一职位有自己的看法,本人并非该领域的资深人士, ...
2014-12-01KD树的构建_数据分析师 KD树的构建 kd树构建的伪代码如下图所示: 再举一个简单直观的实例来介绍k-d树构建算法。假设有6个二维数据点{(2,3),(5,4),(9,6),(4,7), ...
2014-11-30什么是KD树_数据分析师 之前曾经介绍过SIFT特征匹配算法,特征点匹配和数据库查、图像检索本质上是同一个问题,都可以归结为一个通过距离函数在高维矢量之间进行相似性检索的问题,如何快速而准确地找到 ...
2014-11-30K近算法之皮尔逊系数 皮尔逊系数(Pearson Correlation Coefficient) 在具体阐述皮尔逊相关系数之前,有必要解释下什么是相关系数 ( Correlation coefficient )与相关距离(Correlati ...
2014-11-30K近算法之杰卡德相似系数 杰卡德相似系数(Jaccardsimilaritycoefficient) (1)杰卡德相似系数 两个集合A和B的交集元素在A,B的并集中所占的比例,称为两个集合的杰卡德相 ...
2014-11-30K近算法之夹角余弦 夹角余弦(Cosine),几何中夹角余弦可用来衡量两个向量方向的差异,机器学习中借用这一概念来衡量样本向量之间的差异。 (1)在二维空间中向量A(x1,y1)与向量B(x2,y2)的夹 ...
2014-11-30K近算法之汉明距离 汉明距离(Hamming distance), 两个等长字符串s1与s2之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数。例如字符串“1111”与“1001”之间的汉明距离为2。应 ...
2014-11-30Python HTTP 请求工具对比:urllib.request 与 requests 的核心差异与选择指南 在 Python 处理 HTTP 请求(如接口调用、数据爬取 ...
2025-09-12解决 pd.read_csv 读取长浮点数据的科学计数法问题 为帮助 Python 数据从业者解决pd.read_csv读取长浮点数据时的科学计数法问题 ...
2025-09-12CDA 数据分析师:业务数据分析步骤的落地者与价值优化者 业务数据分析是企业解决日常运营问题、提升执行效率的核心手段,其价值 ...
2025-09-12用 SQL 验证业务逻辑:从规则拆解到数据把关的实战指南 在业务系统落地过程中,“业务逻辑” 是连接 “需求设计” 与 “用户体验 ...
2025-09-11塔吉特百货孕妇营销案例:数据驱动下的精准零售革命与启示 在零售行业 “流量红利见顶” 的当下,精准营销成为企业突围的核心方 ...
2025-09-11CDA 数据分析师与战略 / 业务数据分析:概念辨析与协同价值 在数据驱动决策的体系中,“战略数据分析”“业务数据分析” 是企业 ...
2025-09-11Excel 数据聚类分析:从操作实践到业务价值挖掘 在数据分析场景中,聚类分析作为 “无监督分组” 的核心工具,能从杂乱数据中挖 ...
2025-09-10统计模型的核心目的:从数据解读到决策支撑的价值导向 统计模型作为数据分析的核心工具,并非简单的 “公式堆砌”,而是围绕特定 ...
2025-09-10CDA 数据分析师:商业数据分析实践的落地者与价值创造者 商业数据分析的价值,最终要在 “实践” 中体现 —— 脱离业务场景的分 ...
2025-09-10机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04