京公网安备 11010802034615号
经营许可证编号:京B2-20210330
学大数据不卡关:精选大数据相关用语
大数据 (Big Data) 与数据科学 (Data Science) 已成为大众耳熟能详的词汇,各行各业正在积极运用且开发大数据的价值,这些巨量数据也带来了巨大的商机。
这时身处于「大数据时代」的我们,自然得对大数据有所认识,在这里为大家列出了一些经常跟大数据一起出现的陌生用语,认识了这些大数据相关字汇,下次看大数据的相关文章就不会一直「卡」了。
Algorithm 演算法
出自于数学用语,在这里指的是在有限步骤内,分析数据的具体方法,而且通常由软件来执行。
AIDC 自动识别技术
AIDC(Automatic Identification and Data Capture)是将讯息数据自动识读、自动输入电脑的重要方法和手段,它是以电脑技术和通信技术为基础的综合性科学技术。常见的 AIDC 例如条码(Bar codes)、磁条(magnetic strips)、生物识别(Biometrics)、RFID 等技术。
AWS 亚马逊网路服务系统
2006 年 Amazon 开始以 Web 服务的形式向企业提供各种云端运算服务,包括运算、储存、数据库、分析、应用程式和部署服务。现在许多科学家、开发人员以及各企业的技术人员都在利用 AWS (Amazon Web Services)进行大数据分析。
Avro 序列化系统
Avro 是 Hadoop 底下的子专案,是一个数据序列化系统(Data serialization system),被设计用来支援大量数据交换。
Behavioral analytics 行为分析
行为分析是指用科学方法分析环境刺激与行为之间的因果关系,藉着系统性的观察来了解行为的变化原则,进而有系统的操作刺激,以达到行为的学习、塑造或改变。简单来说,就是用一个有系统的方法去观察、测量、收集客观数据来分析目标的表现行为。
Big Data 大数据
大数据(or 巨量数据),顾名思义是指大量的资讯,当数据量庞大到数据库系统无法在合理时间内进行储存、运算、处理,分析成能解读的资讯时,就称为大数据。有兴趣深入了解请参考《巨量数据的时代,用「大、快、杂、疑」四字箴言带你认识大数据》以及《7 个你不可不知的大数据定义》。
BI 商业智慧
BI (Business Intelligence) 指用现代数据仓储技术、线上分析处理技术、数据挖掘进行数据分析,再以图形化的界面或报表呈现以实现商业价值。
Cassandra 数据库系统
是 Apache 软件基金会底下的开源分布式 NoSQL 数据库系统,适合用来管理巨量的结构化数据,由于其良好的可扩展性和性能,被 Digg、Twitter、Hulu、Netflix 等知名网站所采用。
CDR 详细通联记录
CDRs (Call Detail Record)是电信网路的使用纪录,例如通话时间、通话长度等资讯。CDR 是电信业者与企业分析网路营运和客户行为的重要资源。
Clickstream Analytics 点击流分析
点击流(Clickstream)就是使用者的在网页间来来去去的点选记录,也可以分成 Upstream –– 进入这个网站的「来源」,以及 Downstream —— 拜访完这个网站之後的「去向」。对于网路行销跟搜寻引擎来说,点击流分析是十分重要的参考。
Cloud Computing 云端运算
云端运算(Cloud Computing)是一种将数据、工具及程式放到网际网路上处理的资源利用方式,是一种分散式电脑运算(Distrubted computing)的概念,也就是让网路上不同的电脑同时帮你做一件事,可以大大的增加处理速度。
也因为所有资讯都被放置到网路的虚拟空间里,工程师在绘制示意图时常以一朵云来代表这个虚拟空间,因而有了「云端(Cloud)」一名。
Data Mining 数据探勘
顾名思义,就好比在地球上从一堆粗糙的石头中进行地物探勘、寻找有价值的矿脉,数据探勘就是从巨量数据中提取出未知的、有价值的潜在资讯。
Data Modelling 数据建模
数据模式(Data Model)在资讯系统中指的是数据如何被表达、储存及取用的方式,包括数据的格式、定义和属性,数据之间的关系,以及数据的限制,而数据模式的设计过程就称为「数据建模」。
Data Visualization 数据视觉化
是关于数据之视觉表现形式的研究,数据视觉化的技术可以帮助不同背景的工程人员沟通、理解,以达良好的设计与分析结果。
Data Experts 数据专家
数据专家就是能利用数据作出研究评估的专业人士,像是数据分析师、数据科学家、数据架构师等都可以被归类为数据专家,其工作内容细分请参考《数据分析师?科学家?架构师?大数据人才的工作内容及年薪比较》。
Exploratory Data Analysis 探索式分析
探索式数据分析是指在没有标准流程跟方法的情况下,在现有的数据中找寻数据的结构和特点、探索潜藏于数据中的讯息,这种数据分析方法强调的是探索式的分析而非严谨的模式确认。
Hadoop 技术
Hadoop 是一个能够储存并管理大量数据的云端平台,为 Apache 软件基金会底下的一个开放原始码、社群基础、而且完全免费的软件,Hadoop 的两大核心功能 —— 储存(Store)及处理(Process)数据所用到的分散式档案系统 HDFS 跟 MapReduce 平行运算架构。Hadoop 被广泛应用于大数据储存和大数据分析,成为大数据的主流技术。有兴趣深入了解请参考《认识大数据的黄色小象帮手 –– Hadoop》。
Internet of Things 物联网
物联网(Iots)是一个全球化的网路基础建设,透过数据撷取以及通讯能力以连结实体与虚拟物件,透过网际网路的发展,物连网可透过特定的机制,将所有装置连结在一起,以供控制、侦测、识别,并交换所有的资讯。
NoSQL 数据库系统
NoSQL 最早是指「No SQL」,号称不使用 SQL 作为查询语言的数据库系统。但近来则普遍将 NoSQL 视为「Not Only SQL」,也就是「不只是 SQL」的意思,希望结合 SQL 优点并混用关联式数据库和 NoSQL 数据库来达成最佳的储存效果。
在巨量大数据所带动的潮流下,各种不同形态的NoSQL数据库如雨後春笋般窜起,其中 MongoDB 是众多 NoSQL 数据库软件中较为人熟知的一种。
Predictive Analytics 预测分析
是指透过预测模型、机器学习、数据挖掘等技术来分析现有和历史的事实数据对未来作出预测的数据分析方法。
R 语言
R 是一个开放原始码统计软件,提供统计计算和绘图功能,类似 Matlab 跟 SAS,而 R 不但免费 而且简单易上手,近年来成为数据科学界里的重要工具。
SaaS 软件即服务
SaaS (Software-As-A-Service)是随着网际网路技术和应用软件的成熟而兴起的一种软件应用模式。SaaS 提供商将软件统一部署在自己的伺服器上,藉由网路提供软件给客户,所以客户不用购买软件,而是根据需求向提供商订购所需的服务,且客户无需对软件进行维护,服务提供商会全权管理和维护软件;软件厂商在向客户提供网际网路应用的同时,也提供软件的离线操作和本地数据存储,让客户随时随地都可以使用其定购的软件和服务。
对于许多小型企业来说,SaaS 是采用先进技术的最好途径,它消除了企业购买、构建和维护基础设施和应用程式的需要。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21在数据分析领域,当研究涉及多个自变量与多个因变量之间的复杂关联时,多变量一般线性分析(Multivariate General Linear Analys ...
2026-04-21很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度”“这 ...
2026-04-21在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20在机器学习建模全流程中,特征工程是连接原始数据与模型效果的关键环节,而特征重要性分析则是特征工程的“灵魂”——它不仅能帮 ...
2026-04-20很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题, ...
2026-04-20在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16在机器学习无监督学习领域,Kmeans聚类因其原理简洁、计算高效、可扩展性强的优势,成为数据聚类任务中的主流算法,广泛应用于用 ...
2026-04-16在机器学习建模实践中,特征工程是决定模型性能的核心环节之一。面对高维数据集,冗余特征、无关特征不仅会增加模型训练成本、延 ...
2026-04-16在数字化时代,用户是产品的核心资产,用户运营的本质的是通过科学的指标监测、分析与优化,实现“拉新、促活、留存、转化、复购 ...
2026-04-15