
盘点:精选大数据相关用语
这时身处于“大数据时代”的我们,自然得对大数据有所认识,在这里为大家列出了一些经常跟大数据一起出现的陌生用语,认识了这些大数据相关字汇,下次看大数据的相关文章就不会一直“卡”了。
Algorithm演算法
出自于数学用语,在这里指的是在有限步骤内,分析数据的具体方法,而且通常由软件来执行。
AIDC自动识别技术
AIDC(Automatic Identification and Data Capture)是将讯息数据自动识读、自动输入电脑的重要方法和手段,它是以电脑技术和通信技术为基础的综合性科学技术。常见的AIDC例如条码(Bar codes)、磁条(magnetic strips)、生物识别(Biometrics)、RFID等技术。
AWS亚马逊网路服务系统
2006年Amazon开始以Web服务的形式向企业提供各种云端运算服务,包括运算、储存、数据库、分析、应用程式和部署服务。现在许多科学家、开发人员以及各企业的技术人员都在利用AWS (Amazon Web Services)进行大数据分析。
Avro序列化系统
Avro是Hadoop底下的子专案,是一个数据序列化系统(Data serialization system),被设计用来支援大量数据交换。
Behavioral analytics行为分析
行为分析是指用科学方法分析环境刺激与行为之间的因果关系,藉着系统性的观察来了解行为的变化原则,进而有系统的操作刺激,以达到行为的学习、塑造或改变。简单来说,就是用一个有系统的方法去观察、测量、收集客观数据来分析目标的表现行为。
Big Data大数据
大数据(or巨量数据),顾名思义是指大量的资讯,当数据量庞大到数据库系统无法在合理时间内进行储存、运算、处理,分析成能解读的资讯时,就称为大数据。
BI商业智慧
BI (Business Intelligence)指用现代数据仓储技术、线上分析处理技术、数据挖掘进行数据分析,再以图形化的界面或报表呈现以实现商业价值。
Cassandra数据库系统
是Apache软件基金会底下的开源分布式NoSQL数据库系统,适合用来管理巨量的结构化数据,由于其良好的可扩展性和性能,被Digg、Twitter、Hulu、Netflix等知名网站所采用。
CDR详细通联记录
CDRs (Call Detail Record)是电信网路的使用纪录,例如通话时间、通话长度等资讯。CDR是电信业者与企业分析网路营运和客户行为的重要资源。
Clickstream Analytics点击流分析
点击流(Clickstream)就是使用者的在网页间来来去去的点选记录,也可以分成Upstream––进入这个网站的“来源”,以及Downstream——拜访完这个网站之後的“去向”。对于网路行销跟搜寻引擎来说,点击流分析是十分重要的参考。
Cloud Computing云端运算
云端运算(Cloud Computing)是一种将数据、工具及程式放到网际网路上处理的资源利用方式,是一种分散式电脑运算(Distrubted computing)的概念,也就是让网路上不同的电脑同时帮你做一件事,可以大大的增加处理速度。
也因为所有资讯都被放置到网路的虚拟空间里,工程师在绘制示意图时常以一朵云来代表这个虚拟空间,因而有了“云端(Cloud)”一名。
Data Mining数据探勘
顾名思义,就好比在地球上从一堆粗糙的石头中进行地物探勘、寻找有价值的矿脉,数据探勘就是从巨量数据中提取出未知的、有价值的潜在资讯。
Data Modelling数据建模
数据模式(Data Model)在资讯系统中指的是数据如何被表达、储存及取用的方式,包括数据的格式、定义和属性,数据之间的关系,以及数据的限制,而数据模式的设计过程就称为“数据建模”。
Data Visualization数据视觉化
是关于数据之视觉表现形式的研究,数据视觉化的技术可以帮助不同背景的工程人员沟通、理解,以达良好的设计与分析结果。
Data Experts数据专家
数据专家就是能利用数据作出研究评估的专业人士,像是数据分析师、数据科学家、数据架构师等都可以被归类为数据专家。
Exploratory Data Analysis探索式分析
探索式数据分析是指在没有标准流程跟方法的情况下,在现有的数据中找寻数据的结构和特点、探索潜藏于数据中的讯息,这种数据分析方法强调的是探索式的分析而非严谨的模式确认。
Hadoop技术
Hadoop是一个能够储存并管理大量数据的云端平台,为Apache软件基金会底下的一个开放原始码、社群基础、而且完全免费的软件,Hadoop的两大核心功能——储存(Store)及处理(Process)数据所用到的分散式档案系统HDFS跟MapReduce平行运算架构。Hadoop被广泛应用于大数据储存和大数据分析,成为大数据的主流技术。
Internet of Things物联网
物联网(Iots)是一个全球化的网路基础建设,透过数据撷取以及通讯能力以连结实体与虚拟物件,透过网际网路的发展,物连网可透过特定的机制,将所有装置连结在一起,以供控制、侦测、识别,并交换所有的资讯。
NoSQL数据库系统
NoSQL最早是指“No SQL”,号称不使用SQL作为查询语言的数据库系统。但近来则普遍将NoSQL视为“Not Only SQL”,也就是“不只是SQL”的意思,希望结合SQL优点并混用关联式数据库和NoSQL数据库来达成最佳的储存效果。
在巨量数据所带动的潮流下,各种不同形态的NoSQL数据库如雨後春笋般窜起,其中MongoDB是众多NoSQL数据库软件中较为人熟知的一种。
Predictive Analytics预测分析
是指透过预测模型、机器学习、数据挖掘等技术来分析现有和历史的事实数据对未来作出预测的数据分析方法。
R是一个开放原始码统计软件,提供统计计算和绘图功能,类似Matlab跟SAS,而R不但免费而且简单易上手,近年来成为数据科学界里的重要工具。
SaaS软件即服务
SaaS (Software-As-A-Service)是随着网际网路技术和应用软件的成熟而兴起的一种软件应用模式。SaaS提供商将软件统一部署在自己的伺服器上,藉由网路提供软件给客户,所以客户不用购买软件,而是根据需求向提供商订购所需的服务,且客户无需对软件进行维护,服务提供商会全权管理和维护软件;软件厂商在向客户提供网际网路应用的同时,也提供软件的离线操作和本地数据存储,让客户随时随地都可以使用其定购的软件和服务。
对于许多小型企业来说,SaaS是采用先进技术的最好途径,它消除了企业购买、构建和维护基础设施和应用程式的需要。
Terabyte (1 000 000 000 000 Bytes)
TB为兆位元组,是数据量的分级,相当于10^12 bytes。其他数据量分级如下:
Bytes (8 Bits)
Kilobyte (1000 Bytes)
Megabyte (1 000 000 Bytes)
Gigabyte (1 000 000 000 Bytes)
Terabyte (1 000 000 000 000 Bytes)
Petabyte (1 000 000 000 000 000 Bytes)
Exabyte (1 000 000 000 000 000 000 Bytes)
Zettabyte (1 000 000 000 000 000 000 000 Bytes)
Yottabyte (1 000 000 000 000 000 000 000 000 Bytes)
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01CDA 数据分析师:企业数字化转型的核心引擎 —— 从能力落地到价值跃迁 当数字化转型从 “选择题” 变为企业生存的 “必答题”, ...
2025-09-01数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29