
大数据和深度学习有什么区别
都是 data-driven 的模型,都是学习一种更加 abstract 的方式来表达特定的数据,假设和模型都对特定数据广泛适用。好处是,这种学习出来的表达方式可以帮助我们更好的理解和分析数据,挖掘数据隐藏的结构和关系。
简单来说:
1)深度学习(Deep Learning)只是机器学习(Machine Learning)的一种类别,一个子领域。机器学习 > 深度学习
2)大数据(Big Data)不是具体的方法,甚至不算具体的研究学科,而只是对某一类问题,或需处理的数据的描述
具体来说:
1)机器学习(Machine Learning)是一个大的方向,里面包括了很多种 approach,比如 deep learning, GMM, SVM, HMM, dictionary learning, knn, Adaboosting...不同的方法会使用不同的模型,不同的假设,不同的解法。这些模型可以是线性,也可以是非线性的。他们可能是基于统计的,也可能是基于稀疏的....
不过他们的共同点是:都是 data-driven 的模型,都是学习一种更加 abstract 的方式来表达特定的数据,假设和模型都对特定数据广泛适用。好处是,这种学习出来的表达方式可以帮助我们更好的理解和分析数据,挖掘数据隐藏的结构和关系。
Machine Learning 的任务也可以不同,可以是预测(prediction),分类(classification),聚类(clustering),识别(recognition),重建(reconstruction),约束(regularization),甚至降噪(denoising),超分辨(super-resolution),除马赛克(Demosaicing)等等....
2)深度学习(Deep Learning)是机器学习的一个子类,一般特指学习高层数的网络结构。这个结构中通常会结合线性和非线性的关系。
Deep Learning 也会分各种不同的模型,比如 CNN, RNN, DBN...他们的解法也会不同。
Deep Learning 目前非常流行,因为他们在图像,视觉,语音等各种应用中表现出了很好的 empirical performance。并且利用 gpu 的并行运算,在模型相当复杂,数据特别大量的情况下,依然可以达到很理想的学习速度。
因为 Deep Learning 往往会构建多层数,多节点,多复杂度的模型,人们依然缺乏多里面学习的结构模型的理解。很多时候,Deep Learning 甚至会被认为拥有类似于人类神经网络的结构,并且这种类似性被当做 deep learning 居然更大 potential 的依据。但答主个人认为,其实这略有些牵强...听起来更像是先有了这种 network 的结构,再找一个类似性。当然,这仅仅是个人观点...(私货私货)
3)大数据(Big Data,我们也叫他逼格数据....)是对数据和问题的描述。通常被广泛接受的定义是 3 个 V 上的“大”:Volume(数据量), Velocity(数据速度)还有 variety(数据类别)。大数据问题(Big-data problem)可以指那种在这三个 V 上因为大而带来的挑战。
Volume 很好理解。一般也可以认为是 Large-scale data(其实学术上用这个更准确,只是我们出去吹逼的时候就都叫 big data 了...)。“大”可以是数据的维度,也可以是数据的 size。一般 claim 自己是 big-data 的算法会比较 scalable,复杂度上对这两个不敏感。算法和系统上,人们喜欢选择并行(Parallel),分布(distributed)等属性的方法来增加 capability。
Velocity 就是数据到达的速度。对于数据高速到达的情况,需要对应的算法或者系统要有效的处理。而且数据在时间上可能存在变化,对应的算法或者系统居然做出调整和即时判断,以适应新的数据。这就要求我们提出高效(Efficiency),即时(real-time),动态(dynamic),还有有预测性(predictive)等等....
Variaty 指的是数据的类别。以往的算法或者系统往往针对某一种已知特定类别的数据来适应。而一般大数据也会指针对处理那些 unstructured data 或者 multi-modal data,这就对传统的处理方法带来了挑战。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
LSTM 为何会产生误差?深入剖析其背后的原因 在深度学习领域,LSTM(Long Short-Term Memory)网络凭借其独特的记忆单元设 ...
2025-06-27LLM进入拖拽时代!只靠Prompt几秒定制大模型,效率飙升12000倍 【新智元导读】最近,来自NUS、UT Austin等机构的研究人员创新 ...
2025-06-27CDA 数据分析师:就业前景广阔的新兴职业 在当今数字化时代,数据已成为企业和组织决策的重要依据。数据分析师作为负责收集 ...
2025-06-27探秘 z-score:数据分析中的标准化利器 在数据的海洋中,面对形态各异、尺度不同的数据,如何找到一个通用的标准来衡量数据 ...
2025-06-26Excel 中为不同柱形设置独立背景(按数据分区)的方法详解 在数据分析与可视化呈现过程中,Excel 柱形图是展示数据的常用工 ...
2025-06-26CDA 数据分析师会被 AI 取代吗? 在当今数字化时代,数据的重要性日益凸显,数据分析师成为了众多企业不可或缺的角色 ...
2025-06-26CDA 数据分析师证书考取全攻略 在数字化浪潮汹涌的当下,数据已成为企业乃至整个社会发展的核心驱动力。数据分析师作 ...
2025-06-25人工智能在数据分析的应用场景 在数字化浪潮席卷全球的当下,数据以前所未有的速度增长,传统的数据分析方法逐渐难以满足海 ...
2025-06-25评估模型预测为正时的准确性 在机器学习与数据科学领域,模型预测的准确性是衡量其性能优劣的核心指标。尤其是当模型预测结 ...
2025-06-25CDA认证:数据时代的职业通行证 当海通证券的交易大厅里闪烁的屏幕实时跳动着市场数据,当苏州银行的数字金融部连夜部署新的风控 ...
2025-06-24金融行业的大数据变革:五大应用案例深度解析 在数字化浪潮中,金融行业正经历着深刻的变革,大数据技术的广泛应用 ...
2025-06-24Power Query 中实现移动加权平均的详细指南 在数据分析和处理中,移动加权平均是一种非常有用的计算方法,它能够根据不同数据 ...
2025-06-24数据驱动营销革命:解析数据分析在网络营销中的核心作用 在数字经济蓬勃发展的当下,网络营销已成为企业触达消费者 ...
2025-06-23随机森林模型与 OPLS-DA 的优缺点深度剖析 在数据分析与机器学习领域,随机森林模型与 OPLS-DA(正交偏最小二乘法判 ...
2025-06-23CDA 一级:开启数据分析师职业大门的钥匙 在数字化浪潮席卷全球的今天,数据已成为企业发展和决策的核心驱动力,数据分析师 ...
2025-06-23透视表内计算两个字段乘积的实用指南 在数据处理与分析的过程中,透视表凭借其强大的数据汇总和整理能力,成为了众多数据工 ...
2025-06-20CDA 一级考试备考时长全解析,助你高效备考 CDA(Certified Data Analyst)一级认证考试,作为数据分析师领域的重要资格认证, ...
2025-06-20统计学模型:解锁数据背后的规律与奥秘 在数据驱动决策的时代,统计学模型作为挖掘数据价值的核心工具,发挥着至关重要的作 ...
2025-06-20Logic 模型特征与选择应用:构建项目规划与评估的逻辑框架 在项目管理、政策制定以及社会服务等领域,Logic 模型(逻辑模型 ...
2025-06-19SPSS 中的 Mann-Kendall 检验:数据趋势与突变分析的利器 在数据分析的众多方法中,Mann-Kendall(MK)检验凭借其对数据分 ...
2025-06-19