cda

数字化人才认证

首页 > 行业图谱 >

Python 中pandas dataframe 最大能处理多少行?
2023-04-25
Python中的pandas是一个非常受欢迎的数据分析库,它提供了许多功能强大的工具来处理和分析大型数据集。其中最重要的就是DataFrame对象,它可以将数据组织成类似于表格的结构,方便用户进行各种操作。那么,Python中 ...
Spark排序的原理?
2023-04-18
Spark是一款开源的分布式计算框架,支持运行在集群中的大规模数据处理任务。在Spark中,排序是一项非常重要的操作,它能够让我们更加高效地处理和分析大量数据。本文将探讨Spark排序的原理以及其实现方式。 Spark排 ...
Structured Streaming 和 Flink 对比有什么优劣势呢?
2023-04-10
Structured Streaming和Flink都是现代流数据处理框架,它们在分布式计算、实时数据处理、容错性以及操作API等方面都有着相似之处。然而,它们也有一些显著的不同点。在本文中,我们将比较Structured Streaming和Flin ...
当tensorflow模型超过单张显卡显存的时候,应该怎么拆分到多个GPU上运行?
2023-04-07
在深度学习模型训练过程中,往往需要处理大量的数据和参数,进而需要较大的计算资源支持。然而,单张显卡的显存有限,当模型过于复杂或者数据集过于庞大时,会导致无法将整个模型同时加载到显存中进行训练。为了充分 ...
请问Hadoop、Spark、Storm、Flink的区别是什么?分别适用什么场景?
2023-04-07
Hadoop、Spark、Storm与Flink是四种流行的大数据处理框架。它们都可以用于处理海量数据和实现分布式计算,但在细节上有所不同。本文将对这四个框架进行比较,并探讨它们适用的不同场景。 Hadoop Hadoop是一个由Apach ...
TensorFlow和spark的ml以及python的scikit-learn 三者的区别是什么?
2023-04-07
TensorFlow, Spark的ML和Python的Scikit-learn是三种不同的机器学习工具,它们各自有其独特的特点和优势。以下是它们之间的主要区别。 TensorFlow TensorFlow是由Google开发的一个基于图形计算的深度学习框架。它 ...
如何理解大数据分析师?
2023-04-07
大数据分析师,顾名思义,就是利用大数据技术和方法来进行数据分析的专业人士。大数据分析师的工作,可以从以下几个方面来理解: 大数据分析师的目标:大数据分析师的目标是利用海量、多样、快速变 ...
为什么 spark 2.0 底层通信不用 Akka 而转用 netty ?
2023-04-03
Apache Spark是一个分布式计算框架,设计初衷是为了处理大规模数据集的计算。随着越来越多的企业开始采用Spark进行数据处理和分析,其性能和可靠性变得越来越重要。在这种情况下,底层通信的效率和鲁棒性成为了至关 ...
如何看待HTAP数据库在企业的应用,云数据库HybridDB for MySQL 如何解决业务痛点?
2023-03-31
随着数字化转型的推进,企业对数据库的需求也在不断提高。而传统的OLTP(在线事务处理)数据库和OLAP(在线分析处理)数据库并不能满足企业的需求。这时,HTAP(混合事务/分析处理)数据库应运而生。HTAP数据库既可 ...
数据分析师需要学哪些内容
2023-03-28
数据分析师是一个关键的职业,因为他们可以使用各种工具和技术来分析和挖掘数据,为企业的决策提供支持。在当今快速发展的数字时代,数据分析师的需求量也在不断增加,特别是在机器学习和人工智能技术的推动下,数 ...
如何通俗地理解Hive的工作原理?
2023-03-23
Hive是一个基于Hadoop的数据仓库工具,可以让用户通过类SQL语言查询和分析大规模的分布式数据集。下面将介绍Hive的工作原理及其通俗易懂的解释。 首先,我们需要了解Hadoop和MapReduce的概念。Hadoop是一个开源的分 ...
MapReduce和Spark的区别是什么?
2023-03-23
MapReduce和Spark是两个广泛使用的分布式计算框架,用于处理大规模数据。虽然它们都可以在大数据集合上运行,但它们之间有一些关键区别。 MapReduce最初由Google开发,旨在通过分布式计算来处理大数据集。它将任务分 ...
HBase 和 Hive 的差别是什么,各自适用在什么场景中?
2023-03-22
HBase和Hive都是在Hadoop生态系统中常用的数据存储和分析工具,它们各自具有独特的特点和适用场景。本文将从以下几个方面探讨HBase和Hive的差别和使用场景。 数据模型 HBase是一种基于列族的NoSQL数据库,它以行为 ...

什么是数据科学

什么是数据科学
2022-10-18
什么是数据科学?它和已有的信息科学、统计学、机器学习等学科有什么不同?作为一门新兴的学科,数据科学依赖两个因素:一是数据的广泛性和多样性;二是数据研究的共性。现代社会的各行各业都充满了数据,这些数据 ...
成为一名数据科学家后,我的学习道路发生了怎样的变化
2022-02-28
我对数据科学的热情始于大约两年半前。我在做一份与数据科学无关的工作。对我来说,转行是一个很大的挑战,因为我有很多东西要学。 经过两年的学习和奉献,我终于找到了第一份数据科学家的工作。当然,我 ...
为什么以及如何学习“生产性数据科学”?
2022-02-28
数据科学和机器学习可以以不同程度的效率和生产力进行实践。无论应用领域或专业,数据科学家--初学者或经验丰富的专业人员--都应努力提高他/她在典型数据科学任务的所有方面的效率, 统计分析, ...
数据职业不是一刀切的!在数据空间中发现理想角色的提示
2022-02-28
自2012年《哈佛商业评论》将数据科学家评为“21世纪最性感的工作”以来,似乎每个人和他们的母亲都在争先恐后地发展他们的数据科学技能。 而且是有充分理由的!根据2021年Robert Half Technology薪资指南, ...

顶级编程语言及其用途

顶级编程语言及其用途
2022-02-15
编程语言的前景是丰富且不断扩展的,这可能会让你在职业生涯中很难只关注其中一种语言。我们重点介绍了一些最流行的语言,这些语言是现代的、广泛使用的,并且附带了大量的软件包或库,它们将帮助您提高工作效率。 ...

智能“三反”模型开发

智能“三反”模型开发
2021-09-06
道——三类行为者的成本——收益分析 这次我们聊聊“违规识别”模型,在有的行里也被称为“三反”模型。这类模型的一个共同特点是获得明确标签(Y)的成本很高、主要特征提取自交易(有动帐)和行为(无动帐) ...

CDA Level Ⅲ 数据分析认证考试模拟题库(第十一期)

CDA Level Ⅲ 数据分析认证考试模拟题库(第十一期)
2021-08-11
嗨喽,各位同学又到了公布CDA数据分析师认证考试Level Ⅲ的模拟试题时间了,今天给大家带来的是模拟试题(一)中的56-60题。(单选题) 不过,在出题前,要公布上一期Level Ⅲ 中51-55题的答案,大家一起来看! ...

OK