大数据-数据科学专业问答社区-CDA答疑社区

热线电话：13121318867

登录

PGC123

lambda函数的使用

在Python语言中除了可以用def语句定义函数外，还可以使用匿名函数lambda。lambda 函数是一种快速定义单行的最小函数。有时我们需要一个函数，又不想动脑筋去想名字，就可以使用匿名函数。Python中Lambda函数定义的语法如下：lambda [parameter_list]: expression关键字lambda表示匿名函数，冒号前面的parameter_list表

0.1902

1

3

0

关注作者

收藏

PGC123

n步能到达顶端。每次可以爬一步或两步，有多少方法？

python编程你正在爬楼梯的情况。需要n个步骤才能到达顶端。每次你可以爬上1或2步。有多少种不同的方法可以爬到顶端？完全没思路，这个要怎么做？首先可以假设有y种爬到顶端的方法，则 y与n之间存在一种函数映射 y = f(n) 已知当 n = 1 则 y = 1当 n = 2 则 y = 2当 n>2时第一步骤可以是走一步或者两步。当第一步骤走一步时有f(n

0.0000

0

1

0

关注作者

收藏

PGC123

python面向对象编程self的用法

在代码里面看到self,self的用法是啥？首先这个问题要从python面向对象的编程模式说起，这里有两个重要概念是类和对象类（英语：class）是一种面向对象计算机编程语言的构造，是创建对象的蓝图，描述了所创建的对象共同的属性和方法。对象是类的实例，类是对象的模板。类中的self类的方法与普通的函数只有一个特别的区别——它们必须有一个额外的第一个参数名称, 按照惯例它的名称是

0.0000

0

1

0

关注作者

收藏

PGC123

中括号里面加循环这是啥意思？

看网上代码的时候，像这种中括号里面出现循环啥意思？列表生成式即List Comprehensions，是Python内置的非常简单却强大的可以用来创建list的生成式。举个例子，要生成list [1, 2, 3, 4, 5, 6, 7, 8, 9,10]可以用list(range(1, 11))：但如果要生成[1x1, 2x2, 3x3, ..., 10x10]怎么做？方法一是循

0.0000

0

2

0

关注作者

收藏

PGC123

mysql如何设置数据库编码格式为UTF-8

1、修改MySql的配置文件MySql的配置文件在Windows下为my.ini，我电脑上的路径如下图所示，需要说明的一点ProgramData是系统文件夹，因此默认是隐藏的，如果找不到需要设置显示隐藏文件在Linux下的路径为 /etc/my.cnf 使用记事本打开配置文件，在 [mysqld] 标签下加上以下内容：default-character-set = utf8ch

0.0000

0

2

0

关注作者

收藏

291294878

spark streaming 读取kafka数据的两种方式

这两种方式分别是：Receiver-base使用Kafka的高层次Consumer API来实现。receiver从Kafka中获取的数据都存储在Spark Executor的内存中，然后Spark Streaming启动的job会去处理那些数据。然而，在默认的配置下，这种方式可能会因为底层的失败而丢失数据。如果要启用高可靠机制，让数据零丢失，就必须启用Spark Streaming的预写

0.0000

0

3

0

关注作者

收藏

291294878

reduceBykey与groupByKey哪个性能好？

RDD中reduceBykey与groupByKey哪个性能好，为什么？ reduceByKey：reduceByKey会在结果发送至reducer之前会对每个mapper在本地进行merge，有点类似于在MapReduce中的combiner。这样做的好处在于，在map端进行一次reduce之后，数据量会大幅度减小，从而减小传输，保证reduce端能够更快的进行结果计算。

0.0000

0

2

0

关注作者

收藏

291294878

HDFS读写数据的过程有哪些？

读：1、跟namenode通信查询元数据，找到文件块所在的datanode服务器2、挑选一台datanode（就近原则，然后随机）服务器，请求建立socket流3、datanode开始发送数据（从磁盘里面读取数据放入流，以packet为单位来做校验）4、客户端以packet为单位接收，现在本地缓存，然后写入目标文件写：1、根namenode通信请求上传文件，namenode检

0.0000

0

0

0

关注作者

收藏

291294878

spark集群运算的模式？

Spark 有很多种模式，最简单就是单机本地模式，还有单机伪分布式模式，复杂的则运行在集群中，目前能很好的运行在 Yarn和 Mesos 中，当然 Spark 还有自带的 Standalone 模式，对于大多数情况 Standalone 模式就足够了，如果企业已经有 Yarn 或者 Mesos 环境，也是很方便部署的。standalone(集群模式)：典型的Mater/slave模式，不过也能

0.0000

0

6

0

关注作者

收藏

291294878

大数据解决方案的关键步骤是什么？

提取数据，存储数据（即数据建模）和处理数据（即数据加工，数据转换和查询数据）。　　提取数据　从各种来源提取数据，例如： RDBM（Relational Database Management Systems）关系数据库管理系统，如Oracle，MySQL等。ERPs（Enterprise Resource Planning）企业资源规划（即ERP）系统，如SAP。CRM（Customer

0.0000

0

2

0

关注作者

收藏

291294878

基于Hadoop的数据中心的好处是什么？

随着数据量和复杂性的增加，提高了整体SLA（即服务水平协议）。例如，“Shared Nothing”架构，并行处理，内存密集型处理框架，如Spark和Impala，以及YARN容量调度程序中的资源抢占。　　缩放数据仓库可能会很昂贵。添加额外的高端硬件容量以及获取数据仓库工具的许可证可能会显著增加成本。基于Hadoop的解决方案不仅在商品硬件节点和开源工具方面更便宜，而且还可以通过将数据转换卸载

0.0000

0

1

0

关注作者

收藏

291294878

什么是Hadoop？

Hadoop是一个开源软件框架，用于存储大量数据，并发处理/查询在具有多个商用硬件（即低成本硬件）节点的集群上的那些数据。总之，Hadoop包括以下内容：　　HDFS（Hadoop Distributed File System，Hadoop分布式文件系统）：HDFS允许你以一种分布式和冗余的方式存储大量数据。例如，1 GB（即1024 MB）文本文件可以拆分为16 * 128MB文件，并存储在

0.0000

0

0

0

关注作者

收藏

291294878

spark的七个参数分别是什么？

• num-executors：该作业总共需要多少executor进程执行建议：每个作业运行一般设置5-~100个左右较合适 • executor-memory：设置每个executor进程的内存， num-executors* executor-memory代表作业申请的总内存量（尽量不要超过最大总内存的1/3~1/2）建议：设置4G~8G较合适

0.0000

0

2

0

关注作者

收藏

291294878

如何理解spark核心-RDD？

Spark核心—RDD( Resilient Distributed Dataset 弹性分布式数据集模型)1.四个特征 – RDD使用户能够显式将计算结果保存在内存中，控制数据的划分 – 记录数据的变换和描述，而不是数据本身，以保证容错 – 懒操作，延迟计算，action的时候才操作 – 瞬时性，用时才产生，用完就释放2.四种构建方法 – 从共享文件

0.0000

0

6

0

关注作者

收藏

291294878

kafka的副本管理怎么解释？

每个broker可以划分为多个partition，partiton可以多于broker数，每个partition有多个副本。为了更好的做负载均衡，Kafka尽量将所有的Partition均匀分配到整个集群上。Kafka分配副本的算法如下：1）将所有Broker（假设共n个Broker）和待分配的Partition排序2）将第i个Partition分配到第（i mod n）个Bro

0.0000

0

0

0

关注作者

收藏

291294878

Hive如何进行采样

当数据量特别大时，对全体数据进行处理存在困难时，抽样就显得尤其重要了。抽样可以从被抽取的数据中估计和推断出整体的特性，是科学实验、质量检验、社会调查普遍采用的一种经济有效的工作和研究方法。Hive支持桶表抽样和块抽样，下面分别学习。桶表抽样所谓桶表指的是在创建表时使用CLUSTERED BY子句创建了桶的表。TABLESAMPLE子句允许用户编写用于数据抽样而不是整个表的查询，该子句出现F

0.0000

0

2

0

关注作者

收藏

291294878

Hive中orderby和sortby排序的区别

Hive基于HADOOP来执行分布式程序的，和普通单机程序不同的一个特点就是最终的数据会产生多个子文件，每个reducer节点都会处理partition给自己的那份数据产生结果文件，这导致了在HADOOP环境下很难对数据进行全局排序，如果在HADOOP上进行order by全排序，会导致所有的数据集中在一台reducer节点上，然后进行排序，这样很可能会超过单个节点的磁盘和内存存储能力导致任务失败

0.0000

0

4

0

关注作者

收藏

291294878

处理离线数据的流程？

一般来说离线分析都是这个流程。各流程概述：1. 数据采集：定制开发采集程序，或使用开源框架FLUME2. 数据预处理：定制开发mapreduce程序运行于hadoop集群3. 数据仓库技术：基于hadoop之上的Hive4. 数据导出：基于hadoop的sqoop数据导入导出工具5. 数据可视化：定制开发web程序或使用kettle等产品6. 整个过程的流程调度：hadoop

35.1788

2

0

0

关注作者

收藏

291294878

Hbase的rowkey(行键)的设计原则？

owkey长度原则rowkey是一个二进制码流，可以是任意字符串，最大长度 64kb ，实际应用中一般为10-100bytes，以 byte[]形式保存，一般设计成定长。建议越短越好，不要超过16个字节，原因如下：1. 数据的持久化文件HFile中是按照KeyValue存储的，如果rowkey过长，比如超过100字节，1000w行数据，光rowkey就要占用100*1000w=10

0.0000

0

2

0

关注作者

收藏

291294878

Hbase和Hive的差别是什么？

Hbase和Hive在大数据架构中处在不同位置，Hbase主要解决实时数据查询问题，Hive主要解决数据处理和计算问题，一般是配合使用。一、区别：1.Hbase： Hadoop database 的简称，也就是基于Hadoop数据库，是一种NoSQL数据库，主要适用于海量明细数据（十亿、百亿）的随机实时查询，如日志明细、交易清单、轨迹行为等2.Hive：Hive是Hadoop数据仓库，严格来

35.8263

3

0

0

关注作者

收藏

<1…717273…75>

CDA考试动态

CDA报考指南