cda

数字化人才认证

首页 > 行业图谱 >

123 2/3

spark入门必读:核心概念介绍及常用RDD操作

spark入门必读:核心概念介绍及常用RDD操作
2020-07-13
作者:肖冠宇 来源:大数据DT(ID:hzdashuju) 内容摘编自《企业大数据处理:Spark、Druid、Flume与Kafka应用实践》 导读:Spark是由加州大学伯克利分校AMP实验室开源的分布式大规模数据处理通用引擎,具 ...
数据倾斜解决优化方法有哪些?
2020-07-02
数据分析时,数据量大不可怕,可怕的是数据倾斜。当出现数据倾斜时,小量任务耗时远高于其它任务,从而使得整体耗时过大,未能充分发挥分布式系统的并行计算优势。下面小编就给大家分享几种数据倾斜优化的方法,希 ...

Hadoop:伪分布模式参数配置指南

Hadoop:伪分布模式参数配置指南
2020-06-04
Hadoop通过改变其配置文件来更改运行模式,我们通过修改如下四个配置文件core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml即可让Hadoop以伪分布模式运行。 Hadoop的配置文件是 xml 格式,每个配 ...

使用python构建一个推荐系统需要几步?

使用python构建一个推荐系统需要几步?
2020-05-29
在我看来,作为一位中国人的我们不管做什么决定都在面临多种选择。例如,如果我这个时候想要买一本书,但是我却不知道我想看什么书、不知道类型、不知道方向,那么这个时候打开各种进行软件搜索可能会出现各种各样 ...

Mapreduce的主要功能有哪些?

Mapreduce的主要功能有哪些?
2020-05-13
Mapreduce是种编程模型,结合了概念\"Map(映射)\"和\"Reduce(归约)\",用于大规模数据集(大于1TB)的并行运算。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统 ...

千亿数据优化,如何绕过数据倾斜这头拦路虎?

千亿数据优化,如何绕过数据倾斜这头拦路虎?
2020-04-21
作者:dantezhao 前言: 数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎。 迈的过去,将 ...

8个计算机视觉深度学习中常见的Bug

8个计算机视觉深度学习中常见的Bug
2019-12-11
作者 | Arseny Kravchenko 编译 | ronghuaiyang 人是不完美的,我们经常在软件中犯错误。有时这些错误很容易发现:你的代码根本不能工作,你的应用程序崩溃等等。但是有些bug是隐藏的,这 ...

机器学习的敲门砖:kNN算法(中)

机器学习的敲门砖:kNN算法(中)
2019-10-17
作者 | Japson 来源 | 木东居士 0x01 前言 在《机器学习的敲门砖:kNN算法(上)》中,我们了解了非常适合入门机器学习的算法:k近邻算法。 我们学习了kNN算法的流程,并且在jupyter ...

Python random模块(获取随机数)常用方法和使用例子

Python random模块(获取随机数)常用方法和使用例子
2018-08-09
Python random模块(获取随机数)常用方法和使用例子 这篇文章主要介绍了Python random模块(获取随机数)常用方法和使用例子,需要的朋友可以参考下 random.random random.random()用 ...

Python中random模块生成随机数详解

Python中random模块生成随机数详解
2018-08-08
Python中random模块生成随机数详解 本文给大家汇总了一下在Python中random模块中最常用的生成随机数的方法,有需要的小伙伴可以参考下 Python中的random模块用于生成随机数。下面介绍一下random模块中 ...

python中的随机函数random的用法示例

python中的随机函数random的用法示例
2018-07-30
python中的随机函数random的用法示例 一、random模块简介 Python标准库中的random函数,可以生成随机浮点数、整数、字符串,甚至帮助你随机选择列表序列中的一个元素,打乱一组数据等。 二、random模 ...

神经网络从原理到实现

神经网络从原理到实现
2018-07-25
神经网络从原理到实现 1.简单介绍     在机器学习和认知科学领域,人工神经网络(artificial neural network,缩写ANN),简称神经网络(neural network,缩写NN)或类神经网络,是一种模仿生 ...

Hadoop常见问题解答

Hadoop常见问题解答
2018-07-23
Hadoop常见问题解答 (1)Hadoop适不适用于电子政务?为什么? 电子政务是利用互联网技术实现政府组织结构和工作流程的重组优化,建成一个精简、高效、廉洁、公平的政府运作信息服务平台。因此电子政务 ...

Python生成随机数组的方法小结

Python生成随机数组的方法小结
2018-07-03
Python生成随机数组的方法小结 本文实例讲述了Python生成随机数组的方法。分享给大家供大家参考,具体如下: 研究排序问题的时候常常需要生成随机数组来验证自己排序算法的正确性和性能,今天把Python生成随机 ...

机器学习中的特征选择

机器学习中的特征选择
2018-03-21
机器学习中的特征选择 特征选择是一个重要的数据预处理过程,获得数据之后要先进行特征选择然后再训练模型。主要作用:1、降维 2、去除不相关特征。 特征选择方法包含:子集搜索和子集评价两个问题。 子集搜 ...

Python常用随机数与随机字符串方法实例

Python常用随机数与随机字符串方法实例
2018-01-21
Python常用随机数与随机字符串方法实例 这篇文章主要介绍了Python常用随机数与随机字符串方法实例,本文讲解了随机整数、随机选取0到100间的偶数、随机浮点数、随机字符串等常用随机方法,需要的朋友可以参考下 ...
python实现获取序列中最小的几个元素
2017-11-19
python实现获取序列中最小的几个元素 本文实例讲述了python实现获取序列中最小的几个元素。分享给大家供大家参考。 具体方法如下:    import heapq import random def issorted(data): ...
Python生成随机数的方法
2017-10-19
Python生成随机数的方法 如果你对在Python生成随机数与random模块中最常用的几个函数的关系与不懂之处,下面的文章就是对Python生成随机数与random模块中最常用的几个函数的关系,希望你会有所收获,以下就是这 ...

做大数据必须了解的多种处理框架

做大数据必须了解的多种处理框架
2017-10-01
做大数据必须了解的多种处理框架 本文将介绍大数据系统一个最基本的组件:处理框架。处理框架负责对系统中的数据进行计算,例如处理从非易失存储中读取的数据,或处理刚刚摄入到系统中的数据。数据的计算则是指 ...
python进阶_浅谈面向对象进阶
2017-09-12
python进阶_浅谈面向对象进阶 学了面向对象三大特性继承,多态,封装。今天我们看看面向对象的一些进阶内容,反射和一些类的内置函数。 一、isinstance和issubclass  class Foo:  pass   cl ...
123 2/3

OK