数据科学专业问答社区，好文章，一字千金--CDA答疑社区

error：not found: value sc

启动spark-shell 执行 val sqlHiveContext = new HiveContext(sc)语句时报错:如图这是因为shell启动时没有初始化sparkContext，修改conf/spark-env.sh文件，添加如下内容： export SPARK_LOCAL_IP="192.168.23.131" 把 192.168.23.131 改成自己的ip即可之后重新

大魔王泛泛

2020-05-07

24.9187 2 1

CentOS7中怎样修改文件夹权限？

使用root用户执行 chown -R hduser:hduser conf 再切换到hduser用户执行chmod -R 777 conf

大魔王泛泛

2020-05-05

53.1304 2 1

GMM和K-Means相比有哪些异同点

高斯混合模型（GMM）与K-Means算法的相同点是： 1.它们都是可用于聚类的算法 2.都需要指定K值 3.都是使用EM算法来求解 4.都往往只能收敛于局部最优而GMM相比于K-Means算法的优点是，可以给出一个样本属于某类的概率是多少；不仅仅可以用于聚类，还可以用于概率密度的估计；并且可以用于生成新的样本点

大魔王泛泛

2020-04-30

88.2751 2 1

conda install 错误信息：An HTTP error occurred when trying to retrieve this URL

这是因为我们 conda install 时默认连接的是国外的镜像源而从国外下载速度极慢，导致报错我们为Anaconda配置一下国内的镜像源就可以解决了执行代码如下： conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ conda config --set show_ch

大魔王泛泛

2020-04-30

77.3248 1 5

简述一下正则表达式中re.sub函数中各参数的含义

re.sub 用于替换字符串的匹配项。如果没有匹配到规则，则原字符串不变 re.sub(pattern, repl, string, count=0, flags=0) 第一个参数：匹配规则第二个参数：替换后的字符串第三个参数：字符串第四个参数：替换个数。默认为0，表示每个匹配项都替换

大魔王泛泛

2020-04-25

3.0390 2 1

概述一下随机森林中随机的意思

随机森林中随机是核心，通过随机的选择样本、特征，降低了决策树之间的相关性随机森林中的随机主要有两层意思，一是随机在原始训练数据中有放回的选取等量的数据作为训练样本，二是在建立决策树时，随机的选特征中选取一部分特征建立决策树这两种随机使得各个决策树之间的相关性小，进一步提高模型的准确性

大魔王泛泛

2020-04-23

0.0254 1 3

经典统计学理论与机器学习最大的不同是什么

经典统计学理论是概率论与统计方法，机器学习本质是一种优化问题

大魔王泛泛

2020-04-22

0.0195 1 2

概述一下什么是多重共线性？

回归中的多重共线性是一个当模型中一些预测变量与其他预测变量相关时发生的条件，严重的多重共线性可能会产生问题，因为它可以增大回归系数的方差，使它们变得不稳定。简单来说，就是指多元回归分析中各个自变量之间存在的相关关系可能会导致建立错误的回归模型以及得出使人误解的结论的问题

大魔王泛泛

2020-04-22

0.0195 1 0

概述一下最大熵模型的思想是什么？

最大熵模型认为，学习概率模型时，在所有可能的概率模型中，熵最大的模型是最好的模型。若模型要满足一些约束条件时，则最大熵原理就是在满足已知条件的概率模型集合中，找到熵最大的模型。因而最大熵模型指出，在预测一个样本或者一个事件的概率分布时，首先应当满足所有的约束条件，进而对未知的情况不做任何的主观假设。在这种情况下，概率分布最均匀，预测的风险最小，因此得到的概率分布的熵是最大

大魔王泛泛

2020-04-21

2.1518 2 2

描述一下什么是独热编码？

独热编码，又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。即，只有一位是1，其余都是零值例如： sex: [man, women] => [0,1] city: [beijing, shanghai. hangzhou] => [0,1,2] 按照N位状态寄存器来对N个状态进行编码的原理： sex: man =>

大魔王泛泛

2020-04-21

2.1518 2 0

Jupyter Notebook和Pycharm的适用场景分别是什么？

Jupyter Notebook是一个交互式笔记本，支持运行 40 多种编程语言，其本质是一个 Web 应用程序，便于创建和共享文学化程序文档，支持实时代码，数学方程，可视化和markdown，用途包括:数据清理和转换，数值模拟，统计建模，机器学习等 Pycharm集成开发环境（IDE）是提供给程序员和开发者的一种基本应用，用来编写和测试软件，通常能够通过 GUI（图形界面）来操作，如果你是we

大魔王泛泛

2020-04-20

81.0185 5 3

SparkContext和SparkSession有什么区别

SparkContext、SparkSession是对Spark计算集群的一个连接，当我们通过shell启动Spark时，会默认创建，如SparkContext会默认创建一个命名为sc的实例 SparkContext是使用spark功能的入口点，主要用于创建和操作RDD SparkSession是Spark2.x后引入的概念，在2.x之前，对于不同的功能，需要使用不同的Context 如：创建和

大魔王泛泛

2020-04-20

21.5040 3 1