启动spark-shell 执行 val sqlHiveContext = new HiveContext(sc)语句时 报错:如图 这是因为shell启动时没有初始化sparkContext,修改conf/spark-env.sh文件,添加如下内容: export SPARK_LOCAL_IP="192.168.23.131" 把 192.168.23.131 改成自己的ip即可 之后重新
大魔王泛泛
2020-05-07
使用root用户 执行 chown -R hduser:hduser conf 再切换到hduser用户 执行chmod -R 777 conf
大魔王泛泛
2020-05-05
高斯混合模型(GMM)与K-Means算法的相同点是: 1.它们都是可用于聚类的算法 2.都需要指定K值 3.都是使用EM算法来求解 4.都往往只能收敛于局部最优 而GMM相比于K-Means算法的优点是,可以给出一个样本属于某类的概率是多少;不仅仅可以用于聚类,还可以用于概率密度的估计;并且可以用于生成新的样本点
大魔王泛泛
2020-04-30
这是因为我们 conda install 时默认连接的是国外的镜像源 而从国外下载速度极慢,导致报错 我们为Anaconda配置一下国内的镜像源就可以解决了 执行代码如下: conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ conda config --set show_ch
大魔王泛泛
2020-04-30
re.sub 用于替换字符串的匹配项。如果没有匹配到规则,则原字符串不变 re.sub(pattern, repl, string, count=0, flags=0) 第一个参数:匹配规则 第二个参数:替换后的字符串 第三个参数:字符串 第四个参数:替换个数。默认为0,表示每个匹配项都替换
大魔王泛泛
2020-04-25
随机森林中随机是核心,通过随机的选择样本、特征,降低了决策树之间的相关性 随机森林中的随机主要有两层意思,一是随机在原始训练数据中有放回的选取等量的数据作为训练样本,二是在建立决策树时,随机的选特征中选取一部分特征建立决策树 这两种随机使得各个决策树之间的相关性小,进一步提高模型的准确性
大魔王泛泛
2020-04-23
回归中的多重共线性是一个当模型中一些预测变量与其他预测变量相关时发生的条件,严重的多重共线性可能会产生问题,因为它可以增大回归系数的方差,使它们变得不稳定。简单来说,就是指多元回归分析中各个自变量之间存在的相关关系可能会导致建立错误的回归模型以及得出使人误解的结论的问题
大魔王泛泛
2020-04-22
最大熵模型认为,学习概率模型时,在所有可能的概率模型中,熵最大的模型是最好的模型。若模型要满足一些约束条件时,则最大熵原理就是在满足已知条件的概率模型集合中,找到熵最大的模型。因而最大熵模型指出,在预测一个样本或者一个事件的概率分布时,首先应当满足所有的约束条件,进而对未知的情况不做任何的主观假设。在这种情况下,概率分布最均匀,预测的风险最小,因此得到的概率分布的熵是最大
大魔王泛泛
2020-04-21
独热编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。即,只有一位是1,其余都是零值 例如: sex: [man, women] => [0,1] city: [beijing, shanghai. hangzhou] => [0,1,2] 按照N位状态寄存器来对N个状态进行编码的原理: sex: man =>
大魔王泛泛
2020-04-21
Jupyter Notebook是一个交互式笔记本,支持运行 40 多种编程语言,其本质是一个 Web 应用程序,便于创建和共享文学化程序文档,支持实时代码,数学方程,可视化和markdown,用途包括:数据清理和转换,数值模拟,统计建模,机器学习等 Pycharm集成开发环境(IDE)是提供给程序员和开发者的一种基本应用,用来编写和测试软件,通常能够通过 GUI(图形界面)来操作,如果你是we
大魔王泛泛
2020-04-20
SparkContext、SparkSession是对Spark计算集群的一个连接,当我们通过shell启动Spark时,会默认创建,如SparkContext会默认创建一个命名为sc的实例 SparkContext是使用spark功能的入口点,主要用于创建和操作RDD SparkSession是Spark2.x后引入的概念,在2.x之前,对于不同的功能,需要使用不同的Context 如:创建和
大魔王泛泛
2020-04-20
在决策树算法中,我们的关键就是每次选择一个特征来划分数据集,信息增益就是特征选择的一个重要指标,它定义为一个特征能够为分类系统带来多少信息,带来的信息越多,说明该特征越重要,相应的信息增益也就越大。
大魔王泛泛
2020-04-17
先说一下决策树,决策树的作用就是一个分类器,通过对特征的选择,划分,对数据进行分类 与决策树不同的是 回归树做的是回归,是对值的回归预测,比如可以通过回归树预测房价,或者预测人的年龄等
大魔王泛泛
2020-04-17
‘NoneType’object has no attribute 'show' 出现这种错误:是因为 sim_df_dis_com这个变量没有赋值成功 重新运行29行代码即可解决
大魔王泛泛
2020-04-16
UDF即用户自定义函数,在Spark Sql的开发中十分常用,UDF对表中的每一行进行函数处理,返回新的值,有些类似与RDD编程中的Map()算子 def是我们定义一个函数或方法的关键字
大魔王泛泛
2020-04-15
出现图中报错信息是因为hdfs上没有放table.csv文件 执行 hdfs dfs -put 本地文件路径 hdfs路径 即可
大魔王泛泛
2020-04-15
在Kafka主目录下执行如下命令: ./bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic test --from-beginning
大魔王泛泛
2020-04-13