构造决策树需要解决的第一个问题就是,当前数据集那个特征在划分数据时起决定性作用。为了找到这个特征,需要对所有的特征进行评估。(1)选择一个决定性特征,将训练数据集分成子集,这些子集分布在第一个决策点的分支上。(2)如果某个分支上的子集属于同一类,则说明这个子集在当前条件下是最好的分类,不需要再进行分割。(3)如果某个分支上的子集不属于同一类,说明子集不能够被正确的分类,那么就对这些子集选择新的特征
liting李
2021-02-25
留存率:是用户分析的核心指标之一。它也是经典的AARRR模型(海盗模型)中就有一个重要节点——留存(Acquisition)。常见的留存率有次日留存、三日留存、7日留存、14日留存、30日留存、90日留存等等,不同产品用户行为的频率是有差别的,留存率的设定也应该视不同产品而定,有些低频的产品用周或月的颗粒度就够了。留存率计算逻辑:假如某日新增了100个用户,第二天登录了50个,则次日留存率为50/
liting李
2021-02-25
这是因为在安装软件时,杀毒软件对所安装的文件在扫描,关闭杀毒软件,不需要扫描病毒也就快了。可以根据以下步骤设置解决装软件时速度慢。一、关闭3601、右键电脑桌面右下角的360杀毒。2、点击退出二、关闭杀毒软件。右键关闭即可。
liting李
2021-02-25
问:"\n"应该占1个字符,这里\n怎么是两个占位符呢答:以文本方式打开文件时,字符串写到文件时'\n'被转成两个字符(0xd,0xa)以二进制方式打开文件时,字符串写到文件时'\n'只是一个字符(0xa)写到文件。
liting李
1周前
气泡颜色在scater函数里添加color=colors参数,大小用s参数。下面是源代码:原图展示结果如下:对气泡修改气泡大小和颜色,可以将N随机数数组提供给颜色图,以获取N随机色,然后在调用plt.scatter时将其用作color自变量。 color可以是长度与大小和填充列表相同的颜色列表,它们将分别为每个散布点着色。结果展示:
liting李
1周前
这要看原假设是怎么个问法,本质上就是考虑问题的角度;比如问平均体重是不是50Kg,这就是双边的,它是个不等号;如果问是否小于50Kg,那就是右侧检验;如果问是否大于50K个,那就是左侧检验.总之,原假设的反面是怎么样,就怎么叫.
liting李
1周前
以sql server为例;A0101为姓名字段,代码如下:select COUNT(A0101) from a01 where (A0101 like '王%') or (A0101 like '李%')
liting李
1周前
将矩阵做初等行变换后,非零行的个数叫行秩将其进行初等列变换后,非零列的个数叫列秩矩阵的秩是方阵经过初等行变换或者列变换后的行秩或列秩矩阵的秩一般有2种方式定义1. 用向量组的秩定义矩阵的秩 = 行向量组的秩 = 列向量组的秩2. 用非零子式定义矩阵的秩等于矩阵的最高阶非零子式的阶单纯计算矩阵的秩时, 可用初等行变换把矩阵化成梯形梯矩阵中非零行数就是矩阵的秩
liting李
1周前
在某个确定条件下,另一个变量的熵,相当于在之前的基础上增加了信息,确定性会增加,熵会减小,增加了多少信息呢?其实这就是信息增益(互信息)的概念:信息量增加了多少?信息增益:gain(X) = H(X) - H(x|y)而且H(x|y) <= H(x)注意:H(x|y) 叫做条件熵,但并不是条件概率p(x|y)的熵,因为p(x|y)不是概率分布!!!以掷硬币为例:计算一下所有的概率和为2,并不是1,
liting李
1周前
用describe函数中的include=["object"]参数就可以实现。df.describe(include=["object"])
liting李
1周前
对于两个独立事件 A 与 B 有P(A|B) = P(A)以及P(B|A) = P(B)换句话说,如果 A 与 B 是相互独立的,那么 A 在 B 这个前提下的条件概率就是 A 自身的概率;同样,B 在 A 的前提下的条件概率就是 B 自身的概率。那么只需要简单的举个反例就好了P(X=-1,Y=-1) =1/8,P(X=-1)=3/8;P(Y=-1)=3/8那么P(X=-1|Y=-1)=P(X=-
liting李
1周前
这里的split里用一个英文下的引号就可以了。上图多写了一个。split()函数语法:str.split(str="",num=string.count(str))[n]参数说明:str:表示为分隔符,默认为空格,但是不能为空('')。若字符串中没有分隔符,则把整个字符串作为列表的一个元素num:表示分割次数。如果存在参数num,则仅分隔成 num+1 个子字符串,并且每一个子字符串可以赋给新的变
liting李
1周前
Power View 是一种数据可视化技术,用于创建交互式图表、图形、地图和其他视觉效果,以便直观呈现数据。 Power View 在 Excel、BI SharePoint、SQL Server 和 Power BI 中均可用。在 Power View中,可以快速创建各种可视化效果,从表格和矩阵到饼图、条形图和气泡图,以及多个图表的集合。要创建各种可视化效果,请首先从表格开始着手,表格可以轻松转
liting李
1周前
1 删除相关配置(比较耗时,赶时间的可以跳过)分别运行下列命令(提示的时候选择 “y” ):conda install anaconda-clean1运行结果大致如下图:anaconda-cleanrm -r /Users/scottyuan/.anaconda_backup/。。。。。。2 删除文件夹rm -rf /anaconda33 删除环境变量终端输入下列命令:vi ~/.bash_pro
liting李
1周前
这是因为mysql的服务没有开启,开启方法为:我的电脑 管理 服务和程序 服务,找到mysql,右键开启服务如果开启后workbench还是显示无连接,那么进行如下两步:1、重启workbench,重启后一般能解决。2、重启workbench还显示没连接,那么开启服务后重启电脑,再次打开workbench就行了。
liting李
1周前
其实都可以,看个人的使用习惯。我个人更推荐直接在PowerBI Desktop中学习,理由如下:PowerBI Desktop界面更友好,逼格更高PowerBI Desktop更新速度快,几乎每月都有更新,最新的M函数和DAX函数随时可以调用进行数据处理的最终目标是生成可视化报告,发现有趣的见解,这在PowerBI Desktop中整个流程一气呵成,且图表库和便捷性要完爆Excel。
liting李
1周前