刚才的思考过程我只考虑“频次”这种属性。在真实的机器学习中,这可能都不算是一个应用。一般的机器学习模型至少考虑两个量:一个是因变量,也就是我们希望预测的结果,在这个例子里就是小Y迟到与否的判断。另一个是自变量,也就是用来预测小Y是否迟到的量。假设我把时间作为自变量,譬如我发现小Y所有迟到的日子基本都是星期五,而在非星期五情况下他基本不迟到。于是我可以建立一个模型,来模拟小Y迟到与否跟日子是否是星
atsyh
2023-08-24
机器学习这个词是让人疑惑的,首先它是英文名称Machine Learning(简称ML)的直译,在计算界Machine一般指计算机。这个名字使用了拟人的手法,说明了这门技术是让机器“学习”的技术。但是计算机是死的,怎么可能像人类一样“学习”呢? 传统上如果我们想让计算机工作,我们给它一串指令,然后它遵照这个指令一步步执行下去。有因有果,非常明确。但这样的方式在机器学习中行不通。机器学习根本不接受
atsyh
2023-08-24
一般来说,当我们拿到一个实际问题时,首先会根据问题的背景结合常识选择一个合适的模型。同时,现在常识告诉我们房价的增长更优先符合线性回归这类模型,因此可以考虑建立一个如下的线性回归模型y=h(x)=wx+b其中�w叫权重参数(Weight),b�叫偏置(Bias)或者截距(Intercept)。当求解得到未知参数�,�之后,也就意味着我们得到了这个预测模型,即给定一个房屋面积�,就能够预测出其对应的
atsyh
2023-08-24
通常来说,机器学习中的每一个算法都是为了解决某一类问题而诞生。换句话说,也就是在实际情况中存在一些问题能够通过线性回归来解决,例如对房价的预测。但是有人可能会问,为什么对于房价的预测就应该用线性回归,而不是其它算法呢?其原因就在于常识告诉我们房价都是随着面积的增长而增长,且总体上呈线性增长的趋势。那有没有那种当面积大到一定程度后价格反而降低,因此不符合线性增长的呢?这当然也可能存在,但在实际处理中
atsyh
2023-08-24
一、大数据技术栈之前有同事问我怎么转大数据开发,他在网上搜了一堆大数据相关的技术,但是不知道从哪里开始入门,也不知道要学习哪些技术,这些技术栈之间的关系是什么。我一开始转大数据的时候也有点懵逼,整体接触了一遍之后才把大数据技术栈给弄明白了。做大数据开发,无非要干四件事情,采集、存储、查询、计算。此外,一些开发必备的基础语言能力是需要的。我按照这几个维度,对大数据常见技术栈做了下划分。基础能力jav
atsyh
2023-08-23
数组自身有哪些函数可操作:In [39]: len(arr4) #返回数组有多少行Out[39]: 3 In [40]: arr3Out[40]:array([[ 0, 0, 0, 3],[ 5, 8, 13, 21],[ 34, 55, 89, 144]]) In [41]: arr4Out[41]:array([[ 1, 2, 3, 4],[ 5, 6,
atsyh
2023-08-09
当一个数组构建好后,我们看看关于数组本身的操作又有哪些属性和函数:In [24]: arr3Out[24]:array([[ 1, 1, 2, 3],[ 5, 8, 13, 21],[ 34, 55, 89, 144]]) In [25]: arr3.shape #shape方法返回数组的行数和列数Out[25]: (3, 4) In [26]: arr3.dtype
atsyh
2023-08-09
numpy中使用array()函数创建数组,array的首个参数一定是一个序列,可以是元组也可以是列表。一维数组的创建可以使用numpy中的arange()函数创建一维有序数组,它是内置函数range的扩展版。In [1]: import numpy as npIn [2]: ls1 = range(10)In [3]: list(ls1)Out[3]: [0, 1, 2, 3, 4, 5, 6,
atsyh
2023-08-09
一、生成歌词词云首先我们需要先获取所有爬取到的歌曲的歌词,将他们合成字符串随后提取其中的中文,再合成字符串text = re.findall('[\u4e00-\u9fa5]+', lyric, re.S) # 提取中文text = " ".join(text)12之后使用jieba进行分词,并将其中分出来的长度大于等于2的词保存word = jieba.cut(text, cut_all=Tr
atsyh
2023-08-09
MAC版本:10.15MySQL版本:8.0.21secure_file_priv的取值决定是否可以导出或导入文件添加my.cnf导入导出文件会出现无法导入导出,因为secure_file_priv的值为NULLmysql> show variables like "secure_file_priv";因此需要在my.cnf文件中修改secure_file_priv的值secure_file_pr
atsyh
2023-08-09
# 查询每个商品的浏览量、成交量、转化率select * from userbehavior_new;select item_id, sum(if(behavior_type='pv',1,0)) as 浏览量, sum(if(behavior_type='buy',1,0)) as 成交量, sum(if(behavior_type='buy',1,0))/s
atsyh
2023-07-20
每个用户r消费时间间隔、f消费频次、m消费金额# 每个用户r消费时间间隔、f消费频次、m消费金额select user_id, datediff(date('2014-12-19'),max(日期)) as r, count(*) as f, sum(amount) as mfrom userbehavior_newwhere behavior_type
atsyh
2023-07-20
# 查询多少类商品贡献了80%的销售额select item_category, sum(amount) as 销售额, sum(sum(amount))over(order by sum(amount) desc) as 累计销售额 sum(sum(amount))over(order by sum(amount) desc)/(select sum(
atsyh
2023-07-20
新增/次日/七日/三十日留存情况:以用户id和日期分组后,min()作为开窗函数得到每名用户的新增日日期,然后将排好序的日期字段和firstday字段的日期数据相减(利用datediff),得到相差天数,以此为子表,用sum()if()聚合判断,并以新增日为分组条件,得到每日的留存,再除以新增日,得到各个日期的留存率。select firstday, sum(if(diff=0,1,
atsyh
2023-07-20
每一天的用户行为数,要注意在日期和行为分组后,对用户id进行去重计数。# 查询每一天的用户行为数select 日期, behavior_type, count(distinct(user_id)) as 用户行为数from userbehavior_newgroup by 日期,behavior_typeorder by 日期,behavior_type desc;查询
atsyh
2023-07-20
流量分析相关指标,每日相对简单,但需要补充的是uv(独立访客),uv就是纯人数,不考虑访客的行为,使用相关的聚合函数即可得到每日流量分析# 每日PV、UV、人均浏览量、成交量、成交额select 日期, sum(if(behavior_type = 'pv',1,0))as PV, count(distinct(user_id)) as UV,
atsyh
2023-07-20
使用Python中的matplotlib库和seaborn库来画频率分布直方图,并设置组距和画核密度使用Python中的matplotlib库和seaborn库来画频率分布直方图,并设置组距和画直方图外廓曲线,Python实现:# 已经有一个名为df的pandas DataFrame,包含了您的数据 # 计算直方图的频数和组距bins=list(range(463, 583, 8)) # 计算频率
atsyh
2023-07-18
这是一个对pdf文件一分一段表数据进行分析的项目分享首先利用pdfplumber这个库,用page.extract_tables识别并提取pdf中的表格数据,用pdf.pages来获得第7页的数据并存储在空列表中,循环遍历后将列表中的每个部分数据的数据类型变成dataframe,再将该页的数据连接成一个大的dataframe,然后保存为csv文件,再将第八页数据加入,mode设为a,将第八页数据也
atsyh
2023-07-18
Cda数据分析——Sql淘宝案例中的个体商业数据指标查询select * from userbehavior_new;select user_id,max(amount) 最大金额,min(amount) 最小金额,count(*) 消费次数,sum(amount) 消费总额from userbehavior_newwhere behavior_type = 'buy'group by user_
atsyh
2023-07-18
Sql淘宝案例中的电商零售类型总体数据的几个常用指标和思考逻辑主要的几个指标是从人 货 场 三个方面考虑人包括用户和员工,货就是产品,场就是场景,在淘宝案例有限的数据中可以得到电商平台几大指标,并使用sql中的标量子查询灵活得到-- 销售额,下单人数,销量,动销商品数,动销品类数,人均销售额,人均销量,下单人数占比,动销商品率(品类率)附代码:select sum(amo
atsyh
2023-07-18