京公网安备 11010802034615号
经营许可证编号:京B2-20210330
作者:俊欣
来源:关于数据分析与可视化
有时候我们在进行模型的训练与优化的时候,是需要基于现有的数据集来操作的,要是数据量比较充足的情况下倒是还好说,但是要是遇到数据量不够的情况,该怎么办呢?今天小编就给大家来介绍几个方法来处理这种情况。
Python当中的Faker模块主要是用来生成伪数据,包括了城市、姓名等等,并且还支持中文,在开始使用该模块之前我们先用pip命令来下载安装完成
pip install faker
我们先随机地生成一些中文数据,代码如下
from faker import Faker
fake = Faker(locale='zh_CN') ## 随机生成一个城市 print(fake.city()) ## 随机生成一个地址 print(fake.address())
output
柳州市 吉林省兴安盟县华龙任街P座 540041
要是我们想要生成其他语言或者地区表示的数据,只需要传入相对应的地区值,这里例举几个常用的,代码如下
fr_FR - French es_ES - Spanish (Spain) en_US - English (United States) de_DE - German ja_JP - Japanese ko_KR - Korean zh_CN - Chinese (China Mainland) zh_TW - Chinese (China Taiwan)
我们可以看到填入的值的模式基本上是语种的缩写加上“_”再加上地区的缩写。
除了可以随机生成例如城市名称以及地址之外等模拟数据,还有很多其他方法可用,这些方法分为以下几类
具体使用的方法大家可以参考其官网,链接是:faker.readthedocs.io/en/master/providers.html
另外我们也可以通过机器学习算法在基于真实数据的基础上生成合成数据,将后者应用于模型的训练上,例如由MIT的DAI(Data to AI)实验室推出的合成数据开源系统----Synthetic Data Vault(SDV),该模块可以从真实数据库中构建一个机器学习模型来捕获多个变量之间的相关性,要是原始的数据库中存在着一些缺失值和一些极值,最后在合成的数据集当中也会有一些缺失值与极值。
而测试表明,合成的数据能够较好地取代真实数据。接下来我们来看一下如何使用吧,首先我们先下载该模块
pip install sdv
我们会用到如下的数据集,
import pandas as pd data = pd.read_csv('data.csv') data.head()
output
接下来的步骤和我们使用sklearn模块时的步骤是类似的,代码如下
from sdv.tabular import GaussianCopula
model = GaussianCopula()
model.fit(data)
无非就是实例化具体的模型,然后将算法模型拟合到数据集中的数据,我们可以尝试生成一些数据
sample = model.sample(200) sample.head()
output
最后我们想要来评估一下模型的性能,看一下新生成的数据和真实数据相比相似性几何,代码如下
from sdv.evaluation import evaluate print(evaluate(sample, data))
output
0.533
相似性的指标范围是“0-1”,“0”意味着是最差的结果,而“1”意味着是最理想的结果,而针对以上评估出来的结果意味着我们后续还需要进一步的参数调优。
随着相关研究的进一步深入,2019年在温哥华举行的第33届神经信息处理系统会议上,另外的研究员提出了新的神经网络Conditional Tabular Generative Adversarial Networks,简称CTGAN,简而言之就是通过生成对抗网络GAN来建立和完善合成的数据表。
对于生成对抗的神经网络GANs而言,其中第一个网络为生成器,而第二个网络为鉴别器,最后生成器产生出来的数据表并没有被鉴别器分辨出其中的差异。接下来我们来看一下其中的步骤。
import pandas as pd
## 这边用到了和前面不一样的数据集 data = pd.read_csv('train.csv') data.head()
output
针对离散型的特征变量,CTGAN模型也可以合成类似的数据,代码如下
discrete_columns = ['week', 'Center_id', 'Meal_id', 'Emailer_for_promotion', 'homepage_featured']
ctgan = CTGANSynthesizer(batch_size=50,epochs=5,verbose=False)
ctgan.fit(data,discrete_columns) ## 将训练好的模型保存下来 ctgan.save('ctgan-food-demand.pkl') ## 生成200条数据集 samples = ctgan.sample(200)
samples.head()
output
我们罗列出需要最后合成来依照的特征变量,上面的例子当中是罗列出了一系列的离散型特征变量,然后我们设定好batch_size、epochs以及verbose参数进行训练,最后我们还是通过相类似的方法来评估模型的性能
from sdv.evaluation import evaluate
evaluate(new_data, data)
本文主要是立足于在机器学习的过程中存在数据量不足的情况,介绍了Faker模块和SDV模块,以及CTGAN模型,通过机器学习和深度学习等手段来生成一些数据供数据科学家使用。因为这些模型也是近年来刚出来属于较为前沿的内容,小编在对其进行表述的时候存在理解有偏差的情况,这里也是建议读者多去上网进行查阅。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11数字化浪潮下,数据已成为企业生存发展的核心资产,而数据思维,正是CDA(Certified Data Analyst)数据分析师解锁数据价值、赋 ...
2026-03-11线性回归是数据分析中最常用的预测与关联分析方法,广泛应用于销售额预测、风险评估、趋势分析等场景(如前文销售额预测中的多元 ...
2026-03-10在SQL Server安装与配置的实操中,“服务名无效”是最令初学者头疼的高频问题之一。无论是在命令行执行net start启动服务、通过S ...
2026-03-10在数据驱动业务的当下,CDA(Certified Data Analyst)数据分析师的核心价值,不仅在于解读数据,更在于搭建一套科学、可落地的 ...
2026-03-10在企业经营决策中,销售额预测是核心环节之一——无论是库存备货、营销预算制定、产能规划,还是战略布局,都需要基于精准的销售 ...
2026-03-09金融数据分析的核心价值,是通过挖掘数据规律、识别风险、捕捉机会,为投资决策、风险控制、业务优化提供精准支撑——而这一切的 ...
2026-03-09在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心工作,是通过数据解读业务、支撑决策,而指标与指标体系 ...
2026-03-09在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05数据治理是数字化时代企业实现数据价值最大化的核心前提,而CDA(Certified Data Analyst)数据分析师作为数据全生命周期的核心 ...
2026-03-05在实验检测、质量控制、科研验证等场景中,“方法验证”是确保检测/分析结果可靠、可复用的核心环节——无论是新开发的检测方法 ...
2026-03-04在数据分析、科研实验、办公统计等场景中,我们常常需要对比两组数据的整体差异——比如两种营销策略的销售额差异、两种实验方案 ...
2026-03-04在数字化转型进入深水区的今天,企业对数据的依赖程度日益加深,而数据治理体系则是企业实现数据规范化、高质量化、价值化的核心 ...
2026-03-04在深度学习,尤其是卷积神经网络(CNN)的实操中,转置卷积(Transposed Convolution)是一个高频应用的操作——它核心用于实现 ...
2026-03-03在日常办公、数据分析、金融理财、科研统计等场景中,我们经常需要计算“平均值”来概括一组数据的整体水平——比如计算月度平均 ...
2026-03-03