Hsail

【数据从业成长之路访谈】【一】

数据科学从业三大原则:坚持、投入、改变 默谱科技数据总监李艳导读 在这个知识技术快速迭代的数据科学领域里,要保证自己的技术从业之路“基业长青”,靠的不仅是某些具体技术的精通,更要掌握一些原能力,比如说,坚持的信仰、投入的决心、以及改变

215.9878 15 5
  • 关注作者
  • 收藏
有福有德

核密度工作原理及实现

SAS的KDE过程实现核密度估计,功能及其说明如下:可以对单变量和双变量进行核密度估计,所谓的核(kernel)估计是一种非参数方法,是指从原始数据中观测到的概率密度函数(PDF)——平均的通过数据点,从而创建平滑曲线。 KDE过程使用高斯密度做为核,并假设其方差决定平滑的结果。 其工作原理:选择带宽(bandwith),进而核密度估计,但完成这些工作前提是完成数据的分箱

209.4487 10 7
  • 关注作者
  • 收藏
东方祥

只要2步!将搜狗词库(scel)转为Python可读的文本

将搜狗词库(scel)转化为python可读的文本(text)的方法方法 1. 利用R语言(方法简单)① 载入词库(R语言)library(Rwordseg)# getwd()# setwd("F:/project")##设置目录,需要读者手工调整installDict("./word_library_scel/程序猿词库.scel", dictname ="Coderwo

335.0552 10 0
  • 关注作者
  • 收藏
有福有德

岭回归问题和SPSS的实现

线性回归形式可以表达为 存在岭参数k>=0,如果k=0,β ̂就是最小二乘估计。较大的岭迹参数k将增加估计偏差,但会减小方差,而k存在无穷多个可能,因此,我们需要选择某个k值使估计偏差和方差达到最优平衡。 岭回归方法是一种有偏估计,主要是以损失少部分信息和精度的前提下,拟合更符合实际情况的回归方程。当自变量存在严重共线性时,也许并不一定导致矩阵的行列式等于零,

267.2694 7 1
  • 关注作者
  • 收藏
东方祥

数据汇总:医学数据集及机器学习项目

机器学习医疗数据的策划清单。(此列表仅供参考,请确保您尊重此处列出的任何数据的任何和所有使用限制)1.医学影像数据医学图书馆向13,000名患者注释提供了53,000张医学图像的MedPix®数据库。需要注册。信息:https : //medpix.nlm.nih.gov/homeABIDE:自闭症脑成像数据交换:对自闭症内在大脑结构的大规模评估。539名患有ASD和573名典型对

642.9260 9 2
  • 关注作者
  • 收藏
有福有德

统计变换技术有感

正好刚刚学了点变换技术,希望同仁能给予批评和交流,共同学习。有些公式不好编辑所以截图分享。Spline与MSpline变换变量缺失部分的变换,Spline、MSpline变换与Linear、Monotone、Opscore、Untie的变换相同。变量非缺失部分的变换,即最优变换(Spline变换),为b-spline基向量的线性组合,而b-spline基可以精确(数量少,没有共线性)、有效

883.9545 6 0
  • 关注作者
  • 收藏
yde2016815

Python实现自动化测试

求助各位大佬,用Python实现自动化测试,需要的掌握哪些技能,如是零基础的话,有没有推荐的书籍学习资料和视频课程,谢谢!

394.4235 5 3
  • 关注作者
  • 收藏
逐梦的太阳

统计专业转大数据开发方向,可以从哪些编程语言入门?

本人有统计学背景和海外经历,在读书的时候主要接触到的统计语言是R/SAS/Python(上手经历挺多的),现在在做大数据开发实习,感觉周围的前辈们用的工具我都没太接触过,mentor带着我写一些java的项目和用sql写很基本的语句,但是我自己做了一段时间感觉缺的东西太多(最近在补算法入门)。由于我没有计算机背景,想入门开发领域,看哪些书,学哪些语言可以循序渐进少走弯路呢?

291.2924 5 2
  • 关注作者
  • 收藏
有福有德

共线性及危害

广义上说共线性指的自变量之间的相关性,那么相关性有双变量间的相关,也有多变量间的相关,由此可以进一步区分为共线性和多重共线性。下文首先从共线性的阐述逐步过渡到多重共线性。假设我们需要拟合包含了两个影响因素线性回归,并且假设x_1和x_2的相关系数为r_12, k 表示自变量数。可见参与β ̂计算的是由3部分统计量组成,分子的残差平方和、分母的自变量方差、自变量间的相关性。残差

345.6661 8 0
  • 关注作者
  • 收藏
逐梦的太阳

有没有SAS快速入门的书籍?

0基础,继续快速入门

198.7249 2 2
  • 关注作者
  • 收藏
逐梦的太阳

citespace的LLR的含义

请问citespace中的llr算法的具体含义是什么呀?

198.7724 3 2
  • 关注作者
  • 收藏
逐梦的太阳

spss默认的是z-score标准化方法,需要区分正负向指标

想问各位spss大佬几个问题:1.spss默认的是z-score标准化方法,那么需要区分正负向指标吗?2.如何用spss实现极差标准化呢?

204.4615 4 2
  • 关注作者
  • 收藏
诗人都在海底

牛刀小试——边构建区块链边学习(Python实现)

在构建区块链的同时进行学习,阅读本文是假定您对区块链本身的机制已经有一定的理解。代码实现(想获取notebook的话可以在评论留言) 1.创建一个区块链类from time import timeimport hashlibimport jsonclass Blockchain(object): def __init__(self): self.cu

321.6779 7 1
  • 关注作者
  • 收藏
newbbs

R语言中assign函数在循环中出现的问题

代码如下:for(i in 13:36){ assign(paste0("plot", i),ggplot(data = DOI, aes(x = origin_lat, y = DOI[,i], color = species)) geom_smooth(method = "lm", formula = y~I(x*x) x) geom_point() guid

285.9663 6 2
  • 关注作者
  • 收藏
newbbs

在MY SQL中怎么新建一个年份字段并且给年份字段赋值?

求教各位大神,在MY SQL中已有日期为xx年xx月xx日的字段,怎么新建一个年份字段并且给年份字段赋值?

262.3510 3 2
  • 关注作者
  • 收藏
Hsail

【数据从业之路访谈录】【序】

这是一个针对数据从业者的系列访谈录。 我们的初衷,是希望通过一个个采访,去探寻一条条数据从业之路,给CDA人和所有读者一些从业方面的事实性的“实例”。虽然在这个知识快消的时代,在很多人看来,访谈录并不是一个能够高效传递知识的载体,但是我们坚信:越是方法性知识变得易于获得,事实性就越有价值。 2018年年初某月,北京CDA就业班课间“吴老师,请教您个问题,您觉得学习

534.5676 17 3
  • 关注作者
  • 收藏
星野

学习python爬虫技术很难么?要具备哪些基础知识?

如题

359.2425 5 2
  • 关注作者
  • 收藏
pgc8

数据分析师有哪些证书?

获得数据分析师认证证书,取得行业敲门金砖,并进而成功拿到心仪企业的Offer,是不少求职者的梦想。市场中的证书较多,有些是含金量高的,而有些是价值低的,大家一定要选择到好的认证。在这里给大家比较下目前市场中的数据分析类证书。一般认证机构是两种类型,一种是国家部门认证,一种是行业性质认证。l 国家部门认证目前国家部门关于数据分析的认证还没有一个权威的机构。大数据属于新兴科技,一般前沿技术会

1636.3885 23 6
  • 关注作者
  • 收藏
pgc8

文科生能学好数据分析吗?

作为一个自学数据分析,并将数据分析运用于工作和生活,从中受益的文科生(本人国际贸易专业,三线城市的大学),我觉得有资格来谈谈这个问题。 数据分析不等于数学。 「文科生能学好数据分析吗?」会问到这个问题,我想多半是受到另外一句话的影响:「文科生学不好数学。」我们姑且不管这句话的有多少可信度,先来说说数据分析是数学吗?显然不等于! 1、数据分析究竟是什么? 「数据分析」含义宽泛,现如今

1069.3561 16 2
  • 关注作者
  • 收藏
newbbs

请问数据分析师需要掌握哪些技术?

如题

1050.7942 10 2
  • 关注作者
  • 收藏

热门用户 换一批

本月PGC排行 总奖励
01
ermutuxia
4053.3011
02
CDA103484
1279.9999
03
维克多阿涛
1129.4139
04
固执的坚持023
960.0000
05
DA弯道超车
952.7398
06
啊啊啊啊啊吖
320.0000