登录
首页精彩阅读【CDA数据分析师_从师之路】CDA答疑邦,帮你解惑(第二波)
【CDA数据分析师_从师之路】CDA答疑邦,帮你解惑(第二波)
2016-02-25
收藏

1.     请教各位大牛一个问题,用pythonpandas库读取excel数据后,运行时总是提示ValueError: Input contains NaN, infinity or a value too large for dtype('float64'). 但是仔细检查数据源也没有出现空值,请问这是什么原因导致的呢?用 df.isnull().any() 进行检查 也都是False

 

回答:你的读取函数是什么?你的数据是否能共享出来,看一下;因为除了非空的问题,还有字符长度和格式问题。


2.问个问题,这种全链聚类为什么对噪声不敏感?不太理解,谢谢

 

回答:全链聚类的原理是會逐次合併與目前既有的群最接近的點, 因此噪声決不會是它的選擇, 因為它與目前的群的距離太遠了, 所以它對噪声不敏感!


3. 对预测连续变量用什么算法?除了一般的线性回归,一般预测分类变量的算法都好多,bpsvm等等都是的,但是感觉预测预测连续变量的却没有。


回答:我們的課程中除了线性回归, 我們還有介紹迴歸樹, bp(bp也可以運用於數值的預測)! 此外, svm也可以運用於數值的預測!

 

4. 请问弄sas sql过程怎么给查询到的未知个案数目添加序号?

 

回答:SAS SQL不能直接出行号,没有ORACLEROWNUM函数,但是可以先用SASSQL创建表,然后用DATA步添加行号。比如DATA TESTSET TESTROWNUM=_N_RUN

 

5. 做房产项目数据分析都分析什么,需要学习哪些知识或者用什么分析工具?


回答:若是不想學編程, 可以考慮WEKA (開源), SAS EM, IBM SPSS Modeler! 若是可以編程, 可以考慮R, Python(開源), SAS! 統計及機器學習的知識最好要有, 否則來上課也可以!

 

6. python在大数据中起什么作用?是数据清洗吗? 

 

回答:不是的,大数据分析/挖掘,因为它能利用大数据平台编写SPARK程序,基本什么都可以做;只有图处理,Pathon有些包还未做到很优化。


数据分析咨询请扫描二维码

客服在线
立即咨询