1. 请教各位大牛一个问题,用python的pandas库读取excel数据后,运行时总是提示ValueError: Input contains NaN, infinity or a value too large for dtype('float64'). 但是仔细检查数据源也没有出现空值,请问这是什么原因导致的呢?用 df.isnull().any() 进行检查 也都是False
回答:你的读取函数是什么?你的数据是否能共享出来,看一下;因为除了非空的问题,还有字符长度和格式问题。
2.问个问题,这种全链聚类为什么对噪声不敏感?不太理解,谢谢
回答:全链聚类的原理是會逐次合併與目前既有的群最接近的點, 因此噪声決不會是它的選擇, 因為它與目前的群的距離太遠了, 所以它對噪声不敏感!
3. 对预测连续变量用什么算法?除了一般的线性回归,一般预测分类变量的算法都好多,bp,svm等等都是的,但是感觉预测预测连续变量的却没有。
回答:我們的課程中除了线性回归, 我們還有介紹迴歸樹, bp(bp也可以運用於數值的預測)! 此外, svm也可以運用於數值的預測!
4. 请问弄sas sql过程怎么给查询到的未知个案数目添加序号?
回答:SAS SQL不能直接出行号,没有ORACLE的ROWNUM函数,但是可以先用SASSQL创建表,然后用DATA步添加行号。比如DATA TEST;SET TEST;ROWNUM=_N_;RUN
5. 做房产项目数据分析都分析什么,需要学习哪些知识或者用什么分析工具?
回答:若是不想學編程, 可以考慮WEKA (開源), SAS EM, IBM SPSS Modeler等! 若是可以編程, 可以考慮R, Python(開源), SAS等! 統計及機器學習的知識最好要有, 否則來上課也可以!
回答:不是的,大数据分析/挖掘,因为它能利用大数据平台编写SPARK程序,基本什么都可以做;只有图处理,Pathon有些包还未做到很优化。
数据分析咨询请扫描二维码