“结巴”中文分词:做最好的 Python 中文分词组件。 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 功能: ieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用
kejiayuan0806
2019-04-08
问题描述: 当在安装词云分词器wordcloud的时候,会报错。报错的代码是: a 解决方法: 这是由于之前安装的神经网络插件tensorflow含有残留的文件。找到tensorflow-1.10.0.list-info,删除它。 再执行一遍就可以了。
kejiayuan0806
2019-04-08
问题描述: requests.exceptions.ChunkedEncodingError 解决方法: 对于这个错误,stackoverflow给出的解释是 The link you included in your question is simply a wrapper that executes urllib’s read() function, which catches any
kejiayuan0806
2019-04-08
问题描述: python爬虫异常报错:requests.exceptions.ConnectionError 解决方法: 对于这个错误,stackoverflow给出的解释是 In the event of a network problem (e.g. DNS failure, refused connection, etc), Requests will raise a Connec
kejiayuan0806
2019-04-08
问题描述: python爬虫报错:requests.exceptions.ProxyError 解决方法: 对于这个错误,stackoverflow给出的解释是 The ProxyError exception is not actually the requests.exceptions exception; it an exception with the same name from
kejiayuan0806
2019-04-08
ASCII 编码 计算机是美国人发明的,所以,最早只有 127 个大小写字母、数字和一些符号进入了编码体系,这套编码就是 ASCII 码。 ASCII 编码的局限性是该编码只解决了将英语转化为计算机能理解的语言的问题,对于中文、日文、韩文、等等其他语言的转换,会出现乱码,为了解决乱码的国际问题,有了 Unicode 编码。 Unicode 编码 Unicode 编码把所有语言都统一到一套编码里面
kejiayuan0806
2019-04-08
列表 List(列表):是Python中使用最频繁的数据类型。列表可以完成大多数集合类的数据结构实现。它支持字符,数字,字符串甚至可以包含列表(嵌套) 列表用[ ]标识,是Python最通用的复合数据类型。 列表中的值分割可以用到变量[头下标;尾下标],就可以截取相应的列表,从坐到右索引默认0开始,从右到左默认-1开始,下标可以为空表示渠道头或尾。 加号( )是列表链接运算符,星号(*)是重复操作
kejiayuan0806
2019-04-08
1)准备提供所有可疑数据信息的验证报告。它应该提供信息,如失败的验证标准以及发生的日期和时间 2)检查可疑数据以确定其可接受性 3)应该找出无效数据并用验证码替换 4)对缺失数据进行处理,使用最佳分析策略,如删除,单一插补方法,基于模型的方法等。
kejiayuan0806
2019-04-08
问题描述: tensorflow安装怎么导入不成功? 解决方法: 安装tensorflow显示成功了但是没有import进入jupyter 平台是因为在终端并没有成功激活tensorflow这个环境。 需要先在终端执行激活命令activate xxx(xxx 为anconda中environment中的base或者root名称) 如图: a 再执行导入tensorflow命令 有时候p
kejiayuan0806
2019-04-08
分类数据是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述的。 对分类数据的频数检验的方法可以用x2检验来表示。 公式如下: a 根据分类变量的数量可以分为拟合优度检验和独立性检验。 拟合优度检验是对一个分类变量的检验,独立性检验是对两个分类变量的检验。 通过以上检验,检验数据是否具有相关性。
kejiayuan0806
2019-04-08
变量是标识符的例子。 标识符 是用来标识 某样东西 的名字。在命名标识符的时候,你要遵循这些规则: 标识符的第一个字符必须是字母表中的字母(大写或小写)或者一个下划线(‘ _ ’)。 标识符名称的其他部分可以由字母(大写或小写)、下划线(‘ _ ’)或数字(0-9)组成。 标识符名称是对大小写敏感的。例如,myname和myName不是一个标识符。注意前者中的小写n和后者中的大写N。 有效 标识符
kejiayuan0806
2019-04-03
问题描述: 使用pip install pandas 时出现错误提示 报错信息:error: Microsoft Visual C 14.0 is required. Get it with “Microsoft Visual C Build Tools”: http://landinghub.visualstudio.com/visual-cpp-build-tools 解决方
kejiayuan0806
2019-04-03
问题描述: 下载插件模块包为什么要配置环境变量?怎么配置环境变量? 解决方法: 环境变量简而言之是一种承载软件运行的一个空间。有些软件自带环境配置选项, 并不需要手动配置。但有些环境是需要人为是配置,才能使及软件正常运行工作。 一般的环境配置都是将下载的模块的bin文件的路径复制,再copy到系统属性中高级配置中的 path路径下增贴一行。 再重启软件,即可正常运行。
kejiayuan0806
2019-04-03
问题描述: 在安装低版本的scikit-learn的时候,为什么会出现Read time out? 解决方法: 因为一般在安装的时候,默认的时候是100秒。有时候会因为安装时间过长而导致安装失败。 这时候需要修改默认的时间。 例如:pip --default-timeout=500 install xxx(xxx为第三方库),其中的500可以任意更改。
kejiayuan0806
2019-04-03
问题描述: 在cmd里面调用pip命令,会报错:‘pip‘不是内部或外部执行命令。 解决方法: cmd中在找pip.exe文件的时候,默认地往anconda文件中的Scripts目录下查找,如果有就执行。如果没有,就报错。 此时应该在我的电脑里面搜索pip.exe,然后把文件放在Scripts目录下就行。 a
kejiayuan0806
2019-04-03
问题描述: 在使用 pip install xxx(库的名称),安装某些第三方库,显示安装失败 解决方法: 需要更新pip的版本, 此时需要执行这样一段代码: python -m pip install --upgrade pip . 将pip版本升级到最新的版本,再安装即可。
kejiayuan0806
2019-04-03
问题描述: 打开anaconda ,点击install,安装orange3没有反应 解决方法: 从cmd中执行 :conda install orange3(cmd最好以管理员身份运行) 但是电脑会报conda的某些文件的错误。这时需要更新conda到最新的版本,以免conda的某些配置文件和第三方库之间的冲突。 执行命令:conda update conda 再执行一遍 conda
kejiayuan0806
2019-04-03
问题描述: 在for循环索引列表里面的值的时候,怎么索引列表值所在的位置? 解决方法: 一般在for循环中,只能提取列表里面的值,但是如果想取其值所在的位置。需要借助一个enumerate函数。
kejiayuan0806
2019-04-03
问题描述: 为什么配置了mysql的环境变量之后,终端命令还是识别不了mysql的语言? 解决方法: 在配置环境的时候,可能电脑之前的mysql安装后卸载没有卸载干净, 所以导致配置环境变量之后,执行的是原残留的mysql的文件。 需要重新找到新安装的mysql文件所在位置,重新配置环境变量。 (在控制面板中找到环境变量,点击,在path中贴加就行)如图: a
kejiayuan0806
2019-04-03
问题描述: 为什么下载好pip最新版本安装包,在执行安装命令的时候,会报错? 解决方法: 因为此时报错的信息是环境变量没有访问权限。 需要获取调用次命令的权限。就好像在访问windows里的一些页面时, 会提示没有访问的权利一样。此时需要贴加一些代码来以一个类似‘管理员’的身份运行。 ’ python get-pip.py’,加一个‘--user’ python get-pip.py --
kejiayuan0806
2019-04-03