数据科学专业问答社区，好文章，一字千金--CDA答疑社区

Python的可迭代和迭代器是什么？

Iterable是一个可以迭代的对象。它传递给iter()方法时会生成一个迭代器。Iterator是一个对象，用于使用__next __（）方法迭代可迭代对象。迭代器有 __next__() 方法，它返回对象的下一个项目。请注意，每个迭代器也是可迭代的，但并非每个迭代都是迭代器。例如，列表是可迭代的，但列表不是迭代器。可以使用该函数从迭代中创建迭代器iter()。为了实现这一点，对象的类需要一个

詹惠儿

2018-12-03

0.0000 0 1

如何有效地在Python中使用迭代？

先决条件：Python中的迭代器以下是使用迭代器的不同方法。 C风格的方法：该方法需要事先了解迭代总数。 # A C-style way of accessing list elements cars = ["Aston", "Audi", "McLaren"] i = 0 while (i < len(cars)): print cars[i] i = 1 重点： pyth

詹惠儿

2018-12-03

0.0000 0 0

如何区分python的Any和All？

Any和All是用于连续和/或的python中提供的两个内置命令 ANY 如果任何项为True，则返回true。如果为空或全部为假，则返回False。任何可以被认为是对所提供的迭代的OR运算序列。它会使执行短路，即在结果已知时立即停止执行。语法：any（iterables列表） # Since all are f

詹惠儿

2018-12-03

0.0000 0 4

print中的结束参数是什么？

默认情况下，python的print（）函数以换行符结束。具有C / C 背景的程序员可能想知道如何在没有换行的情况下进行打印。 Python的print（）函数带有一个名为'end'的参数。默认情况下，此参数的值为'\ n'，即换行符。您可以使用此参数结束包含任何字符/字符串的print语句。 # This Python program must be run with # Python

詹惠儿

2018-12-03

0.0000 0 2

怎么区别全局变量和局部变量？

全局变量是在函数外部定义和声明的变量，我们需要在函数内部使用它们。 # This function uses global variable s def f(): print s # Global scope s = "I love Geeksforgeeks" f() 如果在函数范围内定义了具有相同名称的变量，那么它将仅打印函数内给出的值而不是全局值。 # This func

詹惠儿

2018-12-03

0.0000 0 2

怎么用网络特征识别垃圾邮件？

在网络搜索的早期阶段，很明显网络搜索引擎是将广告商与潜在买家联系起来的重要手段。寻找毛伊高尔夫球场的用户不仅仅是在毛伊岛的高尔夫球场上寻找关于住房主题的新闻或娱乐，而是可能寻求购买这样的财产。因此，此类财产的卖方及其代理人有强烈的动机去创建在此查询中排名很高的网页。在评分基于学期频率的搜索引擎中，具有多次重复的毛伊高尔夫球场地的网页将排名很高。这导致了第一代垃圾邮件（在网络搜索的上下

詹惠儿

2018-12-03

0.0000 0 2

朴素贝叶斯的性质

为了减少参数的数量，我们制作朴素贝叶斯条件独立假设。我们假设属性值在给定类的情况下彼此独立：我们这里引入了两个随机变量，使两个不同的生成模型显式化。 Xk是k文档中位置的随机变量，并从词汇表中获取值。是在课程文件中该术语将发生在位的概率。是词汇术语的随机变量i，取值为0（缺席）和1（在场）。属于该类别的文档中的概率的术语将发生-在任何位置，并可能多次。中国类以一定的概率为

詹惠儿

2018-11-30

0.0000 0 3

怎么理解理论上的概率估计？

为了更好地理解这两个模型及其所做的假设，让我们回过头来看看我们如何在第11章第12章中推导出他们的分类规则。我们通过将文档分配给类来决定文档的类成员资格概率（参见概率），我们计算如下：利用这一点，以这种方式添加是一种简单的平滑形式。对于具有分类结果的试验（例如注意术语的存在或不存在），从数据估计事件概率的一种方法是简单地计算事件发生的次数除以试验总数。这被称为事件的相对频率。估

詹惠儿

2018-11-30

0.0000 0 2

连接到文本摘要来提高分类性能？

我们之前提到了文本摘要的领域，以及该领域的大多数工作如何采用了有限的目标，即根据考虑句子位置的句子的特征来提取和组合被认为是中心的原始文本片段。内容。大部分工作可用于建议可能对文本分类特别有用的区域。考虑一种特征选择形式，您只需根据某些单词对文档进行分类区域。根据文本摘要研究，他们考虑使用（i）仅标题，（ii）仅第一段，（iii）仅标题词或关键词最多的段落，（iv）前两段或第一段和最后一段段落，

詹惠儿

2018-11-30

0.0000 0 1

怎么提高文本分类器的性能？

1. 增加文档区域。在文本分类问题中，通过差异加权来自不同文档区域的贡献，您可以经常获得有效提升效率。通常，增加标题词是特别有效的。根据经验，在文本分类问题中将标题词的权重加倍通常是有效的。您还可以从文本中没有明确定义区域的文本中增加单词来获取价值，但是文档结构或内容中的证据表明它们很重要。建议您也可以通过增加（新闻专线）文档的第一句话来获得价值（在临时检索环境中）。 2. 文档区域的单独功能

詹惠儿

2018-11-30

0.0000 0 3

怎么理解文本分类的文字功能？

即席检索和文本分类中的默认设置是使用术语作为功能。然而，对于文本分类，通过设计适合于特定问题的附加特征，可以实现大量的里程。与IR查询语言的情况不同，由于这些特征是分类器的内部特征，因此将这些特征传递给最终用户没有问题。这个过程通常被称为特色工程。目前，特征工程仍然是一种人工技术，而不是机器学习所做的事情。良好的特征工程通常可以显着提高文本分类器的性能。它在文本分类的一些最重要的应

詹惠儿

2018-11-30

0.0000 0 3

类别分类法有哪些？

如果文本分类问题由少量分离良好的类别组成，则许多分类算法可能运行良好。但是许多真正的分类问题包括大量通常非常相似的类别。读者可能会想到诸如网络目录（Yahoo!目录或开放目录项目），图书馆分类方案（Dewey Decimal或国会图书馆）或法律或医学应用中使用的分类方案等示例。例如，雅虎！目录由深层次结构中的200,000多个类别组成。对大量密切相关的类别进行准确分类本身就很困难。

詹惠儿

2018-11-30

0.0000 0 1

文本分类的半监督疑惑

在这里，理论上有趣的答案是尝试应用半监督训练方法。这包括bootstrapping等方法 EM算法。在这些方法中，系统获得一些带标签的文档，以及可以尝试学习的大量未标记文档。Naive Bayes的一大优势是它可以直接扩展为半监督学习算法，但对于SVM，还有半监督学习工作，其标题是转导SVM。通常，实际的答案是找出如何尽可能快地获得更多标记数据的方法。实现这一

詹惠儿

2018-11-30

0.0000 0 2

文本分类选择哪种分类器？

当遇到构建文本分类器的需要时，首先要问的问题是当前有多少训练数据可用？没有？很少？非常多？或者是巨额，每天都在增长？通常，在实际应用中部署机器学习分类器的最大实际挑战之一是创建或获取足够的训练数据。对于许多问题和算法，需要来自每个类的数百或数千个示例来生成高性能分类器，并且许多现实世界上下文涉及大量类别。我们最初会假设需要尽快分类; 如果有很多时间可用于实现，那么大部分时间可能用于组装数据资源。

詹惠儿

2018-11-30

0.0000 0 3

文本分类运用在哪？

一个类不必像常设查询多核计算机芯片那样集中精力。通常，课程是一个更普遍的学科领域，如中国或咖啡。这种更通用的类通常被称为然后调用主题和分类任务文字分类，文本分类，主题分类，或主题发现。常设查询和主题的特异性程度不同，但解决路由，过滤和文本分类的方法基本相同。因此，我们在本章和后续章节中包括文本分类标题下的路由和过滤。的概念分类非常通用，并且在信息检索（IR）内外具有许多应用。例如，在

詹惠儿

2018-11-30

0.0000 0 2

文本分类的检索问题

到目前为止，本书主要讨论了这一过程临时检索，用户通过向搜索引擎提出一个或多个查询来尝试解决的瞬态信息需求。但是，许多用户都有持续的信息需求。例如，您可能需要跟踪多核计算机芯片的发展。这样做的一种方法是每天早晨针对最近新闻专线文章的索引发出查询多核和计算机和芯片。在本章和以下两章中，我们将研究这个问题：如何重复这个重复性任务？为此，许多系统都支持常设查询。常设查询与任何其他查询类似，

詹惠儿

2018-11-30

0.0000 0 1

文本分类的检索问题

临时检索，用户通过向搜索引擎提出一个或多个查询来尝试解决的瞬态信息需求。但是，许多用户都有持续的信息需求。例如，您可能需要跟踪多核计算机芯片的发展。这样做的一种方法是每天早晨针对最近新闻专线文章的索引发出查询多核和计算机和芯片。在本章和以下两章中，我们将研究这个问题：如何重复这个重复性任务？为此，许多系统都支持常设查询。常设查询与任何其他查询类似，只是它会在一个集合上定期执行，

詹惠儿

2018-11-30

0.0000 0 2

python规范化的术语

将我们的文档（以及我们的查询）分解为标记后，最简单的情况是查询中的标记是否与文档的标记列表中的标记匹配。但是，在很多情况下，两个字符序列不完全相同，但您希望匹配发生。例如，如果您搜索美国，您可能希望也匹配包含USA的文档。令牌标准化是规范化令牌的过程，以便尽管令牌的字符序列存在表面差异，但仍会发生匹配。标准化的最标准方法是隐式创建等价类，通常以集合的一个成员命名。例如，如果令牌反歧视和反

詹惠儿

2018-11-29

0.0000 0 2

有时，一些非常常见的单词在帮助选择符合用户需求的文档时似乎没什么价值，它们完全被排除在词汇表之外。这些话被称为停止说话。确定停止列表的一般策略是对术语进行排序收集频率（每个术语在文档集合中出现的总次数），然后采用最频繁的术语，通常手动过滤其相对于被索引的文档的域的语义内容，作为停止列表，然后在索引期间丢弃其成员。停止列表的示例如图2.5所示。使用停止列表可以显着减少系统必须存储的过帐数量;并且很多

詹惠儿

2018-11-29

0.0000 0 2

python怎么符号化？

给定一个字符序列和一个定义的文档单元，标记化是将其切成碎片的任务，称为令牌，也许同时丢掉某些字符，如标点符号。以下是标记化的示例：这些令牌通常被宽泛地称为术语或单词，但有时制作类型/令牌很重要区别。一个代币是一些特定文档中的字符序列的实例，它们被组合在一起作为用于处理的有用语义单元。一个type是包含相同字符序列的所有标记的类。一个term是包含在IR系统字典中的（可能是规范化的）类型

詹惠儿

2018-11-29

0.0000 0 2