数据科学专业问答社区，好文章，一字千金--CDA答疑社区

如何将项目分类（1）

现在我们需要编写一个函数来将项目分类到一个组/集群。对于给定的项目，我们将找到它与每个均值的相似性，我们将该项目分类为最接近的项目。 def Classify(means,item): # Classify item to the mean with minimum distance minimum = sys.maxint; index = -1; for i in range(len(me

詹惠儿

2019-01-08

0.0000 0 2

数据挖掘的数据分类

数据挖掘过程中使用有不同数据源。来自多个来源的数据被集成到称为数据仓库的公共源中。关系数据库一个关系数据库被定义为行和列的表组织的数据的集合。关系数据库中的物理模式是定义表结构的模式。关系数据库中的逻辑模式是定义表之间关系的模式。关系数据库的标准API是SQL。应用：数据挖掘，ROLAP模型等数据仓库数据仓库被定义为从多个来源集成的数据集合，用于查询和决策。有三种类型的数据仓库

詹惠儿

2019-01-08

0.0000 0 3

实现分区功能

对分区进行负载均衡不是通过对相对项频率的先验分析来控制，而是通过查询项及其共现的分布来控制，这些分布可随时间漂移或表现出突然的突发。实现良好的分区是查询术语共现的一个功能，需要聚合术语以优化不易量化的目标。最后，这种策略使得动态索引的实现更加困难。更常见的实现是按文档分区：每个节点包含所有文档子集的索引。每个查询都分发到所有节点，各个节点的结果在呈现给用户之前被合并。该策略

詹惠儿

2019-01-08

0.0000 0 1

分发索引简介

我们现在考虑在支持查询的大型计算机集群中分发索引。两个明显的替代索引实现表明自己：按术语划分，也称为全局索引组织，和按文档划分，也称为本地索引组织。在前者中，索引术语字典被划分为子集，每个子集驻留在节点处。除了节点上的条款，我们还会保留这些条款的发布。查询被路由到与其查询项对应的节点。原则上，这允许更大的并发性，因为具有不同查询项的查询流将命中不同的机器组。实际上，按词

詹惠儿

2019-01-08

0.0000 0 3

CB过滤技术克服了CF的挑战。即使没有用户提供评级，他们也可以推荐新商品。因此，即使数据库不包含用户首选项，也不会影响推荐准确性。此外，如果用户首选项发生变化，则可以在短时间内调整其推荐。他们可以管理不同用户不共享相同项目但根据其内在特征仅相同项目的情况。用户可以在不共享其个人资料的情况下获得建议，这可以确保隐私。CBF技术还可以解释如何向用户生成推荐。然而，这些技术遭受了文献讨论的各种问题。。基

詹惠儿

2019-01-08

0.0000 0 4

NXN矩阵简介

混淆矩阵是NXN矩阵，其中N是预测的类的数量。对于手头的问题，我们有N = 2，因此我们得到一个2×2矩阵。以下是一些定义，您需要记住混淆矩阵：准确性：正确的预测总数的比例。阳性预测值或精确度：正确识别的阳性病例的比例。负面预测值：正确识别的负面案例的比例。敏感度或召回率：正确识别的实际阳性病例的比例。特异性：正确识别的实际阴性病例的比例。 a 手头问题的准确率达到88％。从上面两个表

詹惠儿

2019-01-08

0.0000 0 4

简介随机森林算法？

什么是随机森林算法？随机森林是一种基于树的算法，它涉及构建多个树（决策树），然后组合它们的输出以提高模型的泛化能力。组合树的方法称为集合方法。集合只不过是弱学习者（个体树）的组合，以产生强大的学习者。比如说，你想看电影。但你不确定它的评论。你问10个看过这部电影的人。其中8人说“这部电影很精彩”。由于大多数人都赞成，你决定观看这部电影。这也是我们在日常生活中使用合奏技巧的方式。

詹惠儿

2019-01-07

0.0000 0 4

随机森林的优缺点

随机森林的利弊优点如下：它对相关预测变量具有鲁棒性。它用于解决回归和分类问题。它也可以用于解决无监督的ML问题。它可以处理数千个输入变量而无需变量选择。它可以用作使用其变量重要性图的特征选择工具。它以有效的方式内部处理缺失的数据。缺点如下：随机森林模型很难解释。它倾向于返回超出训练数据范围的观察的不稳定预测。例如，训练数据包含两个变量x和y。 x变量的范围是30到70.如果测

詹惠儿

2019-01-07

0.0000 0 2

如何理解联结表的外键

例子这是我们的图表水果店数据库显示了之间的关系水果桌子和单位表。 a 链接两个表的黑线表示外键。该单元ID 在球场上水果 table是一个外键单元ID在球场上单位表。因此，我们插入的值Fruit.UnitId 必须对应于中的值 Units.UnitId。这使得Fruit.UnitId 引用该记录的其他列中的数据（即具有相应记录的记录）单元ID）。数据所以如果我们的水果

詹惠儿

2019-01-07

0.0000 0 2

什么是外键？

外键是在关系数据库中创建关系的一个组成部分。因此，我们已经确定主键为表提供唯一标识符。但主键不是唯一的“键”类型。我们的数据库也可以包含外键。什么是外键？一个外键是唯一标识另一个表的一排一个表中的列（或列的集合）。这定义了两个表之间的关系。外键允许您跨表交叉引用相关数据。当列包含在另一个表中表示的数据时，这会派上用场。例子这是我们的图表水果店数据库显示了之间的关系水果桌子和单

詹惠儿

2019-01-07

0.0000 0 3

python如何组合切片？

由于列表切片本身就是列表，我们可以简单地将它们组合在一起。以下是一些可用于组合不同列表的方法。比如说，我们有以下列表和两个列表切片。 list = [1, 2, 3, 4, 5, 6] list1 = list[:3] # [1, 2, 3] list2 = list[4:] # [5, 6] 组合它们的一种方法是使用运算符，它将创建一个新列表，其中第一个列表的元素后跟第二个列表的元素。例

詹惠儿

2019-01-07

0.0000 0 3

python中的数学函数（3）

5. copysign（a，b）： - 此函数返回值为“a”但带有“b”符号的数字。返回的值是float类型。 6. gcd（）： - 此函数用于计算其参数中提到的2个数字的最大公约数。此函数适用于python 3.5及更高版本 # Python code to demonstrate the working of # copysign() and gcd() # importing "ma

詹惠儿

2019-01-07

0.0000 0 2

python中的数学函数（2）

3. fabs（）： - 此函数返回数字的绝对值。 4. factorial（）： - 此函数返回数字的阶乘。如果数字不是整数，则会显示错误消息 # Python code to demonstrate the working of # fabs() and factorial() # importing "math" for mathematical operations import

詹惠儿

2019-01-07

0.0000 0 4

Python中的数学函数（1）

在python中，可以通过导入名为“math”的模块轻松执行许多数学运算，该模块定义了使我们的任务更容易的各种函数。 1. ceil（）： - 此函数返回大于数字的最小整数值。如果number已经是整数，则返回相同的数字。 2. floor（）： - 此函数返回小于数字的最大整数值。如果number已经是整数，则返回相同的数字。 # Python code to demonstrate the

詹惠儿

2019-01-07

0.0000 0 1

python的built-in模块

# importing built-in module math import math # using square root(sqrt) function contained # in math module print math.sqrt(25) # using pi function contained in math module print math.pi # 2

詹惠儿

2019-01-07

0.0000 0 1

Python模块

模块是包含Python定义和语句的文件。模块可以定义函数，类和变量。模块还可以包括可运行代码。将相关代码分组到模块中使代码更易于理解和使用。例： # A simple module, calc.py def add(x, y): return (x y) def subtract(x, y): return (x-y) 在导入语句我们可以通过一些其他的Python源文件执行i

詹惠儿

2019-01-07

0.0000 0 2

弱实体的识别

弱实体类型和识别关系：如前所述，实体类型具有唯一标识实体集中的每个实体的键属性。但是存在一些无法定义关键属性的实体类型。这些被称为弱实体类型。例如，公司可以存储雇员的家属（父母，子女，配偶）的信息。但是没有雇员，家属就没有存在。因此Dependent将是弱实体类型，Employee将为Dependent标识实体类型。弱实体类型由双矩形表示。弱实体类型的参与总是完全的。弱实体类型与其识别强实体

詹惠儿

2019-01-05

0.0000 0 2

sql约束的关系

参与约束：参与约束适用于参与关系集的实体。参与总数 -实体集中的每个实体都必须参与该关系。如果每个学生必须参加课程，学生的参与将是完全的。ER图中的双线显示总参与度。部分参与 -实体集中的实体可能会或可能不会参与该关系。如果某些课程没有由任何学生注册，那么课程的参与将是部分的。该图描绘了“注册”关系集，其中学生实体集具有总参与度，并且课程实体集具有部分参与。 a 使用set，它可以表示为

詹惠儿

2019-01-05

0.0000 0 5

如何理解实体模型

ER模型用于从数据角度对系统的逻辑视图进行建模，该视图由以下组件组成：实体，实体类型，实体集 - 实体可以是具有物理存在的对象 - 特定的人，汽车，房屋或员工 - 或者它可以是具有概念存在的对象 - 公司，工作或大学课程。实体是实体类型的对象，所有实体的集合称为实体集。例如; E1是具有实体类型学生的实体，所有学生的集合称为实体集。在ER图中，实体类型表示为： a

詹惠儿

2019-01-05

0.0000 0 0

理解多值属性和派生属性

多值属性 - 包含给定实体的多个值的属性。例如，Phone_No（给定学生可以多于一个）。在ER图中，多值属性由双椭圆表示。 a 派生属性 - 可以从实体类型的其他属性派生的属性称为派生属性。例如; 年龄（可以从DOB派生）。在ER图中，派生属性由虚线椭圆表示。 a 具有其属性的完整实体类型Student可表示为： a

詹惠儿

2019-01-05

0.0000 0 2