数据科学专业问答社区，好文章，一字千金--CDA答疑社区

爬虫怎么连接服务器？

假设Web有40亿个页面，每个页面都有10个指向其他页面的链接。在最简单的形式中，我们需要32位或4个字节来指定每个链接的每个末端（源和目标），总共需要 a （250）内存字节。可以利用Web图的一些基本属性在10％的内存要求下使用。乍一看，我们似乎有一个数据压缩问题 - 适用于各种标准解决方案。但是，我们的目标不是简单地压缩Web图形以适应内存;我们必须以有效支持连接查询的方式这样做

詹惠儿

2018-11-29

0.0000 0 2

什么是分发索引？

我们现在考虑在支持查询的大型计算机集群中分发索引。两个明显的替代索引实现表明自己：按术语划分，也称为全局索引组织，和按文档划分，也称为本地索引组织。在前者中，索引术语字典被划分为子集，每个子集驻留在节点处。除了节点上的条款，我们还会保留这些条款的发布。查询被路由到与其查询项对应的节点。原则上，这允许更大的并发性，因为具有不同查询项的查询流将命中不同的机器组。实际上，按词汇术语对分区索引进

詹惠儿

2018-11-29

0.0000 0 2

什么是URL前沿？

节点的URL前沿由其爬网过程（或另一个爬网过程的主机拆分器）提供URL。它维护边界中的URL，并在爬虫程序线程寻找URL时以某种顺序对它们进行反刍。两个重要的考虑因素决定了边界返回URL的顺序。首先，频繁更改的高质量页面应优先进行频繁爬行。因此，页面的优先级应该是其变化率和质量的函数（使用一些合理的质量估计）。这种组合是必要的，因为大量的垃圾邮件页面在每次获取时都会完全改变。第二个考虑因素是礼貌

詹惠儿

2018-11-29

0.0000 0 0

DNS解析是什么？

每个Web服务器（实际上连接到Internet的任何主机）都具有唯一性IP地址以文本形式，将其转换成一个IP地址（在这种情况下，207.142.131.248）是公知的作为一个过程DNS解析或DNS查找;这里DNS代表域名服务。在DNS解析期间，希望执行此转换的程序（在我们的示例中，是Web爬网程序的一个组件）与a联系返回已转换IP地址的DNS服务器。（实际上，整个翻译可能不会发生在单

詹惠儿

2018-11-29

0.0000 0 2

爬虫中的线程可以在不同的进程下运行，每个进程都在分布式爬网系统的不同节点上运行。这种分配对于扩展至关重要;它也可以在地理上分布的爬虫系统中使用，其中每个节点爬行主机“靠近”它。在爬网程序节点之间对正在爬网的主机进行分区可以通过散列函数或一些更具体定制的策略来完成。例如，我们可能会在欧洲找到一个抓取节点，专注于欧洲域，尽管由于多种原因这是不可靠的 - 数据包通过互联网的路径并不总是反映地理邻近性，并

詹惠儿

2018-11-29

0.0000 0 4

设置Cron自动

在BeautifulSoup中可以设置一个cron任务，以定期自动运行抓取脚本。以普通用户身份登录您的计算机： 2. 确保完整craigslist.py脚本位于主目录中：

詹惠儿

2018-11-29

0.0000 0 4

BeautifulSoup将数据写入Excel电子表格

该make_excel函数获取数据库中的数据并将其写入Excel电子表格。 1.添加电子表格变量：该标题变量是冠军在电子表格中列的列表。该行变量跟踪当前电子表格行。 2.使用xlswriter打开工作簿，并添加一个工作表来接收数据。 3. 准备工作表：前两项在set_column方法中始终相同。这是因为它正在设置从第一个指示列到下一个列的一部分列的属性。最后一个值是以字

詹惠儿

2018-11-29

0.0000 0 1

Beatifulsoul的清洁功能是什么？

清洁功能这是两个简短的自定义函数，用于清理代码段数据。该clean_money函数从输入中删除任何美元符号：该clean_pic函数生成一个URL，用于访问每个搜索结果中的第一个图像：该函数提取并清除第一个图像的id，然后将其添加到基本URL。

詹惠儿

2018-11-27

0.0000 0 2

Beautiful Soup出现异常怎么处理？

错误处理处理两种类型的错误很重要。这些不是脚本中的错误，而是片段结构中的错误导致Beautiful Soup的API抛出错误。一个AttributeError当点符号没有找到兄弟标签当前HTML标记将被抛出。例如，如果特定代码段没有锚标记，那么代价键将抛出错误，因为它会横向并因此需要锚标记。另一个错误是KeyError。如果缺少必需的HTML标记属性，则会抛出它。例如，如果代码段中没有dat

詹惠儿

2018-11-27

0.0000 0 1

处理Soup对象要注意什么（2）

有时需要的信息是标签内容（在开始和结束标签之间）。要访问标记内容，BeautifulSoup提供了以下string方法： $12791 可以访问： 'cost': clean_money(result.a.span.string.strip()) 这里的值通过使用Python strip()函数以及clean_money删

詹惠儿

2018-11-27

0.0000 0 1

处理Soup对象要注意什么？

1. 通过仅选择li html标签来选择网页代码段，并通过仅选择具有结果类类别的li标签来进一步缩小选项范围。该结果变量包含所有符合该条件的网页片段： results = soup.find_all("li", class_="result-row") 2. 尝试根据目标片段的结构创建记录。如果结构不匹配，那么Python将抛出异常，这将导致它跳过此记录和片段：使用Beautiful

詹惠儿

2018-11-27

0.0000 0 1

怎么处理Soup对象？

处理Soup对象类的对象BeautifulSoup以树结构组织。要访问您感兴趣的数据，您必须熟悉原始HTML文档中数据的组织方式。在浏览器中转到初始网站，右键单击并选择查看页面源（或检查，具体取决于您的浏览器），以查看您要抓取的数据的结构：

詹惠儿

2018-11-27

0.0000 0 3

怎么检索网页？

检索网页该make_soup函数向目标url发出GET请求，并将生成的HTML转换为BeautifulSoup对象：该urllib3库具有出色的异常处理能力; 如果make_soup抛出任何错误，请查看urllib3文档以获取详细信息。 Beautiful Soup有不同的解析器，对网页的结构或多或少都很严格。该LXML解析器就足够了本指南中的示例脚本。

詹惠儿

2018-11-27

0.0000 0 2

怎么搭建Web Scraper？

必需的模块在BeautifulSoup从类bs4将处理网页的解析。该datetime模块提供日期操作。Tinydb为NoSQL数据库提供API，该urllib3模块用于发出http请求。最后，xlsxwriterAPI用于创建Excel电子表格。 craigslist.py在文本编辑器中打开并添加必要的import语句：添加全局变量在import语句之后，添加全局变量和配置选项：

詹惠儿

2018-11-27

0.0000 0 3

安装beautifulsoup要注意什么？

安装Python 下载并安装Miniconda： curl -OL https://repo.continuum.io/miniconda/Miniconda3-latest-Linux-x86_64.sh bash Miniconda3-latest-Linux-x86_64.sh 在安装过程中，系统会多次提示您。查看条款和条件，并为每个提示选择“是”。重新启动shell会话以使PATH

詹惠儿

2018-11-27

0.0000 0 0

怎么安装beautifulsoup？

如果您已经安装了pip或其他Python安装程序，那么安装Beautiful Soup是最简单的。如果您没有pip，请运行安装python模块的快速教程以使其运行。安装pip后，在终端中运行以下命令以安装Beautiful Soup： pip install beautifulsoup4 您可能需要在此行前加上“sudo”，这样您的计算机就可以写入您的根目录并要求您重新输入密码。这与安装新程序时

詹惠儿

2018-11-27

0.0000 0 3

Beautiful Soup是什么？

Beautiful Soup是一个Python库，它将HTML或XML文档解析为树结构，以便于查找和提取数据。它通常用于从网站上抓取数据。假设您找到了一些显示与您的研究相关的数据的网页，例如日期或地址信息，但是没有提供任何直接下载数据的方式。Beautiful Soup帮助您从网页中提取特定内容，删除HTML标记并保存信息。它是一种用于网络抓取的工具，可帮助您清理

詹惠儿

2018-11-27

0.0000 0 1

推荐算法有哪些评估指标?

可以使用不同类型的测量来评估推荐算法的质量，所述测量可以是准确度或覆盖率。使用的度量类型取决于过滤技术的类型。准确度是总可能建议中正确建议的一小部分，而覆盖率则衡量系统能够为其提供建议的搜索空间中的对象比例。用于测量推荐过滤系统准确性的度量标准分为统计和决策支持准确度度量。每个指标的适用性取决于数据集的特征和推荐系统将执行的任务类型。统计准确度度量通过直接将预测的评级与实际用户

詹惠儿

2018-11-26

0.0000 0 2

协同过滤会出现什么问题？

协同过滤技术的优缺点协同过滤与CBF相比具有一些主要优势，因为它可以在没有与项目相关的内容很多的领域中执行，并且内容很难被计算机系统分析（例如意见和理想）。此外，CF技术能够提供偶然的推荐，这意味着它可以推荐与用户相关的项目，即使内容不在用户的个人资料中。尽管CF技术取得了成功，但它们的广泛使用已经揭示了一些潜在的问题如下： 1. 冷启动问题这是指推荐者没有足够的关于用户或项目的信息以进行相

詹惠儿

2018-11-26

0.0000 0 0

协同过滤有哪几种类型？

协同过滤协同过滤是一种独立于域的预测技术，用于内容无法通过电影和音乐等元数据轻松充分地描述。协同过滤技术通过为用户构建项目首选项的数据库（用户项目矩阵）来工作。然后，它通过计算其个人资料之间的相似性来匹配具有相关兴趣和偏好的用户，以提出建议。这样的用户建立一个叫做邻居的小组用户获得他之前未评级但已被其邻居用户评价的项目的推荐。由CF生成的建议可以是预测或推荐。预测是表示用户i的项目j的预测得分

詹惠儿

2018-11-26

0.0000 0 4