啊啊啊啊啊吖

2019-02-28   阅读量: 1041

数据分析师 R语言

在r中使用html_nodes()排除注释

扫码加入数据分析学习群

我正在使用rvestR中的包来刮取股票市场价格。我想在使用时排除节点html_nodes()。

以下课程在网站上以股票价格出现: [4] <span id="ctl00_ctl00_Content_LeftContent_IssueList_StockList_repIssues_ctl02_DifferenceBlock_lblRelativeDifferenceDown" class="ValueDown">-0,51%</span>

[5] <span id="ctl00_ctl00_Content_LeftContent_IssueList_StockList_repIssues_ctl02_ctl02_lblDifference" class="ValueDown Difference">-51%</span>

现在我想只包括之后的文本class="ValueDown",我想在之后排除文本class="ValueDown Difference"。

为此,我使用以下代码:

urlIEX <- "https://www.iex.nl/Koersen/Europa_Lokale_Beurzen/Amsterdam/AMX.aspx"

webpageIEX <- read_html(urlIEX)

percentage_change <- webpageIEX %>%

html_nodes(".ValueDown") %>%

html_text()

但是,这给了我两个值-0,51%和-51%。有没有办法包含所有内容class="ValueDown"并排除所有内容class="ValueDown Difference"?

解决办法:应该使用属性选择器:

percentage_change <- webpageIEX %>%

html_nodes("[class='ValueDown']") %>%

html_text()

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.0000 0 4 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子