正则表达式模式与URL匹配

时间:2019-04-12 12:21:02

标签: r web-scraping rvest

我正在尝试使用rvest吸引大量网站的信息。这些网站的重复模式如下:

https://mpi-lingweb.shh.mpg.de/numeral/Armenian.htm  
https://mpi-lingweb.shh.mpg.de/numeral/Dutch.htm  
https://mpi-lingweb.shh.mpg.de/numeral/German.htm  

我尝试编写一个正则表达式(与stringr一起使用,并将其用作read_htmlrvest函数的输入模式,但这似乎不起作用:

library(stringr)
library(rvest)

p <- regex("https://mpi-lingweb.shh.mpg.de/numeral/.*.htm")

q <- read_html(p)

我收到以下错误消息:

Fehler in open.connection(x, "rb") : HTTP error 404.

0 个答案:

没有答案