无法使用gsub

时间:2018-07-24 22:46:16

标签: r regex unicode gsub

我已经查看了许多其他关于如何从字符串中删除Unicode字符的stackoverflow问题/答案,但是似乎没有一个对我有用!

精确再现问题:

event = as.data.frame(read_html("https://www.bestfightodds.com/events/ufc-226-miocic-vs-cormier-1447") %>% html_table(fill=T))
event$X5Dimes

如您所见,其中包含向上和向下箭头。我想删除它们,以便仅保留该行。例如

"-310<U+25BC>" would become "-310"

我尝试了许多gsub模式来删除它们-我自己创建的以及从其他堆栈溢出答案中删除的-但没有任何效果!下面是一些示例模式

event$X5Dimes = gsub("<.+>", "", event$X5Dimes)
event$X5Dimes = gsub("\\S+\\s+|-", "", event$X5Dimes)
event$X5Dimes = gsub("^\\s*<U\\+\\w+>\\s*", "", event$X5Dimes)
event$X5Dimes = gsub("\\<U[^\\>]*\\>", "", event$X5Dimes)  

有人可以帮忙吗?非常感谢-失去理智了!谢谢!

1 个答案:

答案 0 :(得分:1)

尝试通过这种方式简单地做到这一点:

event$X5Dimes = gsub("▼|▲", "", event$X5Dimes)