Python-将Wiki页面转换成句子

时间:2018-07-14 16:52:15

标签: python-3.x wikipedia

我正在尝试阅读Wiki页面,收集并列举所有句子。

#read the wiki page

import wikipedia
eliz = wikipedia.page("Elizabeth II")
fullText2=eliz.content

m = re.split('(?<!\w\.\w.)(?<![A-Z][a-z]\.)(?<=\.|\?)(\s|[A-Z].*)',fullText2)
docs=[]
for i in m:
  print (i)
  docs.append(i)

但是分割句子似乎无法正常工作: 例如,我从整体上得到了这个!!

  

“伊丽莎白从   伊顿公学副校长亨利·马滕(Henry Marten)从   讲母语的女继承人。一个女孩指南公司,   第一个白金汉宫公司成立是为了让她能够   与自己年龄相同的女孩交往。后来,她被海录取   游侠.1939年,伊丽莎白的父母参观了加拿大和美国   状态。和1927年一样,她的父母曾到澳大利亚和新州巡回演出   新西兰,伊丽莎白留在英国,因为她的父亲认为她   太年轻了,无法进行公共旅行。伊丽莎白像她一样“眼泪汪汪”   父母离开了。他们定期通信,她和她的父母   于5月18日进行了第一个皇家跨大西洋电话。”

0 个答案:

没有答案