使用正则表达式提取第一段

时间:2011-10-22 13:18:08

标签: python regex

我正在尝试提取第一段。但我发现运气不错。谁能帮我?这是文字。 http://dpaste.com/638776/。我的文字是动态的。感谢

更新:我正在使用eTree模块阅读XML文件。在XML中,有一个名为<text></text>的标记。 <text></text> is here之间的数据。我只想打印来自text tags的数据。可能吗?感谢

  '''Zamindar''' ({{te|జమీందార్}}) is a 1965 [[Telugu language|Telugu]] "Thriller" film 
  directed by [[V. Madhusudhan Rao]] and produced by [[Tammareddy Krishna Murthy]] 
  of Ravindra Art Pictures.This is variety role for [[Akkineni Nageswara Rao]]
  who is more popular with soft Romantic roles.He plays the role of a tough CID Officer     very well.The Movie has some Good songs.This movie has a considerable resemblance with the 1963 [[Cary Grant]] English Movie ''[[Charade (1963 film)|Charade]]''.

2 个答案:

答案 0 :(得分:1)

如果你构建一个点与新行匹配的正则表达式,你有(在ruby中测试但我猜它会在python中工作)。这与Niall Byrne的答案完全相同:

}}\n(.*?)\n\n

请在rubular处查看效果。

答案 1 :(得分:0)

根据新信息修改......

如果您能够在标签之间生成文本,您只需找到适合所有情况的第一段的模式,因此基于此示例:

 #data - stuff between text tags
 firstparagraph = re.search("}}(.*?)\r*\n\r*\n",data,re.DOTALL)
 print firstparagraph.group(1)