正则表达式从白色空格分隔的文本文件中捕获所有单词

时间:2013-01-25 10:28:07

标签: regex

我对Regex只有一些基本的了解。我的目的是捕获word文档中的每个单词,为此我设计了这个正则表达式。我的word文档由数字写成Rs.1,00,000 / - 并且它还包含写为57.58的小数。它还包含对像F.No.245 / 12-445 / 235这样的文件的引用,这些文件没有用空格分隔。

以下正则表达式几乎成功

(Rs\.)?((\d{1,2}[\,])?)+(\d{3}\/\-)|([']?[\(]?[A-Za-z0-9][']?[-]?[?]?[!]?[:]?[-]?[.]?[/]?[\.]?[\(]?[\)]?[\(]?[\)]?[\/]?)+

为了捕获单词,我将它从word文档中剪切并粘贴到一个文本文件中,然后由C#程序读取。我的问题是我从不想要出现在单词结尾的句点或点。如果结束词后跟感叹号或问号,那就没关系了。当我测试它时,它从文本文件中捕获了13150个单词,而单词文档显示有13,158个单词。

1 个答案:

答案 0 :(得分:0)

您需要非空白字符,后跟空格或“F.No。”:

\S*?(?=\s|(F\.No\.))
相关问题