Question

我对Regex只有一些基本的了解。我的目的是捕获word文档中的每个单词，为此我设计了这个正则表达式。我的word文档由数字写成Rs.1,00,000 / - 并且它还包含写为57.58的小数。它还包含对像F.No.245 / 12-445 / 235这样的文件的引用，这些文件没有用空格分隔。

以下正则表达式几乎成功

(Rs\.)?((\d{1,2}[\,])?)+(\d{3}\/\-)|([']?[\(]?[A-Za-z0-9][']?[-]?[?]?[!]?[:]?[-]?[.]?[/]?[\.]?[\(]?[\)]?[\(]?[\)]?[\/]?)+

为了捕获单词，我将它从word文档中剪切并粘贴到一个文本文件中，然后由C＃程序读取。我的问题是我从不想要出现在单词结尾的句点或点。如果结束词后跟感叹号或问号，那就没关系了。当我测试它时，它从文本文件中捕获了13150个单词，而单词文档显示有13,158个单词。

Answer 1

您需要非空白字符，后跟空格或“F.No。”：

\S*?(?=\s|(F\.No\.))