位置拆分：使用`regex`模块

我会给你一个＆＃34;分裂＆＃34;和＃34;全部匹配＆＃34;选项。让我们从＆＃34; Split＆＃34;开始。

在许多引擎中，但不是Python的re模块，您可以在零宽度匹配定义的位置进行拆分。

在Python中，为了分割一个位置，我会使用Matthew Barnett的杰出regex module，其功能远远超过Python的默认re引擎。这是我在Python中的默认正则表达式引擎。

根据您的输入，您可以使用此正则表达式：

(?V1)(?<=[a-z])(?=[A-Z])|(?<=[.!?]) +(?=[A-Z])

请注意，如果您使用奇怪格式的首字母缩写词，例如B. B. C.，我们需要调整它。

示例Python代码：

string = "I have 9 sheep in my garageVideo games are super cool. Some peanuts can sing, though they taste a whole lot better than they sound!"
result = regex.split("(?V1)(?<=[a-z])(?=[A-Z])|(?<=[.!?]) +(?=[A-Z])", string)
print(result)

<强>输出：

['I have 9 sheep in my garage', 
'Video games are super cool.', 
'Some peanuts can sing, though they taste a whole lot better than they sound!']

<强>解释

(?V1)指示引擎使用新行为，我们可以在零宽度匹配上进行拆分。
(?<=[a-z])(?=[A-Z])匹配一个位置，其中lookbehind (?<=[a-z])可以声明前面的内容是小写字母，而前瞻(?=[A-Z])可以断言后面的内容是大写字母。
|或......
(?<=[.!?]) +(?=[A-Z])匹配一个或多个空格+，其中lookbehind (?<=[.!?])可以断言先前的点是点，爆炸，问号和空格，以及前瞻{{1}可以断言后面的内容是大写字母。

选项2：使用(?=[A-Z])（再次使用findall模块）

自＆＃34; Split＆＃34;和＃34;全部匹配＆＃34;操作是同一枚硬币的两面，你可以这样做：

regex

同样，这不适用于print(regex.findall(r".+?(?:(?<=[.!?])|(?<=[a-z])(?=[A-Z]))",string))（会跳过开始第二句re的{{1}}）。

标点符号或骆驼案的分句

1 个答案:

位置拆分：使用`regex`模块

标点符号或骆驼案的分句

1 个答案:

位置拆分：使用regex模块

位置拆分：使用`regex`模块