我正在从一堆不同的较小字典文件中编译字典文件。编译列表的格式为:
apple
banana
carrot
但是有些文件包含奇怪的unicode字符,注释和空格。我想完全删除任何包含任何非字母字符的行。所以对于这样的列表:
apple
Ϥ
#comment
banana carrot
zeta
会变成:
apple
zeta
最好的方法是什么?
编辑:这包括删除空行。
答案 0 :(得分:1)
您需要输入 ctrl + h 才能打开Replace
窗口并填写如下:
然后,您可以点击Replace All
如果您想删除空行重复同样的事情:Find what
填写^\s*
并保持replace with
为空 < / p>
答案 1 :(得分:0)
writeTo=open("newTable.txt","a")
for line in open("table.txt","r"):
if(not line=="\n"):
use=True
for char in line.replace("\n",""):
if(not char.isalnum() and not char==' '):
use=False
break
if(use):
writeTo.write(line)
writeTo.close()
澄清:这是python代码,要求输入目录为table.txt并将其输出写入newTable.txt