清理半冗余文本

时间:2017-08-04 10:19:21

标签: python text fuzzy-search redundancy fuzzywuzzy

首先是一点背景: Link to attachments

我有很多语音到文本应用程序生成的文本(老实说我不知道​​应用程序的名称,因为我没有物理访问权限,但我可以访问实时输出)。 我正在实时挖掘这些数据,输出文本看起来像第一个附件,有些部分非常干净,有些部分非常冗余。

我现在用Python编写了一个清理文本的软件(附件二)。问题是,我一次只能在很多文本上进行,例如。我的备份有几百兆字节的纯文本,当它实时出现时,很难处理几个字符串,因为半冗余持续15-25行(正如你在附件1中看到的那样)。

该软件适用于较大的文件,我现在正在尝试重写代码,以便它与实时输出一起使用。

但由于我是一名自学成才的程序员,我想知道是否有人可以分享他们的工作方式。

我的方法是(也见附件二,但我不擅长评论,所以我不知道你是否会从中得到很多):

  1. 打开文件(纯文本)并等待25行 写入文件
  2. 将25行读入列表,我们称之为MasterList
  3. 在MasterList上运行清理功能(1-7)(见下文)
  4. 打印第10-14行以清理文件(第一次打印第0-14行)
  5. 将MasterList的第5-24行推到MasterList的开头,使它们现在具有索引0-19
  6. 将5个新行读入Masterlist或等到5个新行准备就绪
  7. 回到#3
  8. - >关于#3的注意事项: 清理功能执行以下操作: *通过使用模糊字符串匹配,模糊模糊和删除重复或半重复行来比较行

    *检查句子中的第一个单词是否与前一个句子中的最后一个单词相同,在这种情况下删除前一个句子中的最后一个单词 *更小的东西,使文字看起来干净。

    我的问题是: 你会以完全不同的方式去做吗? 也许机器学习? 另一种语言可能更适合? 任何图书馆甚至软件都已经这样做了吗?

    如果你确实阅读了我的代码,我也渴望了解我的错误,如果你看到我正在做的一些愚蠢的事情,那么批评(如果你想要抨击我,那就是严厉的批评)是非常受欢迎的。

    非常感谢你的时间。

0 个答案:

没有答案