从MS Word文档构建数据库的最佳方法是什么?

时间:2011-02-23 22:03:01

标签: python database algorithm

请告诉我如何解决这个问题:

我在MS Word的文档中有一个连续的元数据列表。基本思想是创建一个Python算法来迭代信息,从数据库中检索PROCESS的名称,何时成为队列。

示例元数据:

  

流程: Process Walker(1965)
  确切参考: Walker Process Equipment。,Inc。诉食品机械公司

     

链接: http://caselaw.lp.findlaw.com/scripts/getcase.pl?court=US&vol=382&invol=

     

程序类型:Certiorari至美国第七巡回上诉法院。   缔约方:Walker Process Equipment,Inc。

     

部门:系统是......

     

开始日期: 10月12日至13日Arguedas,1965年   摘要:食品机械公司已经启动了一项程序,通过使用通过欺诈获得的专利来阻止或减缓竞争对手的进入。该案件涉及污水处理系统曝气设备中使用的“膝盖式摇摆扩散器”专利,问题在于“在专利局之前通过欺诈获得的专利的维护和执行”是否可能成为反托拉斯处罚的依据。
  进化过程的报告:请愿者,回应回应......

     

重要性: a)第一个为争议诊断建立分析的案例......

大约有200页包含上述信息。

我想到了在Python中实现算法的想法,能够打破这个信息序列并尝试将其存储在Web数据库(我正在寻找的开源应用程序)中,以便免费协商。

2 个答案:

答案 0 :(得分:3)

签出AntiWord将文档转换为纯文本,然后使用grep和sed转换为可以输入脚本的格式。

答案 1 :(得分:2)

Word的最新版本允许您以XML格式保存文档。这可以通过明确的"保存为"并选择XML,或解压缩.docx文件并解析其XML。 XML格式在线记录,具体取决于Word的版本:2003 Office XML2007/2010 Office Open XML

任何更强大的功能(例如需要操纵文档)都需要与.NET接口(MS Open XML SDKAspose。单词)。