标记或标记非结构化数据

时间:2012-06-14 01:44:10

标签: macos extraction text-extraction

我不完全确定如何称呼它,但我搜索了几个短语而没有找到我需要的东西。

我有很多非结构化数据需要进入数据库。我曾经用Needlebase做繁重的工作,只是从那里清理数据。但现在已经没有了,我想要一个很好的方法来快速抓取文字,而不是选择,复制,粘贴,泡沫,冲洗,重复。

理想情况下,我可以选择一些文本,弹出窗口会询问它是什么(从用户定义的列表,标题,开始时间,图像路径等),然后将其标记为这样。当然,我需要能够标记记录的开头和结尾(所有行数据都是连续的,而不是以易于解析的格式)。

我可能会在几个小时内写下这样做的东西,但是如果存在某些东西,我不想重新发明轮子。我在OS X上,但我对任何平台的软件感兴趣。

1 个答案:

答案 0 :(得分:0)

是HTML格式的数据吗?如果是,你可以使用Jsoup