Question

我希望你明白我想做什么。选择最好的单词很难，因为英语不是我的第一语言，我不信任自动翻译。我会尽力解释。

我正在考虑分析一篇长篇文章。例如，假设我有一个字符串分为段落。

Lorem ipsum dolor坐下来，精神上的精神。 Nulla vitae elit libero，一个pharetra augue。 Lorem ipsum dolor坐下来，精致的adipistur elit。 Cras mattis consectetur purus坐amet发酵。

Duis mollis，est non commodo luctus，nisi erat porttitor ligula，eget lacinia odio sem nec elit。 Aenean eu leo quam。 Pellentesque ornare sem lacinia quam venenatis vestibulum。 Cras justo odio，dapibus ac facilisis in，egestas eget quam。 Lorem ipsum dolor坐下来，精致的adipistur elit。 Curabitur blandit tempus porttitor。 Maecenas sed diam eget risus varius blandit sit amet non magna。

我想将这个字符串存储在一个数组或类似的东西中，我可以很快找到这两个段落的长度或位置。例如（伪代码）：

Array => {

    paragraphs => {

        "Lorem ipsum dolor sit amet, [...] fermentum.",
        ...

    }

}

我真的不知道这是否有名字。我想有很多关于如何完成这类任务的理论。我真的对在处理大量文本时关注性能的实践感兴趣。我想有一些东西需要学习和仔细阅读。

非常感谢任何帮助。提前谢谢，
-Alberto

Answer 1

也许读到Apache的UIMA，它都是关于分析非结构化信息，文本分析是其中的一个主要组成部分。

分析和存储数据结构中的文本

1 个答案: