在Stanford主题建模工具箱中读取CSV错误

时间:2012-11-11 13:59:05

标签: csv nlp stanford-nlp topic-modeling

我正在尝试使用Stanford Topic Modeling Toolbox(TMT)来尝试主题建模[0]。我是Scala的初学者。但是,我似乎无法通过读取CSV文件来准备我的数据集。这是我的代码

import scalanlp.io._;

val source = CSVFile("pubmed-oa-subset.csv") ~> IDColumn(1);

println(source.data.size);

这会引发以下错误

Stanford TMT\example-0-test.scala:6: error: not found: value IDColumn
val source = CSVFile("pubmed-oa-subset.csv") ~> IDColumn(1);

同样,我也会在Tokenizer等其他数据预处理函数上出错。这是代码

// Stanford TMT Example 0 - Basic data loading
// http://nlp.stanford.edu/software/tmt/0.4/


import scalanlp.io._;
val source = CSVFile("pubmed-oa-subset.csv") ;
println(source.data.size);

val tokenizer = {
  SimpleEnglishTokenizer()
 }

此处收到上述代码的错误。

error: not found: value SimpleEnglishTokenizer
  SimpleEnglishTokenizer()

我使用的是与TMT主页[1]相同的CSV文件。此外,脚本和数据位于同一文件夹中。

问题是什么?我无法从TMT主页运行完全相同的测试示例。

[0] http://nlp.stanford.edu/software/tmt/tmt-0.4/

[1] http://nlp.stanford.edu/software/tmt/tmt-0.4/examples/pubmed-oa-subset.csv

1 个答案:

答案 0 :(得分:0)

我在运行演示时遇到问题,但它与你的不同。我的问题是由CSV文件中的杂乱字符引起的(http://nlp.stanford.edu/software/tmt/tmt-0.4/examples/pubmed-oa-subset.csv)。我在editer中以UTF-打开CSV文件8,并替换不可读的字符(它们表示为相同的符号),它运行正常。

您的问题似乎缺少类文件或CSV文件格式错误。我不确定。但您可以尝试我的解决方案,我认为凌乱的字符是从主页下载csv文件中的常见问题。或者你可以检查可执行jar文件或csv文件的完整性。

如果上述解决方案不起作用。您可以在stanford java nlp邮件列表中询问。 https://mailman.stanford.edu/mailman/listinfo/java-nlp-user

相关问题