如何使用Apache Tika从.wps文件中提取文本?

时间:2015-09-29 13:24:35

标签: java apache-tika

我正在使用Tika从几种类型的文档中提取文本。 java -jar tika-app-1.10.jar -T [输入文件] 我意识到Tika-1.10可以检测.wps文件(java -jar tika-app-1.10.jar -m [ .wps]正在返回元数据)但它无法从.wps文件中提取文本(java - jar tika-app-1.10.jar -T [ .wps]文件没有返回任何内容)。有没有其他方法可以从Java中的wps文件中提取文本? 任何帮助是极大的赞赏 谢谢

2 个答案:

答案 0 :(得分:1)

截至Tika 1.13,我们没有wps文件的解析器。我们支持旧的Works 7.0电子表格,但不支持wps。如果您希望我们添加支持,请在我们的JIRA上打开一个问题。 (我坦率地不知道需要做多少工作)。

答案 1 :(得分:0)

尝试添加此参数:(对于Tika 1.2)

function [ y2,Phi2 ] = Phi2_operator( x,R,T )
    J = R * T;
    [S1,S2] = size(x);

    y2 = zeros(size(x));

    k1 = randperm(S1,R);
    k2 = randperm(S2,T);

    y2(k1,k2) = x(k1,k2);  

    X=find(y2);
    Phi2 = sparse(1:J,X,ones(1,J));
end

对于Tika 1.1:

--text-main     Output plain text content (main content only)

见这里:https://tika.apache.org/1.2/gettingstarted.html

考虑使用1.8或1.9版本的apache tika。

相关问题