标签: c# .net apache-tika
我有一个带有西里尔字母和 ANSI 加密的文本文件。 当我尝试使用 TikaOnDotNet.TextExtraction 提取文件内容时,我只得到空卷。如果我检查它返回的文件的内容类型 - application/octet-stream。 当我将编码更改为 UTF-8 时,内容将被正确提取。