PDF中的段落阅读

时间:2019-07-01 12:25:12

标签: c# itext

在我的代码中,我需要读取PDF文件的内容,并且根据一些特定要求,我需要将PDF的内容插入SQL Server DB。 我使用iTextsharp进行PDF阅读。当找到PDF的整行内容时,它读起来很好。 当他们在PDF中找到表格时就会出现问题。

它首先进入column1并读取该行,然后跳至column2并读取该行,依此类推。 问题是column1有段落字符串,而column2有段落字符串。它将这些段落分成没有意义的单行。

我希望它的工作方式类似于转到column1读取段落,如果它在换行符之后找到新段落,则从第二行读取该段落。 处理完column1之后,跳到colum2。

当前我正在使用以下代码:

PdfReader reader = new PdfReader(@"D:\pdf1.pdf");
int PageNum = reader.NumberOfPages;

StringBuilder text = new StringBuilder();

for (int i = 1; i <= PageNum; i++)
{
    ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
    string currentText = PdfTextExtractor.GetTextFromPage(reader, i, strategy);

    currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default,
                                          Encoding.UTF8, 
                                          Encoding.Default.GetBytes(currentText)));
    text.Append(currentText);

    ReadContent(text.ToString());
    text.Clear();   
}

0 个答案:

没有答案