Question

在我的代码中，我需要读取PDF文件的内容，并且根据一些特定要求，我需要将PDF的内容插入SQL Server DB。我使用iTextsharp进行PDF阅读。当找到PDF的整行内容时，它读起来很好。当他们在PDF中找到表格时就会出现问题。

它首先进入column1并读取该行，然后跳至column2并读取该行，依此类推。问题是column1有段落字符串，而column2有段落字符串。它将这些段落分成没有意义的单行。

我希望它的工作方式类似于转到column1读取段落，如果它在换行符之后找到新段落，则从第二行读取该段落。处理完column1之后，跳到colum2。

当前我正在使用以下代码：

PdfReader reader = new PdfReader(@"D:\pdf1.pdf");
int PageNum = reader.NumberOfPages;

StringBuilder text = new StringBuilder();

for (int i = 1; i <= PageNum; i++)
{
    ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
    string currentText = PdfTextExtractor.GetTextFromPage(reader, i, strategy);

    currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default,
                                          Encoding.UTF8, 
                                          Encoding.Default.GetBytes(currentText)));
    text.Append(currentText);

    ReadContent(text.ToString());
    text.Clear();   
}

PDF中的段落阅读

0 个答案: