使用iTextSharp从PDF中提取盲文文本(图像)

时间:2011-08-07 11:04:54

标签: pdf itextsharp extract itext braille

盲文是盲人的特殊字体。我正在尝试解码用PDF文件中的盲文字体编写的文本并输出普通文本。但 PDFTextExtractor(在iTextSharp中)无法处理此字体。是否有可能以任何其他方式?

我想知道如何从pdf文件中解码。

我尝试过使用,

PdfReader pdf = new PdfReader("C:\\pdfs\\file.pdf");
string text = PdfTextExtractor.GetTextFromPage(pdf, 1);

this.brailleTextBox.Text = text.ToString();
this.normalTextBox.Text = text.ToString();

在pdf文件上有普通字体(例如Arial)和盲文字体的文本,但它不会返回盲文文本,而只返回页面上的普通文本。

如何使用iTextSharp获取盲文字体文本。

1 个答案:

答案 0 :(得分:0)

(尚未回答)

好吧,也许我没有正确理解。我刚刚尝试在您提供的PDF上使用PdfTextExtractor并且它正常工作。具体而言,以下文字被删除了第1页:

B   r    a   i     l    l    e   C   o   d    e   s 
B r a i l l e C o d e s 

Embossed dot positions as,   


A  B   C   D   E   F   G  H   I    J   K  
A B C D E F G H I J K 
L    M  N  O   P  Q   R  S   T   U   V  
L M N O P Q R S T U V 
W  X   Y   Z 
W X Y Z 


1   2   3    4   5   6    7   8   9   0 
1 2 3 4 5 6 7 8 9 0

如果我误解了你,我很抱歉,但你是否想把文字作为盲文取回?