我需要一个自定义的想法,只检测图像中的字幕。也许是图像处理的一些步骤,以便能够正确地从处理过的图像中提取(例如,使用tesseract)字符。
答案 0 :(得分:1)
为什么不切割图像底部然后对此应用tesseract? 在linux上的bash中,我将以下内容放在bash脚本中并将其应用于所有图像(例如xargs):
# filenames
input="$1"
extension=$(echo $(echo "$input"|sed 's/.*\.//g'))
nomfich=$(basename $input .$extension)
interm="$nomfich.tiff"
# convert to tiff and crop
convert -gravity South -crop 100%x15%+0+0 -density 300 $input $interm
# ocr
tesseract $interm $nomfich