从存储在S3(Python)中的PDF中读取文本

时间:2017-11-14 00:17:17

标签: python pdf amazon-s3 boto3

我试图从存储在S3中的pdf中读取文本。有没有办法从流中读取文本,而不是在本地创建PDF然后转换它。

import boto3 as boto
from boto3.session import Session

session = Session(
    aws_access_key_id=AWS_ACCESS_KEY_ID,
    aws_secret_access_key=AWS_SECRET_ACCESS_KEY
)

s3 = session.resource('s3')

obj = s3.Object('my-bucket', 'file.pdf')

text = obj.get()['Body'].read()

print(text)

我已经读过这会返回二进制字符串<botocore.response.StreamingBody object at 0x10d5a0fd0>。但不知道如何从中得到文本。

我也是Python的新手。

如何将其作为文本阅读,以便我可以解析该文本?

0 个答案:

没有答案
相关问题