python - 从存储在S3（Python）中的PDF中读取文本

我试图从存储在S3中的pdf中读取文本。有没有办法从流中读取文本，而不是在本地创建PDF然后转换它。

import boto3 as boto
from boto3.session import Session

session = Session(
    aws_access_key_id=AWS_ACCESS_KEY_ID,
    aws_secret_access_key=AWS_SECRET_ACCESS_KEY
)

s3 = session.resource('s3')

obj = s3.Object('my-bucket', 'file.pdf')

text = obj.get()['Body'].read()

print(text)

我已经读过这会返回二进制字符串<botocore.response.StreamingBody object at 0x10d5a0fd0>。但不知道如何从中得到文本。

我也是Python的新手。

如何将其作为文本阅读，以便我可以解析该文本？

从存储在S3（Python）中的PDF中读取文本

0 个答案: