从网址读取pptx文件内容

时间:2017-04-24 13:43:00

标签: python

我发现这个解决方案是从URL中读取word文件内容

from urllib.request import urlopen
from bs4 import BeautifulSoup
from io import BytesIO
from zipfile import ZipFile

file = urlopen(url).read()
file = BytesIO(file)
document = ZipFile(file)
content = document.read('word/document.xml')
word_obj = BeautifulSoup(content.decode('utf-8'))
text_document = word_obj.findAll('w:t')
for t in text_document:
    print(t.text)

任何人都知道处理pptx文件的类似方法吗?我已经看到了几个解决方案,但是直接读取文件,而不是从URL中读取。

1 个答案:

答案 0 :(得分:0)

我不知道它是否可以帮到你,但是你用urllib获取了pptx的内容(变量GRANT ALTER ON dbo.my_table TO my_user),在函数中使用file来读取pptx文件路径来模拟一个文件。