Question

我认为我有一个非常简单的代码来打开文件，阅读它并将其标记为句子。

import nltk
text = open('1865-Lincoln.txt', 'r')
tokens = nltk.sent_tokenize(text)
print(tokens)

但我只是继续得到以

结尾的疯狂长错误

TypeError: expected string or bytes-like object

Answer 1

您需要在打开和令牌之间执行读取命令。

fileObj = open('1865-Lincoln.txt', 'r')
text = fileObj.read()

Answer 2

您只是打开文本文件而没有读取相同的含义，即同一文件的内容不会记录为字符串，并且您只是将文件传递给nltk以标记化句子，这只有在提供nltk时才可能使用字符串类型输入。希望你能理解。谢谢：）

Answer 3

您需要调用 read() 函数以便在之后从您的文件中读取内容，它将允许通过 nltk.sent_tokenize 包标记您的句子。重新生成您的代码如下：

import nltk
filex = open('1865-Lincoln.txt', 'r')
text = filex.read()
tokens = nltk.sent_tokenize(text)
print(tokens)