如何用Token标记Python中的段落列表?

时间:2018-07-15 08:12:36

标签: python deep-learning tokenize word2vec sentence

此刻我正在学习word2vec技术,并且陷入了将我的文本数据标记化的句子中。希望有人可以帮助我找出正确的方法。

因此,我的数据是一堆客户的投诉记录。当我将数据加载到python列表中时,它变为:

tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
sentences = tokenizer.tokenize(text[:5][4]) 
sentences

我尝试了社区中一些最常用的Sentence Tokenizer方法,这些方法均返回此错误:

  

TypeError:预期的字符串或类似字节的对象

最终,我找到了:

{{1}}

这类作品,但是我无法计算出要放入[] []的索引,例如:5&4将整个数据集(所有段落)重新标记为句子。

抱歉,如果我的问题含糊,请询问是否需要澄清。

非常感谢

1 个答案:

答案 0 :(得分:2)

您可以在列表理解中使用nltk.tokenize.word_tokenize(),如下所示:

In [112]: from nltk.tokenize import word_tokenize
In [113]: tokenized = [word_tokenize(sent) for sent in text]

输出:

[['this',
  'is',
  'the',
  'first',
  'sentence',
  'of',
  'the',
  'first',
  'paragraph',
  '.',
  'and',
  'this',
  'is',
  'the',
  'second',
  'sentence',
  '.'],
 ['some',
  'random',
  'text',
  'in',
  'the',
  'second',
  'paragraph',
  .
  .
  .
  .
  ]]