SCISPACY-超出最大长度

时间:2020-04-02 18:24:31

标签: python nlp spacy

尝试将spaCy管道用于生物医学数据时出现以下错误。

ValueError: [E088] Text of length 36325726 exceeds the maximum of 1000000. The v2.x parser and NER models require roughly 1GB of temporary memory per 100,000 characters in the input. This means long texts may cause memory allocation errors. If you're not using the parser or NER, it's probably safe to increase the `nlp.max_length` limit. The limit is in the number of characters, so you can check whether your inputs are too long by checking `len(text)`.

注意:减小尺寸时,效果很好。但是,NLP都是关于大数据的:)(主要是)

更新: 因此,ValueError得到解决。但是SciSpacy使用了太多的处理能力,因此迫使Kaggle Kernel重新启动。

就目前而言,我已经将我的数据集(1919篇文章分为15个单独的项目)进行了拆分,以实现结果。

但是请让我知道是否还有其他方法以及是否缺少某些东西。这是最新的内核:Cord-19

spacy

0 个答案:

没有答案
相关问题