标签: python scikit-learn nlp tf-idf tfidfvectorizer
我正在开发一个程序,该程序使用tfidf从新闻网站中识别文章的主题。如您所知,每天都会有新的文章问世,我需要能够计算单个新文章(或一组新文章)的tfidf。我了解tfidf不适用于单个文档,而与语料库无关。
考虑到这些限制,将tfidf应用于新文档以识别主要主题的最佳方法是什么?