我是文本分析的新手,被困在文档中似乎没有回答的问题上(或者至少我找不到)。
我已经从Quanteda DfM中创建了R中的STM,该STM关联了docvar。主题基于新闻来源,而docvar则指示新闻的发布日期和日期(作为一个字符串)。
STM估计正常,但是对于我的项目,我真正想知道的是哪个新闻媒体和日期组合与哪些主题相关。本质上,我想要这样的输出:
outlet_date topic_1 topic_2 topic_3
newyorktimes_20181001 0.6 0.23 0.17
newyorktimes_20181002 0.54 0.4 0.06
newyorktimes_20181003 0.2 0.73 0.07
这可能吗?
很抱歉,没有可复制的示例-不确定到此为止的所有步骤,如何确定如何包含该示例。非常感谢!
答案 0 :(得分:1)
这是解决方案!
图书馆(tidyverse) x <-tidy(topicModelName,matrix =“ gamma”,document_names = rownames(df))