Tf-idf具有大或小的语料库大小

时间:2017-06-30 19:09:08

标签: tf-idf

“使用大型语料库的Tf-Idf方法的本质是,使用的语料库越大,术语的唯一权重就越大。这是因为语料库中文档大小的增加或文档长度的概率较低在语料库中复制两个项的权重值。也就是说,Tf-Idf方案中的权重可以为权重提供指纹。在低权限语料库中,Tf-Idf不能产生差异,因为有很大的发现潜力两个具有相同权重的术语,因为它们在每个文档中共享相同频率的相同源文档。根据语料库大小,此特征可以是抄袭检测领域中使用Tf-Idf加权方案的对手和支持者。“ p>

这是我从tf-idf技术中推断出来的......是真的吗?

是否有任何链接或文件可以证明我的结论?

0 个答案:

没有答案
相关问题