是否有排序文本的标准指标?

时间:2013-09-06 20:56:35

标签: text metrics

给定一系列数字,例如[80,240],可以很容易地确定该范围的多少[100,105] :( 105-100)/(240-80)= 5/160 = .03125。容易。

现在,有多少Meriam Webster词典介于伞和天鹅绒之间?即使我们假设整个语料库中的文本均匀分布,是否有文本的标准度量标准?

1 个答案:

答案 0 :(得分:1)

我认为没有标准。如果您在阵列中拥有Meriam Webster的所有条目,则可以使用第一个和最后一个位置作为边界,因此您将拥有从1到n的集合。然后你可以选择“伞”和“天鹅绒”的位置,称他们为xy,并将你的范围计算为(y - x + 1) / (n)

如果您将单词视为有序集的元素,那么它将起作用,以使它们表现为实数。您基本上将一组中两个数字之间的距离除以该组边界之间的距离。某些形式的代数以不同的方式处理它们 - 例如,在计算任意两个给定单词之间的Levenshtein distance时,每个单词都被视为具有与字符一样多的维度的向量。

您可以使用Meriam Webster中最大的单词来定义n维空间的边界(提示:它是“pneumonoultramicroscopicsilicovolcanoconiosis”,因此您的空间将有45个维度)。但是,在考虑任何A-B对单词时,中间长度的第三个单词C可能会也可能不会介于这两个单词之间,具体取决于从A到{{}的转换所涉及的操作1}}。

您必须检查长度介于BA之间的每个字词,以检查它们是否属于BA之间的范围。 ..所以这不是一个简单的微积分问题,我不知道现在普通的计算机是否可行。而这只是考虑到Meriam接近50万条款。

相关问题