tag-cloud - 标记云数据后端

我希望能够从来自任意数量的不同来源的自由文本生成标记云。为清楚起见，我不是在谈论如何在发现关键标签/短语后显示标签云，我希望能够自己发现有意义的短语......最好是在PHP / MySQL堆栈上。< / p>

如果我必须自己这样做，我首先要为单词/短语建立某种索引，为任何单词/短语提供“正常”频率。例如，“君士坦丁堡”平均每1,000,000个单词出现一次（正常频率“0.000001”）。然后，当我分析一组文本时，我会找到单个单词/短语（另一个挑战！），在输入中找到每个单词的频率，并根据预期的频率进行测量。对预期频率具有最高比率的词在云中得到提升。

我想相信其他人已经做到了这一点，比我希望的更好，但如果我能找到它，我会被诅咒。

任何建议??

标记云数据后端

1 个答案: