有人在数据库方面解释“Tokenized Field”吗?

时间:2010-01-22 08:56:43

标签: java sql mysql database indexing

我正在阅读SOLR并将MySQL数据库索引到SOLR中。

“tokenize”和“un-tokenize”是什么意思?

当字段“规范化”时,它意味着什么?

我知道规范化数据库的方式和意义,但是一个字段? 如何简化一个简单的字段?

由于

2 个答案:

答案 0 :(得分:5)

  

他们的意思是“标记化”和   “非标记化”?

对字段进行标记可以进行全文搜索,即查找字段中任何位置出现的任何单词。只有当您拥有完整且完全匹配时,才会找到未填充的字段,例如:如果该字段的内容为“蓝月亮”,那么只有当您搜索“蓝月亮”时才会找到它,而不是只搜索“蓝色”时。

  

字段是什么意思   “归一化”?

这很可能是指Unicode normalization - Unicode为变音符号提供了单独的代码点,例如U + 0060是`(重音符号),所以重音字母è可以是一个Unicode字符(U + 00E8)或由两个字母组成(U + 0060和U + 0065)。但是当然你想要在搜索è时找到它们。

答案 1 :(得分:3)

标记生成器将字符流拆分为单词,这些单词是搜索的原子单位。字符串可以根据空格,单词边界等进行拆分。这些单词通常通过第二阶段的过滤器传递,这些过滤器对单词应用其他变换(如soundex代码,搬运工词干等)。结果是可以有效比较的单词的标准化表示。

例如:“猫吃奶酪!”可能会被标准化为:1)猫2)吃3)奶酪

“the”被删除(禁用词),cat现在是单数(词干),标点符号已经消失,而且这些词语更低。

相关问题