.dic行格式定义

时间:2013-09-17 14:07:19

标签: dictionary formatting sublimetext2 aspell affix

我目前正在研究在我正在构建的应用程序中使用的最合适的字典。

检查与Sublime Text 2捆绑在一起的词典,文件格式与您期望的一样 - 按字母顺序排列的单词列表。但是,很多这些词都附加了额外的信息。以此片段为例:

abaft
abbreviation/M
abdicate/DNGSn
Abelard/M
abider/M
Abidjan
ablaze
abloom
aboveground
abrader/M
Abram/M
abreaction/MS
abrogator/MS
abscond/DRSG
absinthe/MS
absoluteness/S
absorbency/SM
abstract/ShTVDPiGY
absurdness/S

毫无结果的谷歌搜索没有说明斜线(/)之后的字母是什么意思。

也许他们暗示了这个词的性别,但这只是一个猜测,我更愿意阅读他们意义的正式解释。

有人遇到过这些吗?

2 个答案:

答案 0 :(得分:5)

斜杠后面的字母称为词缀。这些编码可以是可以应用于根词的前缀或后缀。

请参阅this blog post以获得一个很好的解释以及可以使用这些词缀的示例。

Another place to lookaspell手册。

答案 1 :(得分:2)

TLDR :斜杠后面的.dic文件中的每个字母都是.aff文件中规则的名称。

https://superuser.com/a/633869/367530

  

每个规则都在该语言的.aff文件中。规则分为两部分   flavor:后缀为SFX,前缀为PFX。每一行都以   PFX / SFX然后是规则字母标识符(后面跟随的那个)   字典文件中的单词:

     

PFX [rule_letter_identifier] [combineable_flag] [number_of_rule_lines_that_follow]

     

您通常可以忽略可组合标志,它取决于Y或N.   是否可以与其他规则结合使用。然后有一些   列出不同可能性的行数(由...表示)   该规则在不同情况下的适用方式。它看起来像这样:

     

PFX [rule_letter_identifier] [number_of_letters_to_delete] [what_to_add] [when_to_add_it]

     

例如:

     
      
  • SFX B Y 3
  •   
  • SFX B 0 able [^aeiou]
  •   
  • SFX B 0 able ee
  •   
  • SFX B e able [^aeiou]e
  •   
     

如果B是单词后面的字母之一,即someword/B,那么这是其中之一   可以适用的规则。有三种可能性发生   (因为有三行)。只有一个适用:

     当单词的结尾时,

able会添加到结尾处   由^)字母中的一个字母(由[ ]表示)   aeiou。例如,添加问题→可疑的能力   到最后这个词的结尾是ee。例如,同意→   合适的。当单词的结尾不是a时,才能添加到最后   元音([^aeiou])后跟e。字母e被删除(   专栏之前)。例如,兴奋→兴奋。

     

PFX规则是相同的,但在单词的开头应用   对于前缀。