删除不经常出现的列表中的单词

时间:2016-01-08 18:20:29

标签: list python-2.7 text token

我有许多文档已经被标记化并转换为带有标记作为元素的列表 - 然后我将所有这些列表插入到列表中,以便我有一个标记列表列表。

简单示例:

@test

我想删除出现在少于x%的文档中的标记(例如上面的“梨”,因为它只出现在三个文档中的一个文档中。)但是,我不知道如何做到这一点以一种有效的方式 - 我知道数据结构可能有问题,但我需要输出为我的代码的下一部分的这种格式。

我当前的代码看起来像这样,当有很多文档时显然不是很有效:

[["egg","apple","bread","milk","pear"], ["egg","apple","bread","milk"], ["egg","apple","bread","milk"]]

任何建议都将不胜感激!

1 个答案:

答案 0 :(得分:1)

<ComboBox ... HorizontalContentAlignment="Right">
    <ComboBox.ItemContainerStyle>
        <Style TargetType="{x:Type ComboBoxItem}">
            <Setter Property="HorizontalContentAlignment" Value="Stretch"/>
        </Style>
    </ComboBox.ItemContainerStyle>
</ComboBox>