nlp - 词嵌入向量中所需的权重分布

由于我专注于学术数据集（WOS），因此我正在训练自己的嵌入向量；向量是通过word2vec还是fasttext生成的并不重要。假设我的向量均为150维。我想知道，如果您将整个语料库的向量取平均值，那么向量中权重的期望分布应该是什么？

在查看矢量样本的分布时，我做了一些实验，并得出以下结论（不确定它们的绝对保持力）：

如果一个人用太少的时间来训练他们的模型，那么向量与它们的初始值不会有很大的变化（容易看出您是否在每个类别中将向量的权重设为0）。因此，如果我的体重分布以某个点（通常为0）为中心，则说明我的语料库训练不足。

如果一个人用太少的文档/过度训练来训练他们的模型，那么向量之间会显示出显着的相关性（我通常将一组向量可视化，并且您会看到条纹，其中所有向量的权重均为正或负）。

我想象的是单个“好”向量在-1到1的整个范围内具有不同的权重。对于任何单个向量，它可能在-1或1附近具有明显更大的尺寸。但是，整个向量的权重分布语料库将平衡向频谱的一端或另一端随机具有更多值的向量，从而使整个语料库的权重分布大致均匀地分布在整个语料库中。这种直觉正确吗？

我不熟悉任何有关理想的“向量权重”的研究或民间智慧（我假设您指的是各个维度）。

通常，由于各个维度没有可以很好地解释，所以我不确定您是否可以就任何一个维度的值如何分配说很多话。请记住，我们对低维空间（2d，3d，4d）的直觉通常不会在高维空间保持。

我在研究中看到了两个有趣的，可能相关的观察结果：

有人观察到，具有奇异含义的单词的原始训练矢量趋于具有较大的幅度，而具有多种含义的单词的原始经过训练的矢量具有较小的幅度。一个合理的解释是，多义词的词向量在多种不同含义的方向上被拉向不同的方向，从而“在中间的某个位置”缠绕（更靠近原点，因此幅度较小）。。不过请注意，大多数词向量与词向量的比较都是通过使用余弦相似度仅比较角度（或在很大程度上等效，通过在比较之前将所有向量归一化为单位长度）来忽略幅度）。
Mu，Bhat和Viswanath https://arxiv.org/abs/1702.01417v2发表的论文“最重要的：单词表示的简单而有效的后处理”指出，所有训练过的单词向量的平均值在一起往往会使原点偏向某个方向，但是消除该偏斜（以及向量中的其他共同点）可以改善许多任务的向量。在我自己的个人实验中，我观察到，“原点偏差”的幅度似乎与选择的negative个样本的数量相关-并且仅选择1个负样本的极端（且不常见）值会使这样的偏差可以忽略不计（但对于整体质量或培训效率/速度而言可能不是最好的）。

因此，通过查看向量的相对分布，可能有关于向量质量的有用的启发式方法，但我不确定任何对单个尺寸敏感的方法（除非那些恰好是向量在特定轴上的投影）。