machine-learning - 在机器学习中对大型数据集中的分类数据（URL）进行编码的最佳方法？

我有一个很大的数据集，其中一个功能是分类（标称）URL，它包含不同的URL。例如，www.google.com，www.facebook.com，www.youtube.com，www.yahoo.com，www.amazon.com等。在一百万行中有500多个不同的URL。

哪种编码是对这种分类特征进行编码的最佳方法，以便我可以将编码后的特征传递给Logistic回归模型？

我尝试使用sklearn的标签编码，但效果不佳，仅用1、2、3，...标记URL并没有形成它们之间的任何关系。

我努力使用一种热编码，但是它将为我的模型创建500多个新功能，并且不必要地增加了模型的复杂性。

代码和数据是机密的，我不能提供。

标签编码效果不佳，一键编码会使模型过于复杂。