r - 处理稀疏数据帧 - 算法选择

我是机器学习/统计建模的新手。

我正在尝试对具有100个功能的高度稀疏数据集运行分类，其中大多数是分类（TRUE / FALSE），其余值缺失。为了处理缺失值，我用“Nothing”文本填充缺失的点，从而创建一个新的级别。

接下来，我试图使用惩罚（glmnet包）运行逻辑回归。当我检查系数时，我看到对应于具有较高系数的'Nothing'的虚拟变量。

我应该如何删除这些系数？什么是更好的方法呢？

或者我应该只使用树木？请建议最好的前进方式。

谢谢！