异构数据源

时间:2017-12-19 01:43:54

标签: python machine-learning scikit-learn

我有一些包含常规变量和文本的数据。像下面这样......

Gene    Variation   Class   Text
FAM58A  Truncating  1   Cyclin-dependent kinases (CDKs) regulate a variety of fundamental cellular processes....

Text字段非常详细,通常只有几段。我想执行一些标记化以最终进行机器学习,但我不确定如何将GeneVariation变量(分类)包含到设计矩阵中。

简单地将它们打到我的术语文档矩阵的末尾可能会有效,但我相信还有其他方法可以解决这个问题(可能会训练两个分类器,一个用于文本,另一个用于分类变量,然后加权投票。)

我还有哪些方法可以使用sklearn处理异构数据?

0 个答案:

没有答案
相关问题