我有两个数据框,它们的列中数据相似,但列名不同。我需要确定它们是否为相似的列。
colName1=['movieName','movieRating','movieDirector','movieReleaseDate']
colName2=['name','release_date','director']
我的方法将colName1标记化并使用进行比较 -levenshtein / Jaccard距离 -使用TFIDF分数查找相似性。
但是这对于具有类似名称的col名称有效。 movieName和Name。假设您具有“ IMDB_Score”和“ average_rating”,则此方法将无效。
在上述问题中可以使用word2vec任何方式。