假设我有一个由两列组成的大型数据集。
第一个提到不同的人(用他们的名字标记他们),而第二个只是一个二进制变量标记,如果在第一列中提到的人在另一个数据集中遇到(现在哪个没关系) )。
所以我有这样的事情:
Name Found
Peter 0
John 1
Peter 1
Mark 0
Peter 0
等等。
我想制作直方图来表示: 1)每个名字的总频率; 2)但代表每个名字的图表将按颜色分为两部分:found vs unfound。实际上是这样的事情:https://www.flickr.com/photos/gommit/6748028567,但只有两种颜色。
最好的方法是什么?