探索日期和地址变量

时间:2018-12-27 23:36:54

标签: date regression gis logistic-regression

我有一个数据集,其中包含日期变量,定量和定性预测变量以及二进制因变量。我分析的目的是找到CORRECT成功的百分比,并进一步了解CORRECT与自变量之间的关系。

有些人我们可以称为遍布美国的追踪器。每个人都有一项工作,即在他们所在的位置跟踪我们计划参与者的地址。问题是这些跟踪器中的某些跟踪器没有定期更新其负责的参与者组的地址。他们数据库中的某些地址可能已经过时或以其他方式不正确。我希望进一步研究这些正确/不正确的地址以及它们与其他变量之间的关系。以下是数据集中的一些变量:

  • CORRECT:一个二进制变量,用于指示RECORDER是否输入了正确的地址
  • RECORDER_ADDRESS:记录者为参与者输入其数据库中的地址
  • ACTUAL_ADDRESS:参与者实际所在的地址
  • ZIP_CODE:参与者的邮政编码
  • PARTICIPANT_ID:与会人员的唯一ID
  • CREATED_DATE:记录参与者的初始地址的日期
  • MODIFIED_DATE:修改任何变量的日期
  • PARTICIPANT_START_DATE:工作参与者的开始日期
  • PARTICIPANT_END_DATE:此参与者职责的结束日期
  • RECORDER:负责跟踪此条目的记录器的名称
  • TRAINING:参与者接受的培训类型

我已经计算出RECORDER的准确性。我发现大约56%的时间它们是正确的。现在,我试图更多地寻找这些不正确和正确的地址。我曾尝试使用逻辑回归来预测CORRECT,但没有一个预测变量很重要。我使用CORRECT变量和STATE以及CORRECTRECORDER制作了一个堆积的条形图。现在,我要使用四个日期变量以及ZIP_CODERECORDER_ADDRESSACTUAL_ADDRESS来了解RECORDERS的成功和失败。是否有一些可视化的想法或分析可以使用日期变量和/或地址变量来获取有关正确/不正确记录的见解?

可以使用的想法是创建另一个变量,该变量的时间差为CREATED_DATEMODIFIED_DATEPARTICIPANT_START_DATEMODIFIED_DATE的另一个区别。

0 个答案:

没有答案
相关问题