将半结构化电子邮件读入R

时间:2016-02-18 22:55:55

标签: r email

我有一个保存为文本文件的电子邮件列表。我最终的目标是将电子邮件发送到R中的DF,其中包含日期,时间,正文,地址等电子邮件字段作为列标题。电子邮件的格式都是相同的(我想,可能是一些流氓)。以下是一个示例。

日期,2014年9月5日,时间,2:34:54 PM,姓名,Bert John,电子邮件,Jane Doe @ gmail com,pageName,Home,Form_Comments,这是一封通用电子邮件,内容已移除,以保护隐私,身份,通用,****

所有的电子邮件都被读入一个word文档,我写了一个宏来将它们用逗号分隔的样式。 ****用于标记电子邮件的结尾。我不知道从哪里开始编写R来阅读这​​个word文档,并创建我正在寻找的表。我的大多数R经验都是分析而不是数据步骤编程。我理解可能需要编辑word文档以便读入R.提前感谢。

1 个答案:

答案 0 :(得分:0)

所以我拿了你的数据文件,把它复制到自己一次,然后用文本编辑器用CR替换“,****”,把它作为.txt文件保存到磁盘然后读出来:

df = read.csv("c:\\users\\n\\box sync\\test.txt", header = FALSE)

输出

    V1        V2   V3         V4   V5    V6                  V7       V8    V9
1 Date  9/5/2014 Time 2:34:54 PM Name Email  Jane Doe@gmail com pageName  Home
2 Date  9/5/2014 Time 2:34:54 PM Name Email  Jane Doe@gmail com pageName  Home
            V10                                                            V11
1 Form_Comments  This is a generic email with the content removed for privacy 
2 Form_Comments  This is a generic email with the content removed for privacy 
       V12      V13
1 Identity  Generic
2 Identity  Generic