使用Notepad ++或任何其他工具标记文本

时间:2014-07-03 11:50:28

标签: python-3.x notepad++ classification text-processing sentiment-analysis

I have several .dat, containing information about hotel reviews as below
/*
<Author> simmotours
<Content> review......goes here
<Date>Nov 18, 2008
<No. Reader>-1
<No. Helpful>-1
<Overall>4`enter code here`
<Value>4
<Rooms>3
<Location>4
<Cleanliness>4
<Check in / front desk>4
<Service>4
<Business service>-1

* /     我想将评论分为两个pos和neg,即有两个文件夹pos和neg包含几个文件,其中3个以上的评论分类为正,3个以下归类为负。

How can I quickly and efficiently automate this process?

2 个答案:

答案 0 :(得分:0)

您可以编写一个python脚本来读取总分。通过使用readline()循环遍历这一行来查看here。使用一些字符串解析查找“总体”分数。然后将文件移动到正确的目录中。所有在Python中都要做的非常简单的事情,只需将其分解为步骤并搜索这些步骤的答案。

答案 1 :(得分:0)

Notepad ++可以用正则表达式替换。并允许定义宏。使用它们将文件转换为XML文件。查看帮助文件。

然后你可以用任何脚本语言阅读它并做你想做的事。

或者,您可以将文件更改为可以将其加载到Excel中并在那里进行分析的表单。