功能网页分类的可用培训数据

时间:2012-06-13 03:30:38

标签: machine-learning classification webpage

我正在开展一个项目,我需要同时完成这两个主题。网页的功能分类,如Qi和Davison的Web Page Classification: Features and Algorithms 所述。例如,我可能希望能够判断特定页面是否与音乐有关,以及它是集合(链接列表)还是主题(来自集合的一个特定链接的数据)页面。对于主题分类,我使用DMOZ Directory数据的子集来生成一组训练示例,方法是将标记有特定主题的网站作为正例进行爬行,并附带反面示例。

我对一种适用于功能分类的方法不太清楚。基本上我需要一种方法来查找一组按类型标记的URL:集合页面,主题页面等。手动生成集合可能不太可行,我希望能够在网页更改时更新分类器有点经常。关于我可以找到用于训练集的标记数据的区域的任何想法?

1 个答案:

答案 0 :(得分:1)

相关问题