反向设计一个网页

时间:2010-05-30 11:17:30

标签: reverse-engineering webpage

我希望将任何网页逆向工程化为页面的逻辑表示。 例如,如果一个网页有一个菜单,那么我想要一个逻辑菜单结构,也许是XML。如果网页上有一篇文章,我想要一篇文章XML节点,如果它有文章的标题我想要一个标题XML节点。基本上,我想要没有任何用户界面的网页的逻辑形式。

这个逻辑模型既可以是代码中的对象,也可以是XML无关紧要,重要的是它已经识别出页面上的所有内容。

2 个答案:

答案 0 :(得分:3)

听起来你想要的东西需要人来对页面内容进行分类。

这可以是自动化的,但它会产生误报,并不适用于所有情况。

例如,如果一个页面使用ul作为菜单而另一个页面使用了表格单元格会怎么样?

您是否希望将此用于特定网站或互联网上的任何网站?

答案 1 :(得分:0)

如何解析页面上已有的XML,请参阅

http://en.wikipedia.org/wiki/XHTML