使用HTMLParser逃避问题[Python]

时间:2016-11-20 20:31:00

标签: python escaping html-parsing

我正在使用HTMLParser来解析xhtml文件。我有兴趣获取CodeSnippet标签中的数据。我正在使用handle_data来获取该信息,但是当 时,它会中断数据字符串而我只获取HRESULT get_Top(而不是获取CodeSnippet个标记内的所有内容。 在这里你可以看到我试图从中获取信息的代码。

<CodeSnippet runat="server" Language="ManagedCPlusPlus" DisplayLanguage="C++" xmlns="http://msdn2.microsoft.com/mtps">
HRESULT get_Top(
  [out]&#160;long *pTop
);

</CodeSnippet>

这是我的代码:

class LinksParser(HTMLParser):
  def __init__(self):
    HTMLParser.__init__(self)
    self.recording = False
    self.data = []

    self.categories=[]

  def handle_starttag(self, tag, attributes):
    if tag == 'codesnippet':
        self.recording = True

  def handle_data(self, data):
    if self.recording:
      print data
      self.recording=False

我该怎么做才能获得标签中的所有内容?

干杯

0 个答案:

没有答案