我该如何选择

时间:2013-12-22 17:13:16

标签: parsing xbrl cheerio

我正在尝试使用带有nodejs的cheerio.js来获取XBRL条目的文本(在本例中为'10 -Q')。该行如下:

<dei:DocumentType contextRef="D2013Q3YTD" id="Fact-DB2A50C2A485F9CC21D51934C6E61D42">10-Q</dei:DocumentType>

我试过了:

$('dei:DocumentType').text

和其他几个无济于事。没有唯一的ID或其他我能看到的内容。

示例文件:

http://www.sec.gov/Archives/edgar/data/1018724/000144530513002495/amzn-20130930.xml

那么我怎么能去提取这个文本呢?感谢。

2 个答案:

答案 0 :(得分:5)

事实证明,使用Cheerio可以解析上面的文件。

这可以使用Cheerio:

$('dei\\:CurrentFiscalYearEndDate').text().trim();

显然必须逃避特殊字符两次

答案 1 :(得分:-1)

XBRL是XML,它不能被视为像cheerio这样的库的HTML DOM。您需要一个支持Xpath的XML解析器,例如xpathlibxmlo3-xml

然后你可以用这样的XPath表达式获取值:

/*/dei:DocumentType/text()