Python HTML getElementsByClassName同样操纵文件内容

时间:2013-05-18 23:07:32

标签: javascript python dom tags html-parsing

我已经使用Sikuli将页面的源代码保存到文件中。我需要对一批矩阵式放置元素进行“综合”。但我不想计算它们之间的尺寸。我希望URL在位置栏中输入。所以我从头开始写了一个MZDN JavaScript实现这种“简单”操作的帮助。我不想使用lxml。我想要真正的原生图书馆 - 我的意思是我需要“便携式”脚本。 所以我用Google搜索了一段时间后决定在Stack OverFlow上提问。 我不想用

split('<a href=')

魔法。 我想用Python(用最pythonic的方式)做到这一点:

var array = document.getElementsByClassName('another')

var j = array.length
for (i=0;i<j;i++) {
    element = array[i];
    url = element.getElementsByTagName('a')[0].href;
    console.log(url);
    }

var array = document.getElementsByClassName('else')
var j = array.length
for (i=0;i<j;i++) {
    element = array[i];
    url = element.getElementsByTagName('a')[0].href;
    console.log(url);
    }

使用split进行管理。 Python适合孩子们。

def read_file(filename):
    fd = open(filename, 'r')
    data = fd.read()
    fd.close()
    return data

def href(line):
        url = line.split('a href=')[1].split('>')[0].strip().replace('"', '').replace("'", '')
        return url

html = read_file('source.htm').split('\n')
for line in html:
    if 'one' in line:
        print href(line)
    elif 'another' in line:
        print href(line)
    elif 'else' in line:
        print href(line)

0 个答案:

没有答案