解析使用Mechanize进行身份验证的页面

时间:2015-11-28 11:28:47

标签: ruby nokogiri mechanize

我需要解析页面中的元素,这些元素只有在我在网站上进行身份验证后才会出现。

身份验证页面为/lws/wp-login.php

这是我尝试过的,但它不起作用:

require 'rubygems'
require 'mechanize'
agent = Mechanize.new
agent.user_agent_alias = 'Windows Mozilla'
agent.add_auth('http://example.com/lws/wp-login.php', 'login', 'pass')
agent.get('http://example.com/assimil-pour-mieux-connaitre-le-chinois/')   do |page|
  puts page.parser.css("p[style='text-align: center;'] strong")[0]
end

1 个答案:

答案 0 :(得分:0)

您编写的代码将使用用户名和密码对您进行基本身份验证进行身份验证。如果要为scrape创建会话,则需要在使用Mechanize填充表单后在/lws/wp-login.php上提交表单,然后解析其他页面。请务必在请求之间存储Cookie。

相关问题