爬网内网/互联网SharePoint网站(登录问题)

时间:2011-02-19 15:10:33

标签: sharepoint sharepoint-2010 sharepoint-2007 web-crawler

我有问题。我的客户(和潜在客户)问我基于爬虫的软件(sitemapper,网站克隆和类似软件)是否可以访问他们的SharePoint网站。

但是,我自己并没有使用Sharepoint。我只是认为我知道这是一个广泛的协作/文档共享平台,也允许内联网/互联网网站?我也相信SharePoint运行在IIS之上,对吧?那么应该有HTTP访问吗?

目前我的软件支持

HTTP,HTTP和普通磁盘/网络路径。它可以通过POST表单和cookie登录到大多数HTTPs网站,没有任何问题。它还支持各种“oldschool”基本认证。

但SharePoint似乎有所不同。我的软件如何访问Intranet SharePoint网站的HTTP?如果我能为我的用户提供指南,我会很高兴。

(我认为这只是“登录”运行我的软件的计算机的问题......?然后可能给它正确的地址进行抓取?)

2 个答案:

答案 0 :(得分:1)

同意 - 我认为最简单的解决方案是在AD中的帐户下运行您的软件,该帐户具有您要抓取的网站所需的访问权限。这样,凭据将从当前登录的用户传递。

这仅在Intranet站点确实使用Windows身份验证(并且很可能会)时才有效 - 但是某些Intranet / Extranet站点可能正在使用FBA或不同的身份验证方法,因此请记住这一点。

答案 1 :(得分:1)

对于大多数事情,您的软件应该没问题,但是在获取正确的表单帖子属性时,发布到SharePoint表单可能有点棘手。

最后,原始接口(HTTP / HTTPS)与其他所有站点完全相同。

在需要注意的事情上,有些爬虫不会处理Javascript,而SharePoint确实包含一些内容,包括一些导航项。