sharepoint - 爬网内网/互联网SharePoint网站（登录问题）

时间：2011-02-19 15:10:33

标签： sharepoint sharepoint-2010 sharepoint-2007 web-crawler

我有问题。我的客户（和潜在客户）问我基于爬虫的软件（sitemapper，网站克隆和类似软件）是否可以访问他们的SharePoint网站。

但是，我自己并没有使用Sharepoint。我只是认为我知道这是一个广泛的协作/文档共享平台，也允许内联网/互联网网站？我也相信SharePoint运行在IIS之上，对吧？那么应该有HTTP访问吗？

目前我的软件支持

HTTP，HTTP和普通磁盘/网络路径。它可以通过POST表单和cookie登录到大多数HTTPs网站，没有任何问题。它还支持各种“oldschool”基本认证。

但SharePoint似乎有所不同。我的软件如何访问Intranet SharePoint网站的HTTP？如果我能为我的用户提供指南，我会很高兴。

（我认为这只是“登录”运行我的软件的计算机的问题......？然后可能给它正确的地址进行抓取？）

答案 0 :(得分：1)

同意 - 我认为最简单的解决方案是在AD中的帐户下运行您的软件，该帐户具有您要抓取的网站所需的访问权限。这样，凭据将从当前登录的用户传递。

这仅在Intranet站点确实使用Windows身份验证（并且很可能会）时才有效 - 但是某些Intranet / Extranet站点可能正在使用FBA或不同的身份验证方法，因此请记住这一点。

答案 1 :(得分：1)

对于大多数事情，您的软件应该没问题，但是在获取正确的表单帖子属性时，发布到SharePoint表单可能有点棘手。

最后，原始接口（HTTP / HTTPS）与其他所有站点完全相同。

在需要注意的事情上，有些爬虫不会处理Javascript，而SharePoint确实包含一些内容，包括一些导航项。