Question

我们有一个研究出版物的dspace存储库，gsa通过网络爬行进行索引，即从主页开始并按照所有链接。

我认为使用连接器从sitemap.xml文件提交索引以进行索引可能会更有效率。然后，gsa只需要索引并重新抓取站点地图上的网址，并可以忽略网站的结果。

gsa文档中的建议是，这实际上不是连接器的目标，因为内容都可以通过Web爬网发现。

您怎么看？

谢谢，乔治娜。

Answer 1

您可以从/ bin目录“dspace generate-sitemaps”生成站点地图。它将生成一个sitemaps目录，其中包含指向dspace中所有项目的链接。

输出示例：

   <html><head><title>URL List</title></head><body><ul><li><a href="http://localhost:8080//handle/123456789/1">http://localhost:8080//handle/123456789/1</a></li>
    <li><a href="http://localhost:8080//handle/123456789/2">http://localhost:8080//handle/123456789/2</a></li>
    <li><a href="http://localhost:8080//handle/123456789/3">http://localhost:8080//handle/123456789/3</a></li>
    <li><a href="http://localhost:8080//handle/123456789/5">http://localhost:8080//handle/123456789/5</a></li>
</ul></body></html>

Answer 2

您可以轻松创建GSA＆＃34; Feed＆＃34;列出要抓取的网址。但是，因为你的＆＃34;关注＆＃34;模式必须包含您网站的主机名，抓取工具将跟随您Feed中网页链接的所有网页。

如果您真的只想索引＆＃34;网站地图＆＃34;那么你应该看看写Adaptor (4.x)。然后，您将负责编写逻辑以解析您的sitemap.xml文件，以提取您要抓取的URL。

Answer 3

这可能已经过时了（所以我不确定它是否仍然有效），但是有一个python连接器的示例将解析sitemap.xml并将其作为内容源或元数据源发送。这里有2个链接可以帮助您 https://github.com/google/gsa-admin-toolkit/blob/master/connectormanager/sitemap_connector.py

https://github.com/google/gsa-admin-toolkit/wiki/ConnectorManagerDocumentation

如果有的话，如果您编写自己的Connector 3.x或Adapter 4.x，这将让您了解要实现的逻辑

使用连接器使用sitemap.xml对内容进行爬网

3 个答案: