从网站上抓取图像

时间:2011-10-10 10:15:57

标签: php

我想知道是否有人能指出我正确的方向。

我有一个相当大的产品信息电子表格,需要插入商店。棘手的是,电子表格有一个链接指向另一个网站上的相关页面,其中包含产品详细信息,我需要做的是抓取相关图像并在本地保存,以便我以后可以使用。原因为什么我想到这条线是有7500种产品......

我的朋友建议我可以使用php& filepopen。

图片确实有一个我可以参考的外部标签ID。

我正在考虑迭代电子表格,这是我必须使用的链接类型

http://www.apc.com/resource/include/techspec_index.cfm?base_sku=APCRBC105

图像本身被称为随机的东西,但我想我可以重命名它们,因为我将它们抓到更相关的SKU编号。

  • 因此按SKU编号
  • 遍历电子表格
  • 通过页面上的相关ID识别图像(我正在假设它 在每页的同一个地方)
  • 在重命名为正确的SKU编号时保存图像

关于如何解决这个问题的任何想法?手动访问每个页面并将图像保存7500次的想法似乎不是最好的方法!

感谢您寻找

2 个答案:

答案 0 :(得分:0)

如果版权资料没有任何问题,请查看Google Refine。

您可以根据您的单元格值从网站获取内容,然后使用它们来构建更复杂的方案。 有关详细信息,请参阅screencasts(截屏3讨论通过URL获取值)。

在电子表格中显示图片网址后,通过curl或类似方式获取图片网址应该相当容易。

答案 1 :(得分:0)

从链接中删除base_sku。

APCRBC105

然后使用curl获取图像页面

http://www.apc.com/products/moreimages.cfm?partnum=APCRBC105

使用正则表达式插图翻录图像链接:

    <div align="center">
<img align="center" src="http://www.apcmedia.com/resource/images/500/Front_Left/35531838-5056-9170-D33F24AE47742E6C_pr.jpg" />
</div>

然后再次使用curl来翻录实际图像并保存。 这应该工作..