从RSS提要描述中删除html /文本,但图像除外

时间:2014-09-26 13:37:55

标签: html regex wordpress rss

我正在使用WordPress建立一个博客,该博客使用插件导入RSS源并按计划自动将其发布到博客。

我只想从描述中提取图像,而不是随时出现的文本或其他html元素。

帖子中可能有多个图片,每个图片都有字幕或链接。

理想情况下,我希望使用Yahoo Pipes来获取Feed,然后使用regex运算符替换除<img>元素之外的所有内容。然后将操纵的Feed发送到WP插件。

到目前为止,我只是设法删除段落,使用:<p>.*?</p>。但在某些情况下,纯文本没有包含在标签等中。

任何帮助表示感谢:)我有点像一个正则表达式的新手。

1 个答案:

答案 0 :(得分:0)

您可以尝试使用此功能从HTML代码中获取所有图像。

preg_match_all('/<img[^>]+>/i',$html, $allimages); 
print_r($allimages);

如果您希望图像以字符串格式存储,则implode将其与,

一起存储