在Powershell中查找html标记之间的字符串

时间:2013-02-14 13:08:24

标签: html powershell

我正在尝试编写一个Powershell脚本,该脚本将在HTML文件中的两个HTML标记之间拉出一个字符串。我不知道它的价值是什么,但我知道需要搜索哪些标签。另外,我知道的标签总是出现在一行的开头(即,它们可以位于一行文本的中间)。最后,我也知道标签和它们之间的字符串永远不会跨越一条线。

我将文件的路径存储在变量

$filePath = "C:\Path\file.html"

我正在尝试在<h6></h6>之间找到任何值,并将这些值存储在数组中。

1 个答案:

答案 0 :(得分:1)

尝试

$myarray = gc $filepath | 
% { [regex]::matches( $_ , '(?<=<h6>\s+)(.*?)(?=\s+</h6>)' ) } | 
select -expa value

如果有的话,删除起始和尾随空格。 如果您还需要此空格,请从正则表达式模式中删除\s+

相关问题