有没有更快的方法来解析使用Powershell的Excel文档?

时间:2013-03-20 23:01:58

标签: excel powershell

我通过MS ExcelPowershell文档连接。每个excel文档都有可能有大约1000行数据。

目前,此脚本似乎读取Excel文件,并以每0.6秒1个记录的速率向屏幕写入一个值。乍一看,这似乎非常缓慢。

这是我第一次使用Excel阅读Powershell文件,这是常态吗?我有更快的方式来阅读和解析Excel数据吗?

这是脚本输出(为了便于阅读而修剪)

PS P:\Powershell\ExcelInterfaceTest> .\WRIRMPTruckInterface.ps1 test.xlsx
3/20/2013 4:46:01 PM
---------------------------
2   078110
3   078108
4   078107
5   078109
<SNIP>
242   078338
243   078344
244   078347
245   078350
3/20/2013 4:48:33 PM
---------------------------
PS P:\Powershell\ExcelInterfaceTest>

以下是Powershell脚本:

########################################################################################################
# This is a common function I am using which will release excel objects
########################################################################################################
function Release-Ref ($ref) {
    ([System.Runtime.InteropServices.Marshal]::ReleaseComObject([System.__ComObject]$ref) -gt 0)
    [System.GC]::Collect()
    [System.GC]::WaitForPendingFinalizers()
}

########################################################################################################
# Variables
########################################################################################################

########################################################################################################
# Creating excel object
########################################################################################################
$objExcel = new-object -comobject excel.application 

# Set to false to not open the app on screen.
$objExcel.Visible = $False

########################################################################################################
# Directory location where we have our excel files
########################################################################################################
$ExcelFilesLocation = "C:/ShippingInterface/" + $args[0]

########################################################################################################
# Open our excel file
########################################################################################################
$UserWorkBook = $objExcel.Workbooks.Open($ExcelFilesLocation) 

########################################################################################################
# Here Item(1) refers to sheet 1 of of the workbook. If we want to access sheet 10, we have to modify the code to Item(10)
########################################################################################################
$UserWorksheet = $UserWorkBook.Worksheets.Item(2)

########################################################################################################
# This is counter which will help to iterrate trough the loop. This is simply a row counter
# I am starting row count as 2, because the first row in my case is header. So we dont need to read the header data
########################################################################################################
$intRow = 2

$a = Get-Date
write-host $a
write-host "---------------------------"

Do {

    # Reading the first column of the current row
    $TicketNumber = $UserWorksheet.Cells.Item($intRow, 1).Value()

    write-host $intRow " " $TicketNumber    

    $intRow++

} While ($UserWorksheet.Cells.Item($intRow,1).Value() -ne $null)

$a = Get-Date
write-host $a
write-host "---------------------------"

########################################################################################################
# Exiting the excel object
########################################################################################################
$objExcel.Quit()

########################################################################################################
#Release all the objects used above
########################################################################################################
$a = Release-Ref($UserWorksheet)
$a = Release-Ref($UserWorkBook) 
$a = Release-Ref($objExcel)

2 个答案:

答案 0 :(得分:10)

在他的博客文章Speed Up Reading Excel Files in PowerShell中,Robert M. Toups,Jr。解释说,尽管加载到PowerShell的速度很快,实际上读取Excel单元格的速度非常慢。另一方面,PowerShell可以非常快速地读取文本文件,因此他的解决方案是在PowerShell中加载电子表格,使用Excel的本机CSV导出过程将其保存为CSV文件,然后使用PowerShell的标准Import-Csv cmdlet快速处理数据。他报告说,这使他的导入过程快了20倍!

利用Toups的代码,我创建了一个Import-Excel功能,可让您轻松导入电子表格数据。 我的代码添加了在Excel工作簿中选择特定工作表的功能,而不仅仅是使用默认工作表(即保存文件时的活动工作表)。如果省略–SheetName参数,则使用默认工作表。

function Import-Excel([string]$FilePath, [string]$SheetName = "")
{
    $csvFile = Join-Path $env:temp ("{0}.csv" -f (Get-Item -path $FilePath).BaseName)
    if (Test-Path -path $csvFile) { Remove-Item -path $csvFile }

    # convert Excel file to CSV file
    $xlCSVType = 6 # SEE: http://msdn.microsoft.com/en-us/library/bb241279.aspx
    $excelObject = New-Object -ComObject Excel.Application  
    $excelObject.Visible = $false 
    $workbookObject = $excelObject.Workbooks.Open($FilePath)
    SetActiveSheet $workbookObject $SheetName | Out-Null
    $workbookObject.SaveAs($csvFile,$xlCSVType) 
    $workbookObject.Saved = $true
    $workbookObject.Close()

     # cleanup 
    [System.Runtime.Interopservices.Marshal]::ReleaseComObject($workbookObject) |
        Out-Null
    $excelObject.Quit()
    [System.Runtime.Interopservices.Marshal]::ReleaseComObject($excelObject) |
        Out-Null
    [System.GC]::Collect()
    [System.GC]::WaitForPendingFinalizers()

    # now import and return the data 
    Import-Csv -path $csvFile
}

这些补充功能由Import-Excel使用:

function FindSheet([Object]$workbook, [string]$name)
{
    $sheetNumber = 0
    for ($i=1; $i -le $workbook.Sheets.Count; $i++) {
        if ($name -eq $workbook.Sheets.Item($i).Name) { $sheetNumber = $i; break }
    }
    return $sheetNumber
}

function SetActiveSheet([Object]$workbook, [string]$name)
{
    if (!$name) { return }
    $sheetNumber = FindSheet $workbook $name
    if ($sheetNumber -gt 0) { $workbook.Worksheets.Item($sheetNumber).Activate() }
    return ($sheetNumber -gt 0)
}

答案 1 :(得分:9)

如果数据是静态的(不涉及公式,只包含单元格中的数据),则可以将电子表格作为ODBC数据源访问,并对其执行SQL(或至少类似SQL)查询。查看this reference以设置您的连接字符串(工作簿中的每个工作表将成为本练习的“表格”),并使用System.Data查询它与常规数据库相同(唐·琼斯为此写了一篇wrapper function,这可能有所帮助。)

这个应该比启动Excel&amp;逐个细胞地挑选。