为什么添加INLINE会减慢我的程序速度

时间:2016-10-12 05:48:45

标签: haskell inline

我正在考虑制作一个在无限列表上工作的foldl,对于你无法获得保护递归的情况,但是根据第一个参数可能不会使用第二个参数。

例如乘法,通常你需要两个参数和保护递归不起作用,但如果第一个参数是0你就可以短路。

所以我写了以下函数:

foldlp :: (b -> a -> b) -> (b -> Bool) -> b -> [a] -> b
foldlp f p = go where
    go b [] = b
    go b (x : xs) 
        | p b = go (f b x) xs
        | otherwise = b

并使用我的自定义短路乘法功能测试它:

 mult :: Integer -> Integer -> Integer
 mult 0 _ = 0
 mult x y = x * y

 main :: IO ()
 main = print . <test_function>

我使用-prof -fprof-auto -O2+RTS -p获得的结果是:

foldlp mult (/= 0) 1 $ replicate (10 ^ 7) 1
total time = 0.40 secs
total alloc = 480,049,336 bytes

foldlp mult (`seq` True) 1 $ replicate (10 ^ 7) 1
total time = 0.37 secs
total alloc = 480,049,336 bytes

foldl' mult 1 $ replicate (10 ^ 7) 1
total time = 0.37 secs
total alloc = 480,049,352 bytes

foldl mult 1 $ replicate (10 ^ 7) 1
total time = 0.74 secs
total alloc = 880,049,352 bytes

foldr mult 1 $ replicate (10 ^ 7) 1
total time = 0.87 secs
total alloc = 880,049,336 bytes

这是非常有前途的,因为我的自定义函数允许灵活的严格类型,并且也适用于无限列表

第一个示例会在遇到0后立即终止,foldr也会终止,但foldr会慢得多。

它避免了诸如元组内的thunk之类的问题,因为((1 + 2) + 3, (10 + 20) + 30)技术上是在WHNF中,打破了foldl'

您可以使用foldl重新获得flip foldl (const True),使用foldl' seq flip foldl (重新获得True)。并且通过这样做可以重新获得原始受限函数的性能特征。

因此,作为旁注,我认为foldlpFoldable的有用补充。

但我的实际问题是,为什么当我添加{-# INLINE foldlp #-}时,功能性能显着下降,给我:

foldlp mult (/= 0) 1 $ replicate (10 ^ 7) 1
total time = 0.67 secs
total alloc = 800,049,336 bytes

所以我真正的问题是为什么会这样。我认为内联的缺点是代码膨胀,对运行时性能和内存使用增加没有显着的负面影响。

1 个答案:

答案 0 :(得分:5)

根据the GHC docsINLINE编译指示阻止其他编译器优化,以便仍然允许重写规则生效。

所以我的猜测是,通过使用INLINE删除一些优化,GHC会应用这些优化来使代码更快。

在核心中进行了一些探讨(在编译中使用-ddump-simpl)后,我找到了GHC执行的优化。为此,我查看了内联foldlp的内核,没有内联:

内联:

foldlp =
  \ (@ b_a10N)
    (@ a_a10O)
    (eta_B2 :: b_a10N -> a_a10O -> b_a10N)
    (eta1_B1 :: b_a10N -> Bool)
    (eta2_X3 :: b_a10N)
    (eta3_X5 :: [a_a10O]) ->
    letrec {
      go_s1Ao [Occ=LoopBreaker] :: b_a10N -> [a_a10O] -> b_a10N
      [LclId, Arity=2, Str=DmdType <L,U><S,1*U>]
      go_s1Ao =
        \ (b1_avT :: b_a10N) (ds_d1xQ :: [a_a10O]) ->
        -- Removed the actual definition of go for brevity,
        -- it's the same in both cases
          }; } in
    go_s1Ao eta2_X3 eta3_X5

非内联:

foldlp =
  \ (@ b_a10N)
    (@ a_a10O)
    (f_avQ :: b_a10N -> a_a10O -> b_a10N)
    (p_avR :: b_a10N -> Bool) ->
    letrec {
      go_s1Am [Occ=LoopBreaker] :: b_a10N -> [a_a10O] -> b_a10N
      [LclId, Arity=2, Str=DmdType <L,U><S,1*U>]
      go_s1Am =
        \ (b1_avT :: b_a10N) (ds_d1xQ :: [a_a10O]) ->
        -- Removed the actual definition of go for brevity,
        -- it's the same in both cases
          }; } in
    go_s1Am

相关的差异在最后一行。优化器取消了实际调用foldlp以调用go的步骤,并且只使用foldlp中的两个参数创建一个函数,该函数返回带有两个参数的函数。通过内联,不执行此优化,核心看起来与您编写的代码完全相同。

我通过编写foldlp的三个变体验证了这一点:

module Main where

foldlp :: (b -> a -> b) -> (b -> Bool) -> b -> [a] -> b
foldlp f p = go where
      go b [] = b
      go b (x : xs)
        | p b = go (f b x) xs
        | otherwise = b

{-# INLINE foldlpInline #-}
foldlpInline :: (b -> a -> b) -> (b -> Bool) -> b -> [a] -> b
foldlpInline f p = go where
      go b [] = b
      go b (x : xs)
        | p b = go (f b x) xs
        | otherwise = b


{-# INLINE foldlp' #-} -- So that the code is not optimized
foldlp' b [] = b
foldlp' b (x : xs)
        | (/= 0) b = foldlp' (mult b x) xs
        | otherwise = b

mult :: Integer -> Integer -> Integer
mult 0 _ = 0
mult x y = x * y

--main = print $ foldlp mult (/= 0) 1 $ replicate (10 ^ 7) 1
--main = print $ foldlpInline mult (/= 0) 1 $ replicate (10 ^ 7) 1
main = print $ foldlp' 1 $ replicate (10 ^ 7) 1

结果是:

第一种情况(正常非内联):

./test  0,42s user 0,01s system 96% cpu 0,446 total

第二种情况(内联):

./test  0,83s user 0,02s system 98% cpu 0,862 total

第三种情况(编译器为非内联生成的内容)

./test  0,42s user 0,01s system 99% cpu 0,432 total