Question

我有以下sed命令：

sed 's/\s/,/g' input > output.csv

（我从this相关主题获得了命令）

会改变以下输入：

SNP  A1  A2     FRQ    INFO      OR      SE       P
10:33367054   C   T  0.9275  0.9434  1.1685  0.1281  0.1843
10:33367707   G   A  0.9476  0.9436  1.0292  0.1530  0.8244
10:33367804   G   C  0.4193  1.0443  0.9734  0.0988  0.6443
10:33368119   C   A  0.9742  0.9343  1.0201  0.1822  0.9156

成：

SNP,,A1,,A2,,,,,FRQ,,,,INFO,,,,,,OR,,,,,,SE,,,,,,,P
10:33367054,,,C,,,T,,0.9275,,0.9434,,1.1685,,0.1281,,0.1843
10:33367707,,,G,,,A,,0.9476,,0.9436,,1.0292,,0.1530,,0.8244
10:33367804,,,G,,,C,,0.4193,,1.0443,,0.9734,,0.0988,,0.6443
10:33368119,,,C,,,A,,0.9742,,0.9343,,1.0201,,0.1822,,0.9156

我需要一个将多个连续空格转换为一个commma的命令，给我一个这样的输出：

SNP,A1,A2,FRQ,INFO,OR,SE,P
10:33367054,C,T,0.9275,0.9434,1.1685,0.1281,0.1843
10:33367707,G,A,0.9476,0.9436,1.0292,0.1530,0.8244
10:33367804,G,C,0.4193,1.0443,0.9734,0.0988,0.6443
10:33368119,C,A,0.9742,0.9343,1.0201,0.1822,0.9156

有什么想法吗？

Answer 1

如果您想使用sed，可以使用以下内容：

$ sed 's/ \{1,\}/,/g' file
SNP,A1,A2,FRQ,INFO,OR,SE,P
10:33367054,C,T,0.9275,0.9434,1.1685,0.1281,0.1843
10:33367707,G,A,0.9476,0.9436,1.0292,0.1530,0.8244
10:33367804,G,C,0.4193,1.0443,0.9734,0.0988,0.6443
10:33368119,C,A,0.9742,0.9343,1.0201,0.1822,0.9156

这是基于格伦·杰克曼对How to strip multipe spaces to one using sed?的回答。

它也可以像

sed 's/[[:space:]]\{1,\}/,/g' file

请注意，您可以使用sed -i.bak '...' file进行就地编辑，以便将原始文件备份为file.bak，file将包含已修改的内容。

但我认为tr更清楚。有了它，您可以挤压空格，然后用逗号替换它们中的每一个：

$ tr -s ' ' < file | tr ' ' ','
SNP,A1,A2,FRQ,INFO,OR,SE,P
10:33367054,C,T,0.9275,0.9434,1.1685,0.1281,0.1843
10:33367707,G,A,0.9476,0.9436,1.0292,0.1530,0.8244
10:33367804,G,C,0.4193,1.0443,0.9734,0.0988,0.6443
10:33368119,C,A,0.9742,0.9343,1.0201,0.1822,0.9156

分段：

$ tr -s ' ' < file
SNP A1 A2 FRQ INFO OR SE P
10:33367054 C T 0.9275 0.9434 1.1685 0.1281 0.1843
10:33367707 G A 0.9476 0.9436 1.0292 0.1530 0.8244
10:33367804 G C 0.4193 1.0443 0.9734 0.0988 0.6443
10:33368119 C A 0.9742 0.9343 1.0201 0.1822 0.9156

来自man tr：

tr [OPTION] ... SET1 [SET2]

翻译，挤压和/或删除标准输入中的字符，   写入标准输出。

-s ， - 挤压重复

替换列出的重复字符的每个输入序列   SET1只出现一次该字符

Answer 2

如果您使用-r启用扩展正则表达式，则可以将+添加到\s，这意味着一个或多个：

$ sed -r 's/\s+/,/g' file.txt
SNP,A1,A2,FRQ,INFO,OR,SE,P
10:33367054,C,T,0.9275,0.9434,1.1685,0.1281,0.1843
10:33367707,G,A,0.9476,0.9436,1.0292,0.1530,0.8244
10:33367804,G,C,0.4193,1.0443,0.9734,0.0988,0.6443
10:33368119,C,A,0.9742,0.9343,1.0201,0.1822,0.9156

供参考：

-r, --regexp-extended
    use extended regular expressions in the script.

注意：在 Mac OS X 上，sed基于BSD并且没有GNU扩展，因此您必须使用-E标志：

-E    Interpret regular expressions as extended (modern) regular expressions rather
      than basic regular expressions (BRE's). The re_format(7) manual page fully 
      describes both formats.

Answer 3

这是一个使用awk

的非常简单的解决方案

awk '{$1=$1}1' OFS=, file
SNP,A1,A2,FRQ,INFO,OR,SE,P
10:33367054,C,T,0.9275,0.9434,1.1685,0.1281,0.1843
10:33367707,G,A,0.9476,0.9436,1.0292,0.1530,0.8244
10:33367804,G,C,0.4193,1.0443,0.9734,0.0988,0.6443
10:33368119,C,A,0.9742,0.9343,1.0201,0.1822,0.9156

$1=$1重新格式化文件，以便将所有额外空格设置为一个空格。

在Unix中用一个逗号替换多个连续的空格

3 个答案: