更新:数据是每行一个句子,单词用空格分隔,这个结构应该保留。我用python和一个单词计数器完成了它,只是想知道它是否可以用更智能的方式完成命令行。
答案 0 :(得分:7)
是
tr '\n' ' ' < inputfile | cut -d' ' -f 1-1000000 > outputfile
从inputfile获取前1M个单词(在这种情况下,一个单词是两个空格之间的任何单词)然后将它们在一行输出到outputfile。将它们放在输出中的不同行上(根据@ triplee&#39;评论):
tr ' ' '\n' < inputfile | head -1000000 > outputfile