Linux去重教程:如何只保留一个重复行? (linux将重复行只保留一个)
Linux去重教程: 如何只保留一个重复行?
在处理文本数据时,常常会出现重复行的情况,这些重复行的存在可能会导致数据分析和处理的不准确性,因此需要进行去重处理。在Linux系统中,有多种方法可以实现去重,本文将介绍几种常用的方法和命令,帮助你快速去重并只保留一个重复行。
一、使用sort命令去重
sort命令可以将文件中的所有行进行排序,并去除其中的重复行。可以使用以下命令将文件进行去重:
sort file.txt | uniq > dedup.txt
上述命令将文件file.txt中的所有行进行排序,并将其中的重复行去除,然后将结果保存在dedup.txt文件中。
如果你想要保留一个重复行,可以使用以下命令:
sort file.txt | uniq -u > dedup.txt
上述命令将文件file.txt中的所有行进行排序,并找出其中不重复的行保存在dedup.txt文件中。
二、使用awk命令去重
awk是一种强大的文本处理工具,可以进行复杂的文本操作。使用awk命令去重可以灵活地设置去重条件。可以使用以下命令去除文件中的重复行:
awk ‘!a[$0]++’ file.txt > dedup.txt
上述命令将文件file.txt中的重复行去除,并保存非重复的行到dedup.txt文件中。
如果你想要保留一行重复的行,可以使用以下命令:
awk ‘!a[$0]++ || a[$0]==1’ file.txt > dedup.txt
上述命令将文件file.txt中的重复行去除,并保存唯一的行和之一个重复的行到dedup.txt文件中。
三、使用grep命令去重
grep是一种强大的文本搜索工具,可以搜索文件中的指定字符串。使用grep命令去重可以根据指定的字符串进行去重。可以使用以下命令去重文件中的行:
cat file.txt | grep -v ‘^\s*$’ | uniq > dedup.txt
上述命令将文件中的空行去除,并将其中的重复行去除,然后将结果保存在dedup.txt文件中。
如果你想要保留一个重复的行,可以使用以下命令:
cat file.txt | grep -v ‘^\s*$’ | uniq -u > dedup.txt
上述命令将文件中的空行去除,并找出其中不重复的行保存在dedup.txt文件中。
四、使用sed命令去重
sed是一种强大的文本转换工具,可以对文件中的指定行进行转换。使用sed命令去重可以根据指定的规则去重。可以使用以下命令去重文件中的行:
sed -e ‘s/^\(.*\)$/\1,1/’ file.txt | sort -u -t, -k1,1 | cut -d’,’ -f1 > dedup.txt
上述命令将文件中的每行加上序号,并将其中的重复行去除,然后将去重后的行保存在dedup.txt文件中。
如果你想要保留一个重复的行,可以使用以下命令:
sed -e ‘s/^\(.*\)$/\1,1/’ file.txt | sort -t’,’ -k1,1 -u | cut -d’,’ -f1 > dedup.txt
上述命令将文件中的每行加上序号,并找出其中不重复的行保存在dedup.txt文件中。
本文介绍了四种常用的Linux命令去重方法,通过这些命令可以快速去重并只保留一个重复行。使用这些命令能够帮助我们在处理文本数据时更加高效和准确。
相关问题拓展阅读:
- 如何快速删除Linux文件中的重复数据行
- 利用Linux命令行进行文本按行去重并按重复次数排序
如何快速删除Linux文件中的重复数据行
uniq 文件名
这样就可以了
用uniq,罩宏如下,将罩和 1.txt 中 所有 “相邻” 重复行合并成一行,结果存入 2.txt
uniq 1.txt > 2.txt
如果是想将相邻重复物闷盯行彻底删掉(而不是合并成一行),可以用
uniq -u 1.txt > 2.txt
哪个逗逼写的答案,不相邻的行就尺汪腔不用去了吗?
可以用sort Filename|uniq -u >OutputFilename
但是这也不快速,因为sort的排序过程其实陵稿是没有必要的,浪费了大量时间,最快的方陵衫法还是写c。
利用Linux命令行进行文本按行去重并按重复次数排序
利用linux命令行进行文本按行去重并按重复次数排序linux命令行提供了非常强大的文本处理功能,组合利用linux命令能实现好多强大的功搏李能。本文这里举例说明如何利用linux命令行进行文本按行去重并按重复次数排序。主要用到的命令有sort,uniq和cut。其中,sort主要功能是排序,uniq主要功能是实现相邻文本行的去重,cut可以从文本行中提取相应的文本列(简单地说,就是按列操作文本行)。用于演示的测试文件内容如下:Hello
World.
Apple
and
Nokia.
Hello
World.
I
wanna
buy
an
Apple
device.
The
Iphone
of
Apple
company.
Hello
World.
The
Iphone
of
Apple
company.
My
name
is
Friendfish.
Hello
World.
Apple
and
Nokia.
实现命令及过程如下:1、文本行去重
(1)排序
由于uniq命令只能对相邻行进行去重复操作,所以在进行去重前,先要对文本行进行排序,使重复行集中到一起。
$
sort
test.txt
Apple
and
Nokia.
Apple
and
Nokia.
Hello
World.
Hello
World.
Hello
World.
Hello
World.
I
wanna
buy
an
Apple
device.
My
name
is
Friendfish.
The
Iphone
of
Apple
company.
The
Iphone
of
Apple
company.
(2)去掉相邻的重复行
$
sort
test.txt
|
uniq
Apple
and
Nokia.
Hello
World.
I
wanna
buy
an
Apple
device.
My
name
is
Friendfish.
The
Iphone
of
Apple
company.
2、文本行去重并按重复次数排序
(1)首先,对文本行进行去重并统计重复次数(uniq命令加-c选项可以实现对重复次数进行统计。)。
$
sort
test.txt
|
uniq
-c
Apple
and
Nokia.
Hello
World.
I
wanna
buy
an
Apple
device.
My
name
is
Friendfish.
The
Iphone
of
Apple
company.
(2)对文本行按重复次数进行排序。
sort
-n可以识别每行开头的数字,并按其大小对文本行进行排序。默认是按升序排列,如果想要按降序要加-r选项(sort
-rn)。
$
sort
test.txt
|
uniq
-c
|
sort
-rn
Hello
World.
The
Iphone
of
Apple
company.
Apple
and
Nokia.
My
name
is
Friendfish.
I
wanna
buy
an
Apple
device.
(3)每行前面的删除重复次数。
cut命令可以按列操作文本行。可以看出前面的重复次数占8个字符,因此,可以用命令cut
-c
9-
取出每行第9个及其以后的字符。
$
sort
test.txt
|
uniq
-c
|
sort
-rn
|
cut
-c
9-
Hello
World.
The
Iphone
of
Apple
company.
Apple
and
Nokia.
My
name
is
Friendfish.
I
wanna
buy
an
Apple
device.
下面附带说一下cut命令的使用,用法如下:cut
-b
list
…>
cut
-c
list
…>
cut
-f
list
delim>
…>
上面的-b、-c、-f分别表示字节、字符、字段(即byte、character、field);
list表示-b、-c、-f操作范围,-n常常表示具体数字;
file表示的自然是要操作的文本粗旅文件的名称;
delim(英文岩银凳全写:delimiter)表示分隔符,默认情况下为TAB;
-s表示不包括那些不含分隔符的行(这样有利于去掉注释和标题)
三种方式中,表示从指定的范围中提取字节(-b)、或字符(-c)、或字段(-f)。
范围的表示方法:
n
只有第n项
n-
从第n项一直到行尾
n-m
从第n项到第m项(包括m)
-m
从一行的开始到第m项(包括m)
–
从一行的开始到结束的所有项
关于linux将重复行只保留一个的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。
编辑:一起学习网
标签:命令,文件,文本,行去,可以使用