提示
Hive SQL 教程 欢迎使用。提供建议、纠错、催更等加作者微信: gairuo123(备注:sql )和关注公众号「盖若」ID: gairuo。跟作者学习,请进入 Python学习课程。欢迎关注作者出版的书籍:《深入浅出Pandas》 和 《Python之光》。
我们取到某列数据后发现有重复的内容,但需求可能是需要知道有几个不重复的内容。Select 里 DISTINCT
可用于对数据进行去重。
本文例子中使用的数据是筛选指定字段中的数据内容。
select distinct column_name from table_name
注:
select distinct class from students
查询有多少个班级,就是将查出的班级进行去重:
'''
class|
-----+
1|
2|
3|
'''
select distinct class, gender from students
对班级和性别进行去重,会将这两列的值进行组合,再留下不重复的组合:
'''
class|gender|
-----+------+
1|男 |
2|女 |
1|女 |
2|男 |
3|男 |
'''
在真实环境中,数据往往是流水形成出现,有些字段会有大量的重复值,我们需要进行去重。count(distinct uuid)
是常用的获取 UV 的方法。
distinct 与 group by
可以得到相同的结果,从效率上可能会比 distinct 更高,后边会讲。
更新时间:2021-06-17 12:10:05 标签:sql 去重