SQL 查询：SELECT DISTINCT 去重

提示

Hive SQL 教程欢迎使用。提供建议、纠错、催更等加作者微信: gr99123（备注：sql ）和关注公众号「盖若」ID: gairuo。跟作者学习，请进入 Python学习课程。欢迎关注作者出版的书籍：《深入浅出Pandas》和《Python之光》。

我们取到某列数据后发现有重复的内容，但需求可能是需要知道有几个不重复的内容。Select 里 DISTINCT 可用于对数据进行去重。

本文例子中使用的数据是筛选指定字段中的数据内容。

逻辑说明

select distinct column_name from table_name

注：

select distinct class from students

查询有多少个班级，就是将查出的班级进行去重：

'''
class|
-----+
    1|
    2|
    3|
'''

select distinct class, gender from students

对班级和性别进行去重，会将这两列的值进行组合，再留下不重复的组合：

'''
class|gender|
-----+------+
    1|男     |
    2|女     |
    1|女     |
    2|男     |
    3|男     |
'''

在真实环境中，数据往往是流水形成出现，有些字段会有大量的重复值，我们需要进行去重。count(distinct uuid) 是常用的获取 UV 的方法。

distinct 与 group by 可以得到相同的结果，从效率上可能会比 distinct 更高，后边会讲。

< 筛选指定字段 Hive SQL 教程 CASE 条件赋值 >

更新时间：2021-06-17 12:10:05 标签：sql 去重