pandas 数据对比

看过来

《pandas 教程》持续更新中，提供建议、纠错、催更等加作者微信: gr99123（备注：pandas教程）和关注公众号「盖若」ID: gairuo。跟作者学习，请进入 Python学习课程。欢迎关注作者出版的书籍：《深入浅出Pandas》和《Python之光》。

df.compare() 和s.compare() 方法使您可以分别比较两个DataFrame 或 Series，并总结它们之间的差异。V1.1.0 中添加了此功能。

语法

语法如下：

pd.compare(other, align_axis=1, keep_shape=False, keep_equal=False)

其中：

other：被对比的数据
align_axis=1：差异堆叠在列/行上
keep_shape=False：不保留相等的值
keep_equal=False：不保留所有原始行和列

用法

例如，您可能想要比较两个DataFrame并并排堆叠它们的差异。

df = pd.DataFrame(
    {
        "col1": ["a", "a", "b", "b", "a"],
        "col2": [1.0, 2.0, 3.0, np.nan, 5.0],
        "col3": [1.0, 2.0, 3.0, 4.0, 5.0]
    },
    columns=["col1", "col2", "col3"],
)

df
'''
  col1  col2  col3
0    a   1.0   1.0
1    a   2.0   2.0
2    b   3.0   3.0
3    b   NaN   4.0
4    a   5.0   5.0
'''

# 对数据进行修改以便进行对比
df2 = df.copy()
df2.loc[0, 'col1'] = 'c'
df2.loc[2, 'col3'] = 4.0

df2
'''
  col1  col2  col3
0    c   1.0   1.0
1    a   2.0   2.0
2    b   3.0   4.0
3    b   NaN   4.0
4    a   5.0   5.0
'''

应用对比：

df.compare(df2)
'''
  col1       col3
  self other self other
0    a     c  NaN   NaN
2  NaN   NaN  3.0   4.0
'''

默认情况下，如果两个对应的值相等，它们将显示为NaN。此外，如果整个行/列中的所有值都将从结果中省略。其余差异将在列上对齐。

其他方法

还可以传入以下参数：

df = pd.DataFrame(
    {
        "col1": ["a", "a", "b", "b", "a"],
        "col2": [1.0, 2.0, 3.0, np.nan, 5.0],
        "col3": [1.0, 2.0, 3.0, 4.0, 5.0]
    },
    columns=["col1", "col2", "col3"],
)

df
'''
  col1  col2  col3
0    a   1.0   1.0
1    a   2.0   2.0
2    b   3.0   3.0
3    b   NaN   4.0
4    a   5.0   5.0
'''

修改数据，方便对比：

df2 = df.copy()
df2.loc[0, 'col1'] = 'c'
df2.loc[2, 'col3'] = 4.0
df2
'''
  col1  col2  col3
0    c   1.0   1.0
1    a   2.0   2.0
2    b   3.0   4.0
3    b   NaN   4.0
4    a   5.0   5.0
'''

显示有差异的列：

df.compare(df2)
'''
  col1       col3
  self other self other
0    a     c  NaN   NaN
2  NaN   NaN  3.0   4.0
'''

将差异堆叠在行上：

df.compare(df2, align_axis=0)
'''
        col1  col3
0 self     a   NaN
  other    c   NaN
2 self   NaN   3.0
  other  NaN   4.0
'''

保留相等的值：

df.compare(df2, keep_equal=True)
'''
  col1       col3
  self other self other
0    a     c  1.0   1.0
2    b     b  3.0   4.0
'''

保留所有原始行和列：

df.compare(df2, keep_shape=True)
'''
  col1       col2       col3
  self other self other self other
0    a     c  NaN   NaN  NaN   NaN
1  NaN   NaN  NaN   NaN  NaN   NaN
2  NaN   NaN  NaN   NaN  3.0   4.0
3  NaN   NaN  NaN   NaN  NaN   NaN
4  NaN   NaN  NaN   NaN  NaN   NaN
'''

保留所有原始行和列以及所有原始值：

df.compare(df2, keep_shape=True, keep_equal=True)
'''
  col1       col2       col3
  self other self other self other
0    a     c  1.0   1.0  1.0   1.0
1    a     a  2.0   2.0  2.0   2.0
2    b     b  3.0   3.0  3.0   4.0
3    b     b  NaN   NaN  4.0   4.0
4    a     a  5.0   5.0  5.0   5.0
'''

数据相同

此外，还可以使用df1.equals(df2)来对比两个数据是否一致，测试两个对象是否包含相同的元素。

此功能允许将两个Series或DataFrame相互比较，以查看它们是否具有相同的形状和元素。相同位置的NaN被认为是相等的。列标题不必具有相同的类型，但是列中的元素必须具有相同的dtype。

此功能要求元素与其他Series或DataFrame中的元素具有相同的dtype。但是，列标签不必具有相同的类型，只要它们仍被视为相等即可。

df = pd.DataFrame({1: [10], 2: [20]})
df
    1   2
0  10  20

DataFrames df和fully_equal的元素和列标签具有相同的类型和值，它们将返回True。

exactly_equal = pd.DataFrame({1: [10], 2: [20]})
exactly_equal
'''
    1   2
0  10  20
'''
df.equals(exactly_equal)
# True

DataFrames df和different_column_type具有相同的元素类型和值，但列标签具有不同的类型，它们仍将返回True。

different_column_type = pd.DataFrame({1.0: [10], 2.0: [20]})
different_column_type
'''
   1.0  2.0
0   10   20
'''
df.equals(different_column_type)
# True

DataFrames df和different_data_type为其元素的相同值具有不同的类型，即使它们的列标签具有相同的值和类型，它们也将返回False。

different_data_type = pd.DataFrame({1: [10.0], 2: [20.0]})
different_data_type
'''
      1     2
0  10.0  20.0
'''
df.equals(different_data_type)
# False

数据对齐

DataFrame.align 不会组合两个数据帧，但是可以将它们对齐，以便两个数据帧具有相同的行和/或列配置。我们看一个例子：

df1 = pd.DataFrame([[1,2,3,4], [6,7,8,9]], 
                   columns=['D', 'B', 'E', 'A'],
                   index=[1,2])

df2 = pd.DataFrame([[10,20,30,40], [60,70,80,90], [600,700,800,900]],
                   columns=['A', 'B', 'C', 'D'],
                   index=[2,3,4])

df1
'''
   D  B  E  A
1  1  2  3  4
2  6  7  8  9
'''
df2
'''
     A    B    C    D
2   10   20   30   40
3   60   70   80   90
4  600  700  800  900
'''

让我们对齐这两个数据帧，按列对齐（axis=1），并对列标签执行外部联接（join='outer'）：

a1, a2 = df1.align(df2, join='outer', axis=1)
print(a1)
print(a2)
'''
   A  B   C  D  E
1  4  2 NaN  1  3
2  9  7 NaN  6  8

A    B    C    D   E
2   10   20   30   40 NaN
3   60   70   80   90 NaN
4  600  700  800  900 NaN
'''

这里有几点需要注意：

df1中的列已重新排列，以便与df2中的列对齐。
有一个标记为“C”的列已添加到df1，还有一个标记为“E”的列已添加到df2。这些列已用NaN填充。这是因为我们对列标签执行了外部联接。
数据帧内的所有值均未更改。
行标签未对齐；df2有第3行和第4行，而df1没有。这是因为我们要求对列进行对齐（轴=1）。

如果我们在行和列上对齐，但将join参数更改为“right”，会发生什么情况？

a1, a2 = df1.align(df2, join='right', axis=None)
print(a1)
print(a2)
'''
     A    B   C    D
2  9.0  7.0 NaN  6.0
3  NaN  NaN NaN  NaN
4  NaN  NaN NaN  NaN

     A    B    C    D
2   10   20   30   40
3   60   70   80   90
4  600  700  800  900
'''

总之，如果要确保两个数据帧之间的行和/或列的排列相同，而不改变两个数据帧中包含的任何数据，请使用 DataFrame.align()。Series 也支持此方法。

更多内容查看：align() 数据对齐方法介绍。

pandas 数据对比

语法

用法

其他方法

数据相同

数据对齐

相关内容