Python itertools.combinations() 子组合

说明

《Python 教程》持续更新中，提供建议、纠错、催更等加作者微信: gr99123（备注：pandas教程）和关注公众号「盖若」ID: gairuo。跟作者学习，请进入 Python学习课程。欢迎关注作者出版的书籍：《深入浅出Pandas》和《Python之光》。

itertools.combinations(iterable, r) 是 Python 的 itertools 模块中的一个函数，用于生成输入可迭代对象中元素的所有可能的长度为 r 的组合。组合是无重复且无序的，这意味着 (a, b) 和 (b, a) 被认为是相同的组合，只会出现一次。

语法

语法为 itertools.combinations(iterable, r) 返回由输入 iterable 中元素组成长度为 r 的子序列。每个元素是一个元组，元组的长度是 r 的值。

itertools.combinations(iterable, r)

参数与返回：

iterable：要生成组合的输入可迭代对象（如列表、元组、字符串等）。
r：每个组合的长度。
返回值：返回一个迭代器，每次迭代返回一个长度为 r 的元组，表示输入可迭代对象中元素的一个组合。

每个元组的组成先由序列的顺序组合，组合时先变化最后的值，如：

import itertools
chains = itertools.combinations(range(5), 3)

for i in chains:
    print(i)
'''
(0, 1, 2)
(0, 1, 3)
(0, 1, 4)
(0, 2, 3)
(0, 2, 4)
(0, 3, 4)
(1, 2, 3)
(1, 2, 4)
(1, 3, 4)
(2, 3, 4)
'''

即使元素的值相同，不同位置的元素也被认为是不同的。

import itertools
chains = itertools.combinations([0, 0, 7], 2)

for i in chains:
    print(i)

'''
(0, 0)
(0, 7)
(0, 7)
'''

如果元素各自不同，那么每个组合中没有重复元素。

逻辑

语法为 itertools.combinations(iterable, r)，返回由输入 iterable 中元素组成长度为 r 的子序列。

组合元组会以字典顺序根据所输入 iterable 的顺序发出。因此，如果所输入 iterable 是已排序的，组合元组也将按已排序的顺序生成。

即使元素的值相同，不同位置的元素也被认为是不同的。如果元素各自不同，那么每个组合中没有重复元素。

大致相当于：

def combinations(iterable, r):
    # combinations('ABCD', 2) --> AB AC AD BC BD CD
    # combinations(range(4), 3) --> 012 013 023 123
    pool = tuple(iterable)
    n = len(pool)
    if r > n:
        return
    indices = list(range(r))
    yield tuple(pool[i] for i in indices)
    while True:
        for i in reversed(range(r)):
            if indices[i] != i + n - r:
                break
        else:
            return
        indices[i] += 1
        for j in range(i+1, r):
            indices[j] = indices[j-1] + 1
        yield tuple(pool[i] for i in indices)

combinations() 的代码可被改写为 permutations() 过滤后的子序列，（相对于元素在输入中的位置）元素不是有序的。

def combinations(iterable, r):
    pool = tuple(iterable)
    n = len(pool)
    for indices in permutations(range(n), r):
        if sorted(indices) == list(indices):
            yield tuple(pool[i] for i in indices)

当 0 <= r <= n 时，返回项的个数是 n! / r! / (n-r)!；当 r > n 时，返回项个数为 0。

例如：

import itertools

it1 = itertools.combinations([1,2,3], r=2)
[*it1]
# [(1, 2), (1, 3), (2, 3)]

it2 = itertools.combinations([1,2,3], r=3)
[*it2]
# [(1, 2, 3)]

与 itertools.permutations 不同的是，itertools.combinations 不关注元素顺序，所以只关注组合。

示例

基本用法

import itertools

data = ['A', 'B', 'C']
combinations = itertools.combinations(data, 2)

for combo in combinations:
    print(combo)

# 输出：
'''
('A', 'B')
('A', 'C')
('B', 'C')
'''

处理字符串

import itertools

data = 'ABC'
combinations = itertools.combinations(data, 2)

for combo in combinations:
    print(''.join(combo))

# 输出：
'''
AB
AC
BC
'''

处理数字

import itertools

data = [1, 2, 3, 4]
combinations = itertools.combinations(data, 3)

for combo in combinations:
    print(combo)

# 输出：
'''
(1, 2, 3)
(1, 2, 4)
(1, 3, 4)
(2, 3, 4)
'''

应用场景

密码破解：在尝试所有可能的密码组合时，可以使用 itertools.combinations 生成所有可能的字符组合。
数据分析：在数据分析中，有时需要评估特定数量的特征组合的影响，可以使用 itertools.combinations 生成特征组合。
排列组合问题：在数学或算法问题中，经常需要生成特定长度的组合，以便进一步处理和分析。
抽奖活动：在抽奖活动中，可以使用 itertools.combinations 生成所有可能的中奖组合。

注意事项：

性能：生成组合的数量随着 r 的增大呈指数增长。因此，对于较大的 r 值和较长的输入可迭代对象，生成的组合数量可能非常大，注意控制输入规模以避免性能问题。
无重复：itertools.combinations 生成的组合是无重复的，即 (a, b) 和 (b, a) 被认为是相同的组合，只会出现一次。

案例：选择最佳特征组合

假设我们有一组特征，想要选择其中的 3 个特征进行机器学习模型的训练，可以使用 itertools.combinations 生成所有可能的特征组合：

import itertools

# 特征列表
features = ['feature1', 'feature2', 'feature3', 'feature4', 'feature5']

# 生成所有长度为 3 的特征组合
combinations = itertools.combinations(features, 3)

# 打印所有特征组合
for combo in combinations:
    print(combo)

# 输出：
'''
('feature1', 'feature2', 'feature3')
('feature1', 'feature2', 'feature4')
('feature1', 'feature2', 'feature5')
('feature1', 'feature3', 'feature4')
('feature1', 'feature3', 'feature5')
('feature1', 'feature4', 'feature5')
('feature2', 'feature3', 'feature4')
('feature2', 'feature3', 'feature5')
('feature2', 'feature4', 'feature5')
('feature3', 'feature4', 'feature5')
'''

通过这种方式，可以方便地生成所有可能的特征组合，进行模型训练和评估，从而选择最佳的特征子集。

参考

https://docs.python.org/zh-cn/3/library/itertools.html#itertools.combinations