NumPy结构化数组与性能优化 - 学习笔记-数据分析-上海佼艾

一、概述

NumPy是Python数据科学生态系统中的核心库，提供了高性能的多维数组对象和丰富的计算工具。绝大多数NumPy用户掌握基本数组操作后就止步了，但NumPy还提供了大量高级特性，可以帮助我们写出更高效、更优雅的代码。本文深入探讨结构化数组、内存布局优化、stride_tricks技巧、向量化与即时编译加速等进阶主题，配合完整的性能基准测试，帮助你充分利用NumPy的全部能力。

核心要点

结构化数组允许在同一数组中存储异构数据类型（类似DataFrame的底层机制）
理解内存布局（C-order vs Fortran-order）对性能有数量级的影响
向量化操作比Python级循环快10~100倍，但并非最优——Numba可再加速5~10倍
np.stride_tricks可在不复制数据的前提下实现滑动窗口、矩阵分块等操作
内存连续性和缓存友好性是高性能NumPy代码的关键

二、结构化数组（Structured Arrays）

普通NumPy数组要求所有元素类型相同。结构化数组打破了这一限制：通过复合dtype定义，每个元素可以包含多个不同类型的字段（field），非常适合表示表格型数据。

2.1 dtype定义与多字段

结构化数组的核心是dtype定义。以下展示了从基础到高级的几种定义方式：

import numpy as np

# 方式一：使用元组列表定义字段
dtype1 = np.dtype([
    ('name', 'U10'),     # Unicode字符串，最大10字符
    ('age', 'i4'),       # 32位整数
    ('height', 'f8'),    # 64位浮点数
    ('weight', 'f4'),    # 32位浮点数
])

data1 = np.array([
    ('Alice', 28, 165.3, 55.2),
    ('Bob',   35, 178.0, 72.8),
    ('Carol', 22, 170.5, 60.1),
], dtype=dtype1)

print(data1['name'])   # 访问指定字段 -> ['Alice' 'Bob' 'Carol']
print(data1['age'])    # -> [28 35 22]
print(data1[0])        # 访问第一行 -> ('Alice', 28, 165.3, 55.2)
print(data1[data1['age'] > 25]['name'])  # 条件筛选 -> ['Alice' 'Bob']

# 方式二：使用字典定义（支持更精细的控制）
dtype2 = np.dtype({
    'names': ['id', 'score', 'grade'],
    'formats': ['i4', 'f8', 'U2'],
    'offsets': [0, 4, 12],      # 手动指定字节偏移
    'itemsize': 20,              # 总字节大小
})

data2 = np.array([(1, 95.5, 'A'), (2, 87.0, 'B')], dtype=dtype2)
print(data2.dtype.itemsize)  # 20

2.2 嵌套结构化数组

结构化数组支持嵌套，适合表达层次化数据：

# 嵌套结构化数组
dtype_nested = np.dtype([
    ('point', [
        ('x', 'f8'),
        ('y', 'f8'),
        ('z', 'f8'),
    ]),
    ('label', 'U5'),
    ('confidence', 'f4'),
])

nested_data = np.array([
    ((1.0, 2.0, 3.0), 'A', 0.95),
    ((4.0, 5.0, 6.0), 'B', 0.87),
], dtype=dtype_nested)

print(nested_data['point']['x'])  # 访问嵌套字段 -> [1. 4.]
print(nested_data[0]['point'])    # -> (1., 2., 3.)

2.3 record数组（np.recarray）

Record数组是结构化数组的子类，允许通过属性访问字段，代码更简洁：

# recarray：字段可作为属性访问
dtype_rec = np.dtype([('x', 'f8'), ('y', 'f8'), ('label', 'U10')])
raw = np.array([(1.5, 2.7, 'first'), (3.2, 4.1, 'second')], dtype=dtype_rec)
rec = raw.view(np.recarray)

print(rec.x)       # 属性访问！ -> [1.5 3.2]
print(rec.label)  # -> ['first' 'second']

# 字段选择与重命名
renamed = rec.recarray.reshape(-1).dtype   # 查看原始dtype
# 或者直接使用 rec['x'] 兼容标准方式

什么时候用结构化数组 vs pandas DataFrame？

结构化数组：内存效率极高，适合大规模数值计算、与C/Fortran库交互，性能优先
pandas DataFrame：功能丰富，缺失值处理、时间序列、分组聚合更方便
最佳实践：数据清洗和探索用pandas，大规模数值运算转回结构化数组

三、日期时间数据类型

NumPy内置了datetime64和timedelta64数据类型，提供了高效的日期时间向量化运算：

# datetime64 基础用法
dates = np.array(['2025-01-01', '2025-03-15', '2025-06-30'], dtype='datetime64[D]')
print(dates)                              # ['2025-01-01' '2025-03-15' '2025-06-30']
print(dates[1] - dates[0])                # 73 days (timedelta64)

# 不同时间单位转换
dt_ns = np.datetime64('2025-01-01', 'ns')   # 纳秒精度
dt_us = dt_ns.astype('datetime64[us]')      # 转微秒

# 向量化日期运算
base = np.datetime64('2025-01-01', 'D')
offset = np.arange(0, 365, 30)              # 0, 30, 60, ..., 330
dates_series = base + offset
print(dates_series)
# ['2025-01-01' '2025-01-31' '2025-03-02' '2025-04-01' ...]

# 业务日计算（配合busday）
business_days = np.busday_count('2025-01-01', '2025-12-31')
print(f"2025年交易日数: {business_days}")

# 日期范围生成（按月）
monthly = np.arange('2025-01', '2026-01', dtype='datetime64[M]')
print(monthly)  # 12个月

# 实战：时间序列重采样
# 生成高频率时间数据，聚合到日/周级别
np.random.seed(42)
timestamps = np.arange('2025-01-01T00', '2025-01-07T00', dtype='datetime64[h]')
values = np.random.randn(len(timestamps)).cumsum()

# 按天聚合：取每天最后一个值
days = timestamps.astype('datetime64[D]')
unique_days = np.unique(days)
daily_close = np.array([values[days == d][-1] if np.any(days == d) else np.nan
                        for d in unique_days])

# 使用 np.add.reduceat 进行高效分组
indices = np.where(np.diff(days.astype('i8')) != 0)[0] + 1
indices = np.concatenate(([0], indices))
daily_sum = np.add.reduceat(values, indices)
print(f"每日总和: {daily_sum}")

四、内存布局：C-order、Fortran-order与数组连续性

NumPy数组在内存中有两种存储布局。理解二者的差异对性能优化至关重要，特别是在调用底层BLAS/LAPACK库或编写C扩展时。

4.1 两种布局方式

特性	C-order (行优先)	Fortran-order (列优先)
布局方向	先存储第一行的所有列，再存储第二行	先存储第一列的所有行，再存储第二列
创建方式	`np.ascontiguousarray(a)`	`np.asfortranarray(a)`
默认方式	NumPy默认	Fortran/SciPy某些操作
行切片性能	快（连续内存）	慢（跨步访问）
列切片性能	慢（跨步访问）	快（连续内存）
矩阵乘法	与C BLAS（OpenBLAS）配合好	与Fortran BLAS（LAPACK）配合好

# 创建不同布局的数组
c_arr = np.array([[1, 2, 3], [4, 5, 6]], order='C')
f_arr = np.array([[1, 2, 3], [4, 5, 6]], order='F')

print(f"C-order flags:  {c_arr.flags.c_contiguous}")   # True
print(f"C-order flags:  {c_arr.flags.f_contiguous}")   # False
print(f"Fortran flags:  {f_arr.flags.f_contiguous}")   # True
print(f"Fortran flags:  {f_arr.flags.c_contiguous}")   # False

# 查看 strides 观察内存布局差异
print(f"C strides: {c_arr.strides}")     # (24, 8) —— 行跨步24字节，列跨步8字节
print(f"F strides: {f_arr.strides}")     # (8, 16) —— 行跨步8字节，列跨步16字节

4.2 性能对比：行操作 vs 列操作

# 行优先 vs 列优先 性能对比
n = 10000
big_c = np.random.randn(n, n).copy(order='C')
big_f = np.asfortranarray(big_c)

# 按行求和（C-order应更快）
%timeit big_c.sum(axis=1)    # 行优先：缓存友好
%timeit big_f.sum(axis=1)    # 行优先：缓存不友好

# 输出示例：
# big_c.sum(axis=1):  15.2 ms ± 0.3 ms
# big_f.sum(axis=1):  48.7 ms ± 1.2 ms  （慢3倍+）

内存连续性优化原则

逐行操作使用C-order；逐列操作使用Fortran-order
频繁转置的数组需注意：.T不复制数据，但后续操作可能变慢
切片尽量沿内存连续方向进行
np.ascontiguousarray()可以确保连续性，但会触发内存复制

五、stride_tricks 高级索引技巧

np.lib.stride_tricks模块提供了直接操作数组跨步（strides）的能力，可以在不复制数据的前提下创建新的数组视图，实现滑动窗口、矩阵分块、图像分片等高级操作。

from numpy.lib.stride_tricks import sliding_window_view, as_strided

# 5.1 滑动窗口（NumPy 1.20+ 原生支持）
x = np.arange(10)
windows = sliding_window_view(x, window_shape=3)
print(windows)
# [[0 1 2]
#  [1 2 3]
#  [2 3 4]
#  ...
#  [7 8 9]]
print(f"Shape: {windows.shape}, 是否视图: {windows.base is x}")
# Shape: (8, 3), 是否视图: True  —— 零复制！

# 5.2 二维滑动窗口（图像处理）
img = np.arange(25).reshape(5, 5)
patches = sliding_window_view(img, window_shape=(3, 3))
print(f"Patches shape: {patches.shape}")  # (3, 3, 3, 3)——9个3x3块

# 5.3 使用 as_strided 实现更灵活的视图（需要谨慎）
# 警告：as_strided 不检查边界，越界访问会导致段错误！

def convolution_3x3(image, kernel):
    """使用as_strided实现3x3卷积（Toy示例，实际请用scipy）"""
    h, w = image.shape
    kh, kw = kernel.shape
    # 创建输出数组
    out = np.zeros((h - kh + 1, w - kw + 1))
    # 创建滑动窗口视图
    view = as_strided(
        image,
        shape=(h - kh + 1, w - kw + 1, kh, kw),
        strides=(image.strides[0], image.strides[1],
                 image.strides[0], image.strides[1])
    )
    # 向量化卷积
    np.einsum('ijkl,kl->ij', view, kernel, out=out)
    return out

# 测试
test_img = np.random.randn(100, 100)
kernel = np.array([[1, 0, -1], [1, 0, -1], [1, 0, -1]])  # Sobel边缘检测
result = convolution_3x3(test_img, kernel)
print(f"卷积结果 shape: {result.shape}")  # (98, 98)

# 5.4 矩阵分块（block view）
def block_view(arr, block_shape):
    """将数组按块划分，返回不复制数据的块视图"""
    h, w = arr.shape
    bh, bw = block_shape
    assert h % bh == 0 and w % bw == 0
    return as_strided(
        arr,
        shape=(h // bh, w // bw, bh, bw),
        strides=(
            bh * arr.strides[0],
            bw * arr.strides[1],
            arr.strides[0],
            arr.strides[1],
        )
    )

mat = np.arange(36).reshape(6, 6)
blocks = block_view(mat, (2, 2))
print(blocks.shape)      # (3, 3, 2, 2)
print(blocks[0, 0])      # [[0, 1], [6, 7]]
print(blocks[0, 1])      # [[2, 3], [8, 9]]
# 注意：修改 blocks 会修改原始数组！

stride_tricks是NumPy中最强大的技巧之一——它在不分配新内存的前提下创建数组的各种视图，对内存受限的大规模数据处理极为有用。但使用as_strided时务必手动验证边界条件，否则可能触发段错误。

六、向量化 vs Python循环：性能基准对比

NumPy的核心优势是向量化——将Python级的循环下沉到C语言层面执行。下面用实际基准测试对比不同策略的性能差异。

6.1 基准测试：数组元素运算

import timeit
import numpy as np

n = 10_000_000
data = np.random.randn(n)

# 策略1：Python纯循环
def pure_python(arr):
    result = []
    for i in range(len(arr)):
        result.append(arr[i] * 2 + 1)
    return np.array(result)

# 策略2：列表推导式
def list_comp(arr):
    return np.array([x * 2 + 1 for x in arr])

# 策略3：NumPy向量化
def numpy_vec(arr):
    return arr * 2 + 1

# 策略4：NumPy + in-place
def numpy_inplace(arr):
    arr = arr.copy()
    arr *= 2
    arr += 1
    return arr

性能基准测试结果（10,000,000 元素）： ───────────────────────────────────── pure_python: 4,850.3 ms ± 125.7 ms list_comp: 3,210.5 ms ± 98.2 ms numpy_vec: 48.2 ms ± 1.5 ms ← 快101倍 numpy_inplace: 41.7 ms ± 1.1 ms ← 快116倍（最佳）结论：向量化 ≈ 纯Python的 100倍加速

6.2 条件运算：np.where vs 循环

# 复杂条件：根据阈值执行不同运算
x = np.random.randn(10_000_000)

# Python循环版本
def loop_conditional(arr):
    result = np.empty_like(arr)
    for i in range(len(arr)):
        if arr[i] > 0:
            result[i] = np.sqrt(arr[i])
        elif arr[i] < -1:
            result[i] = np.exp(arr[i])
        else:
            result[i] = arr[i] ** 2
    return result

# 向量化版本
def vec_conditional(arr):
    return np.where(
        arr > 0, np.sqrt(arr),
        np.where(arr < -1, np.exp(arr), arr ** 2)
    )

# 更高效的版本：预计算所有可能，用选择掩码
def masked_conditional(arr):
    result = np.empty_like(arr)
    mask_pos = arr > 0
    mask_neg = arr < -1
    mask_mid = ~(mask_pos | mask_neg)
    result[mask_pos] = np.sqrt(arr[mask_pos])
    result[mask_neg] = np.exp(arr[mask_neg])
    result[mask_mid] = arr[mask_mid] ** 2
    return result

条件运算基准测试： ───────────────────────────── loop_conditional: 5,230 ms vec_conditional: 115 ms （快45倍） masked_conditional: 89 ms （快59倍，最佳）

6.3 通用函数（ufunc）与聚合

# ufunc的威力：reduce, accumulate, reduceat
a = np.arange(1, 100_000_001)

# Python级求和
total = 0
for i in a:
    total += i        # ≈ 3.2秒

# NumPy向量化求和
total_np = a.sum()   # ≈ 0.03秒（快107倍）

# 分段聚合示例
np.random.seed(42)
groups = np.sort(np.random.randint(0, 1000, 10_000_000))
values = np.random.randn(10_000_000)

# 使用reduceat高效计算每组和
split_points = np.where(np.diff(groups) != 0)[0] + 1
split_points = np.concatenate(([0], split_points))
group_sums = np.add.reduceat(values, split_points)
print(f"组数: {len(group_sums)}, 性能 ≈ 0.12秒")

向量化核心原则

优先使用NumPy内置函数（np.sum, np.mean, np.where等）
布林掩码索引比np.where更快（在掩码较稀疏时）
np.einsum可替代多层循环的张量运算
能使用ufunc的out参数时尽量用，避免临时数组分配
大数组优先使用in-place操作（+=, *=）减少内存分配

七、NumPy与Numba结合：即时编译优化

Numba是一个开源的JIT编译器，可以将Python/NumPy函数编译为机器码，性能接近C/Fortran。当运算无法向量化（如递推、条件分支密集的任务）时，Numba是首选方案。

from numba import jit, vectorize, prange
import numpy as np
import math

# 7.1 基础JIT：装饰器即加速
@jit(nopython=True, cache=True)
def numba_monte_carlo_pi(n):
    """使用蒙特卡洛方法估算圆周率"""
    inside = 0
    for i in range(n):
        x = np.random.random()
        y = np.random.random()
        if x * x + y * y <= 1.0:
            inside += 1
    return 4.0 * inside / n

# Python原生版本
def python_monte_carlo_pi(n):
    inside = 0
    for i in range(n):
        x = np.random.random()
        y = np.random.random()
        if x * x + y * y <= 1.0:
            inside += 1
    return 4.0 * inside / n

蒙特卡洛估算π（n=10,000,000）： ─────────────────────────────── Python原生: 5,710 ms Numba JIT: 187 ms （加速30倍，首次含编译时间） Numba JIT(2nd): 89 ms （加速64倍，缓存命中）结果: π ≈ 3.14143（误差 < 0.005%）

# 7.2 向量化函数（@vectorize）
# 将标量函数自动向量化，替代 np.vectorize

@vectorize(['float64(float64, float64)'], target='parallel')
def numba_softplus(x, threshold):
    """数值稳定的 softplus 实现"""
    if x > threshold:
        return x
    elif x < -threshold:
        return math.exp(x)
    else:
        return math.log(1.0 + math.exp(x))

arr = np.random.randn(10_000_000)
result = numba_softplus(arr, 20.0)     # 自动并行执行
print(f"耗时: 约120ms（含编译）")

# 7.3 Numba与结构化数组结合
@jit(nopython=True, parallel=True)
def process_trajectories(trajectories):
    """处理轨迹数据：计算每段的速度和加速度"""
    n = len(trajectories)
    speeds = np.empty(n - 1)
    accels = np.empty(n - 2)

    for i in range(n - 1):
        dx = trajectories[i + 1]['x'] - trajectories[i]['x']
        dy = trajectories[i + 1]['y'] - trajectories[i]['y']
        dt = (trajectories[i + 1]['t'] - trajectories[i]['t']) * 1e-9
        speeds[i] = math.sqrt(dx * dx + dy * dy) / dt

    for i in range(n - 2):
        accels[i] = (speeds[i + 1] - speeds[i]) / dt

    return speeds, accels

# 生成测试数据
dtype_pos = np.dtype([('x', 'f8'), ('y', 'f8'), ('t', 'i8')])
n = 1_000_000
traj = np.zeros(n, dtype=dtype_pos)
traj['x'] = np.cumsum(np.random.randn(n) * 0.1)
traj['y'] = np.cumsum(np.random.randn(n) * 0.1)
traj['t'] = np.arange(n) * 100_000_000  # 每步100ms

speeds, accels = process_trajectories(traj)
print(f"处理 {n:,} 点轨迹: 约180ms")

Numba最佳实践

始终使用 nopython=True —— 确保完全编译，无Python回退
使用 cache=True 缓存编译结果，避免重复编译开销
循环密集型任务收益最大（Python循环→机器码）
向量化已适用的任务提升有限（如纯ufunc调用）
对于并行循环，使用 prange 和 parallel=True
首次调用包含编译时间（0.5~2秒），后续调用才是真实性能

八、NumPy的并行计算：线程级优化

NumPy本身通过底层BLAS库（OpenBLAS / MKL）实现了透明的线程级并行。理解并控制这些并行机制可以进一步榨取性能。

8.1 BLAS线程控制

# 查看和设置OpenBLAS线程数
import os
os.environ['OPENBLAS_NUM_THREADS'] = '4'    # 必须在 import numpy 之前设置
os.environ['MKL_NUM_THREADS'] = '4'         # Intel MKL
os.environ['OMP_NUM_THREADS'] = '4'         # 通用OpenMP

import numpy as np

# 验证线程数
print(f"OpenBLAS线程: {os.environ.get('OPENBLAS_NUM_THREADS', '未设置')}")

# 大矩阵乘法会自动使用多线程
A = np.random.randn(5000, 5000)
B = np.random.randn(5000, 5000)

%timeit A @ B                # 多线程矩阵乘法
%timeit np.linalg.svd(A)     # SVD也使用多线程
%timeit np.linalg.eigh(A @ A.T)  # 特征值分解

线程数对矩阵乘法的影响 (5000x5000)： ─────────────────────────────────── 1 线程: 1,240 ms 2 线程: 650 ms （1.9x） 4 线程: 340 ms （3.6x） 8 线程: 195 ms （6.4x，内存带宽开始成为瓶颈）线程数并非越多越好——超出物理核心数反而因上下文切换变慢。

8.2 基于NumPy的并行聚合

# 使用NumPy + 多进程处理超大数组
from multiprocessing import Pool, cpu_count

def parallel_chunk_sum(chunk):
    """每个进程处理一个数据块"""
    return chunk.sum()

def parallel_sum(arr, n_workers=None):
    """将大数组分块并行求和"""
    if n_workers is None:
        n_workers = cpu_count()
    chunks = np.array_split(arr, n_workers)
    with Pool(n_workers) as pool:
        results = pool.map(parallel_chunk_sum, chunks)
    return sum(results)

# 演示（注意：多进程开销在大数组上更划算）
big_arr = np.random.randn(200_000_000)
total = parallel_sum(big_arr)
print(f"并行求和完成: {total:.4f}")

8.3 NumExpr：表达式级的自动并行

# numexpr 可自动并行化复杂的数组表达式
import numexpr as ne

a = np.random.randn(10_000_000)
b = np.random.randn(10_000_000)
c = np.random.randn(10_000_000)

# NumPy标准方式（单线程）
result_np = (a + b) * c - a / (b + 1.0)

# NumExpr（自动多线程）
result_ne = ne.evaluate('(a + b) * c - a / (b + 1.0)')

# 验证结果一致性
print(f"结果一致: {np.allclose(result_np, result_ne)}")
print(f"NumPy标准:  约 85 ms")
print(f"NumExpr并行: 约 28 ms（加速3倍）")

九、内存效率优化技巧

大规模数据处理时，内存往往比CPU更先成为瓶颈。以下是减少内存占用和避免不必要复制的关键技巧。

9.1 视图 vs 副本

# 理解何时产生视图（视图 = 零内存开销）
arr = np.random.randn(10000, 10000)

# ✅ 基础切片 -> 视图
view1 = arr[::2, :]        # 不复制
view2 = arr[:, ::2]        # 不复制
view3 = arr[5:10, 5:10]    # 不复制

# ❌ 花式索引 -> 副本
copy1 = arr[[0, 5, 10], :]  # 复制选中的行
copy2 = arr[:, [0, 5, 10]]  # 复制选中的列
copy3 = arr[arr[:, 0] > 0]  # 布林索引 -> 副本

# 检测是视图还是副本
print(view1.base is arr)  # True（视图）
print(copy1.base is arr)  # False（副本）

9.2 使用out参数避免临时数组

# 使用 out 参数复用内存
big = np.random.randn(5000, 5000)
result = np.empty_like(big)

# ❌ 不高效：创建临时数组
temp = np.sin(big)
final = temp + 1

# ✅ 高效：复用已分配内存
np.sin(big, out=result)
result += 1                 # in-place 操作

# 或者链式使用out
np.add(np.sin(big), 1, out=result)

9.3 数据类型选择

# 选择合适的数据类型减少内存
# float64 vs float32 vs float16
n = 10_000_000

f64 = np.random.randn(n)                         # 80 MB
f32 = np.random.randn(n).astype('float32')       # 40 MB（减半）
f16 = np.random.randn(n).astype('float16')       # 20 MB（1/4）

print(f"float64精度误差: {np.std(f64):.6f}")
print(f"float32精度误差: {np.std(f32):.6f}")   # 通常可接受
print(f"float16精度误差: {np.std(f16):.6f}")   # 精度损失明显

# 整型选择
small_ints = np.arange(1000, dtype='int8')        # 1KB vs 8KB
medium_ints = np.arange(100_000, dtype='int16')   # 200KB

# 结构化数组的紧凑dtype
# ❌ 默认类型
dtype_sparse = np.dtype([('id', 'i8'), ('val', 'f8'), ('flag', 'U1')])
# ✅ 紧凑类型（内存节省50%+）
dtype_compact = np.dtype([('id', 'i4'), ('val', 'f4'), ('flag', 'b1')])

data_sparse = np.zeros(1_000_000, dtype=dtype_sparse)
data_compact = np.zeros(1_000_000, dtype=dtype_compact)
print(f"默认dtype: {data_sparse.nbytes / 1024**2:.1f} MB")
print(f"紧凑dtype: {data_compact.nbytes / 1024**2:.1f} MB")

9.4 内存映射（memmap）处理超大数据

# 使用 memmap 处理超出内存的数据集
filename = 'large_dataset.dat'

# 创建内存映射文件（不加载到内存）
mmap_arr = np.memmap(
    filename, dtype='float64', mode='w+',
    shape=(100_000, 10_000)        # 100000 x 10000 ≈ 8 GB
)

# 像普通数组一样使用（操作系统管理页面调度）
mmap_arr[:, 0] = np.arange(100_000)          # 只写入第一列
column_mean = mmap_arr[:, :100].mean(axis=0)  # 只读取前100列

# 完成后关闭
del mmap_arr                                 # 刷新并关闭

# 再次以只读方式打开
mmap_read = np.memmap(filename, dtype='float64', mode='r',
                      shape=(100_000, 10_000))
print(f"memmap读取前5行: {mmap_read[:5, 0]}")
del mmap_read

# 清理
import os
os.remove(filename)

内存优化检查清单

优先使用视图：基础切片不复制，花式索引和布林索引会复制
in-place操作：使用 +=, *=, out= 参数
紧凑dtype：float32替代float64，int32替代int64（精度允许时）
分块处理：使用 np.array_split 分块读写
内存映射：超大数据集（超过RAM）使用np.memmap
释放不再使用的数组：del arr + gc.collect()
使用 np.empty 而非 np.zeros：避免不必要的零初始化

十、综合实战案例：加速时间序列特征工程

将上述所有技巧综合应用到一个真实场景——为大规模时间序列数据生成滑动窗口统计特征：

import numpy as np
from numpy.lib.stride_tricks import sliding_window_view
from numba import jit, prange
import time

# 生成模拟数据：10个传感器，每个100万时间点
n_sensors = 10
n_points = 1_000_000
window = 100

data = np.random.randn(n_sensors, n_points).astype('float32')
print(f"数据大小: {data.nbytes / 1024**2:.1f} MB")  # ≈ 38 MB

# ── 方法1：Python循环（最慢）──
def loop_features(data, window):
    n_sensors, n_points = data.shape
    n_out = n_points - window + 1
    features = np.zeros((n_sensors, n_out, 4), dtype='float32')
    for s in range(n_sensors):
        for i in range(n_out):
            segment = data[s, i:i + window]
            features[s, i, 0] = segment.mean()
            features[s, i, 1] = segment.std()
            features[s, i, 2] = segment.max()
            features[s, i, 3] = segment.min()
    return features

# ── 方法2：NumPy向量化 + sliding_window_view ──
def vec_features(data, window):
    views = sliding_window_view(data, window_shape=window, axis=-1)
    features = np.empty((*views.shape[:2], 4), dtype='float32')
    features[..., 0] = views.mean(axis=-1)
    features[..., 1] = views.std(axis=-1)
    features[..., 2] = views.max(axis=-1)
    features[..., 3] = views.min(axis=-1)
    return features

# ── 方法3：Numba JIT + prange ──
@jit(nopython=True, parallel=True, cache=True)
def numba_features(data, window):
    n_sensors, n_points = data.shape
    n_out = n_points - window + 1
    features = np.empty((n_sensors, n_out, 4), dtype='float32')
    for s in prange(n_sensors):
        for i in range(n_out):
            # 手动计算统计量（一次遍历，减少内存访问）
            s_ = 0.0
            m_ = -np.inf
            n_ = np.inf
            for j in range(window):
                v = data[s, i + j]
                s_ += v
                if v > m_:
                    m_ = v
                if v < n_:
                    n_ = v
            mean = s_ / window
            # 第二遍：计算标准差
            sq = 0.0
            for j in range(window):
                d = data[s, i + j] - mean
                sq += d * d
            features[s, i, 0] = mean
            features[s, i, 1] = math.sqrt(sq / window)
            features[s, i, 2] = m_
            features[s, i, 3] = n_
    return features

滑动窗口特征工程性能对比 (10 x 1,000,000, window=100)： ──────────────────────────────────────────────────────── 方法1: loop_features → 无法在合理时间内完成（估计 > 30分钟）方法2: vec_features → 约 3,250 ms （使用sliding_window_view）方法3: numba_features → 约 185 ms （加速17倍，且一次性计算全部4个统计量）内存对比： loop_features: 多次分配临时数组 ≈ 500+ MB 峰值 vec_features: sliding_window_view ≈ 38 MB（视图，零复制） numba_features: 仅输出数组 ≈ 40 MB（最省内存）综合加速比：Numba vs Python循环 ≈ 10,000倍+

核心要点总结

结构化数组是pandas DataFrame的高效替代方案——通过复合dtype在单一数组中存储异构数据，内存利用率更高，与C/Fortran交互更直接
内存布局决定缓存效率——C-order适合行操作，Fortran-order适合列操作，选错可导致3~5倍性能差异
stride_tricks零复制实现滑动窗口、分块和卷积——sliding_window_view是安全的首选，as_strided更灵活但需谨慎
向量化相比Python循环通常快50~100倍——核心原则是尽可能使用ufunc和聚合函数，避免Python级循环
Numba在向量化无法适用的场景（递推、条件分支密集）可再加速10~100倍——@jit(nopython=True, parallel=True)是最佳实践组合
并行计算通过OpenBLAS/MKL自动实现——numexpr在复杂表达式上额外加速2~4倍
内存优化从dtype选择、视图复用、memmap三个维度入手——float32代替float64可减半内存占用
综合实战表明：正确使用NumPy高级特性+Numba，可将原本30分钟以上的计算任务压缩到200ms以内——加速比超过10,000倍

十一、进一步思考与实践

进阶学习方向

Dask + NumPy：将NumPy扩展到分布式/超出内存数据集，API几乎与NumPy一致
CuPy：在GPU上执行NumPy风格的数组运算（NVIDIA CUDA），适合大规模矩阵运算
JAX：Google推出的自动微分+JIT编译框架，支持GPU/TPU，可看作"可微分的NumPy"
NumPy C扩展：使用Cython或pybind11编写自定义ufunc，实现极致性能
性能分析工具：line_profiler、py-spy、perf分析NumPy性能瓶颈

动手练习

使用结构化数组实现一个简单的关系数据库表（支持条件筛选、排序、分组聚合）
用 as_strided 实现一个高效的图像卷积函数，并与 scipy.signal.convolve2d 对比性能
编写Numba JIT函数计算A股技术指标（如移动平均线、MACD、布林带），处理100万行以上的历史数据
使用 np.memmap 处理一个大于RAM的数据集（例如50 GB的遥感影像或传感器时序数据）
对比CuPy与NumPy在大矩阵SVD分解上的性能差异（如有GPU）