比例拡張ソートを使用する

比例拡張ソート (proportion extend sort, PESort) は、クイックソートの分割を土台にしつつ、整列済み接頭辞の中央値をピボットに使い、未整列部分の長さを比例定数 p で抑えることで、クイックソートの最悪 O(n²) を避けようとする比較ソートである。

クイックソートは分割が 1 回の走査で済み、現代 CPU のメモリ階層と相性がよい。一方、ピボット選びが偏ると片側だけ巨大な部分問題が残り、最悪時間計算量が O(n²) になりうる。

比例拡張ソートは整列済み接頭辞 S と 未整列部分 U に区間を分けて考え、|U|p·|S| を超える間は SU の先頭 p·|S| 要素をまとめて整列して S を伸ばす。十分短い U だけが残ったら S の中央値をピボットに分割し、左右へ再帰する。サンプルソートに近い「小さな整列済み標本からピボットを得る」発想である。

  1. 接頭辞の初期化: 先頭 1 要素(または少数要素)を整列済み接頭辞 S とみなす。
  2. 比例拡張: |U| > p·|S| のあいだ、SU の先頭 p·|S| 要素をまとめて整列し、結果を新しい S とする。
  3. 中央値ピボット: S の中央値をピボットとして部分配列を分割する(実装では Lomuto 型などクイックソートと同様の分割が用いられる)。
  4. 再帰: ピボットより小さい側・大きい側に同じ手順を適用する。十分短い区間は挿入ソートで仕上げる。
procedure proportion_extend_sort(A, lo, hi, p)
  if hi - lo <= INSERTION_THRESHOLD then
    insertion_sort(A, lo, hi)
    return
  s_end = lo
  while s_end < hi and (hi - s_end) > p * (s_end - lo + 1)
    chunk_end = min(s_end + p * (s_end - lo + 1), hi)
    proportion_extend_sort(A, lo, chunk_end, p)
    s_end = chunk_end
  median = lo + floor((s_end - lo) / 2)
  pivot = partition(A, lo, hi, median)
  proportion_extend_sort(A, lo, pivot - 1, p)
  proportion_extend_sort(A, pivot + 1, hi, p)

パラメータ p は「未整列部分 ÷ 整列済み接頭辞」の上限である(文献によって定義が異なるので実装時は論文・ソースの取り方に注意する)。p ≈ 16 付近で平均性能がよく、p を小さくすると最悪ケースが改善しやすい。p が無限大に近いとクイックソート、未整列部分が 1 要素に近いと二分探索挿入ソートに近い振る舞いになる。

最悪・平均とも O(n log n) 比較、補助領域は再帰スタックで O(log n) とされ、安定ソートではない。

以下のデモでは小配列でも拡張フェーズが見えるように p = 2、小区間閾値 4、分割は Lomuto 型で実行する。青枠は整列済み接頭辞、紫は中央値ピボット、オレンジは比較、緑は交換を表す。

クイックソートやイントロソートと並べて読むと、「分割の速さ」と「最悪ケースの抑え方」のトレードオフが対比しやすい。

計算時間量および空間計算量を計測する

Size Average time Maximum time Average memory Maximum memory
256 0.000006 0.000390 1661 1668
512 0.000019 0.000474 1666 1672
1024 0.000045 0.000513 1673 1680
2048 0.000102 0.000424 1690 1696
4096 0.000218 0.000450 1722 1728
8192 0.000609 0.001594 1786 1792
16384 0.001453 0.002719 1918 1924
32768 0.003233 0.005752 2178 2184
65536 0.006769 0.013338 2690 2696
131072 0.019993 0.134023 3713 3720
262144 0.046617 0.065233 5762 5768
計測に使用したコードを表示する

set -euo pipefail

WORKDIR="$(mktemp -d)"
trap 'rm -rf "$WORKDIR"' EXIT

cat > "$WORKDIR/Dockerfile" <<'EOF'
FROM rust:1.95.0

WORKDIR /app

RUN mkdir -p src

RUN cat > Cargo.toml <<'CARGO'
[package]
name = "rust-benchmark"
version = "0.1.0"
edition = "2021"

[profile.release]
lto = true
codegen-units = 1
panic = "abort"
CARGO

RUN cat > src/main.rs <<'RUST'
use std::{
    env,
    process::Command,
    time::{Duration, Instant},
};
const MIN_POWER: u32 = 8;
const MAX_POWER: u32 = 18;
const RUNS: usize = 8192;
fn insertion_sort(a: &mut [usize]) {
    for i in 1..a.len() {
        let mut j = i;
        while j > 0 && a[j - 1] > a[j] {
            a.swap(j - 1, j);
            j -= 1;
        }
    }
}
fn partition_at(a: &mut [usize], lo: usize, hi: usize, pivot_idx: usize) -> usize {
    a.swap(pivot_idx, hi);
    let pivot = a[hi];
    let mut i = lo;
    for j in lo..hi {
        if a[j] < pivot {
            a.swap(i, j);
            i += 1;
        }
    }
    a.swap(i, hi);
    i
}
fn pe_sort_range(a: &mut [usize], lo: usize, hi: usize) {
    const P: usize = 16;
    if hi <= lo {
        return;
    }
    if hi - lo < 16 {
        insertion_sort(&mut a[lo..=hi]);
        return;
    }
    let mut s_end = lo;
    while s_end < hi && hi - s_end > P * (s_end - lo + 1) {
        let chunk_end = (s_end + P * (s_end - lo + 1)).min(hi);
        pe_sort_range(a, lo, chunk_end);
        s_end = chunk_end;
    }
    let median = lo + (s_end - lo) / 2;
    let pivot = partition_at(a, lo, hi, median);
    if pivot > 0 {
        pe_sort_range(a, lo, pivot - 1);
    }
    pe_sort_range(a, pivot + 1, hi);
}

fn proportion_extend_sort(a: &mut [usize]) {
    if let Some(hi) = a.len().checked_sub(1) {
        pe_sort_range(a, 0, hi);
    }
}

fn benchmark_sort(array: &mut [usize]) {

    proportion_extend_sort(array);

}

fn shuffled(size: usize, seed: u64) -> Vec<usize> {
    let mut v: Vec<usize> = (1..=size).collect();

    let mut state = seed;

    for i in (1..size).rev() {
        state ^= state << 13;
        state ^= state >> 7;
        state ^= state << 17;

        let j = (state as usize) % (i + 1);

        v.swap(i, j);
    }

    v
}

fn memory_usage_kb() -> usize {
    let contents = std::fs::read_to_string("/proc/self/status")
        .unwrap_or_default();

    for line in contents.lines() {
        if let Some(rest) = line.strip_prefix("VmHWM:") {
            let kb = rest
                .split_whitespace()
                .next()
                .unwrap_or("0")
                .parse::<usize>()
                .unwrap_or(0);

            return kb;
        }
    }

    0
}

fn micros(d: Duration) -> u128 {
    d.as_micros()
}

fn run_once(size: usize, seed: usize) -> (u128, usize) {
    let expected: Vec<usize> = (1..=size).collect();
    let mut array = shuffled(size, seed as u64);

    let start = Instant::now();

    benchmark_sort(&mut array);

    let elapsed = start.elapsed();

    if array != expected {
        panic!(
            "sort failed with seed {} for size {}",
            seed,
            size
        );
    }

    (micros(elapsed), memory_usage_kb())
}

fn run_child(args: &[String]) {
    let size = args[2].parse::<usize>().expect("invalid size");
    let seed = args[3].parse::<usize>().expect("invalid seed");
    let (elapsed_us, mem) = run_once(size, seed);
    println!("{} {}", elapsed_us, mem);
}

fn main() {
    let args: Vec<String> = env::args().collect();
    if args.get(1).is_some_and(|arg| arg == "--run-once") {
        run_child(&args);
        return;
    }

    println!(
        "| {:>10} | {:>15} | {:>15} | {:>15} | {:>15} |",
        "Size",
        "Average time",
        "Maximum time",
        "Average memory",
        "Maximum memory"
    );

    println!(
        "|{:-<11}:|{:-<16}:|{:-<16}:|{:-<16}:|{:-<16}:|",
        "",
        "",
        "",
        "",
        ""
    );

    for power in MIN_POWER..=MAX_POWER {
        let size = 1usize << power;

        let mut total_time: u128 = 0;
        let mut max_time: u128 = 0;

        let mut total_mem: usize = 0;
        let mut max_mem: usize = 0;

        for seed in 1..=RUNS {
            let output = Command::new(env::current_exe().expect("failed to find current executable"))
                .arg("--run-once")
                .arg(size.to_string())
                .arg(seed.to_string())
                .output()
                .expect("failed to run benchmark child process");

            if !output.status.success() {
                panic!(
                    "benchmark child process failed: {}",
                    String::from_utf8_lossy(&output.stderr)
                );
            }

            let stdout = String::from_utf8(output.stdout)
                .expect("child process returned non-UTF-8 output");
            let mut fields = stdout.split_whitespace();
            let elapsed_us = fields
                .next()
                .expect("missing elapsed time")
                .parse::<u128>()
                .expect("invalid elapsed time");
            let mem = fields
                .next()
                .expect("missing memory usage")
                .parse::<usize>()
                .expect("invalid memory usage");

            total_time += elapsed_us;

            if elapsed_us > max_time {
                max_time = elapsed_us;
            }

            total_mem += mem;

            if mem > max_mem {
                max_mem = mem;
            }
        }

        let avg_time = total_time / RUNS as u128;
        let avg_mem = total_mem / RUNS;

        println!(
            "| {:>10} | {:>15} | {:>15} | {:>15} | {:>15} |",
            size,
            format!("{}.{:06}", avg_time / 1_000_000, avg_time % 1_000_000),
            format!("{}.{:06}", max_time / 1_000_000, max_time % 1_000_000),
            avg_mem,
            max_mem
        );
    }
}
RUST

RUN cargo build --release

CMD ["./target/release/rust-benchmark"]
EOF

docker build -t rust-benchmark "$WORKDIR"
docker run --rm --init rust-benchmark