ビトニックソートを使用する

ビトニックソート (bitonic sort) は、部分列を 昇順・降順の2つの単調列(ビトニック列)に組み立て、 距離 k の要素同士を比較・交換する ビトニックマージ で整列させる比較ソートである。 Batcher による並列ソートネットワークとして知られ、同じ比較パターンを再帰的に適用できる。

  1. 分割: 長さ n(2の冪)の区間を半分に分け、前半を昇順・後半を降順に整えるよう再帰する。
  2. ビトニック列の形成: 再帰の底で長さ2の区間は1回の比較で昇順または降順になる。
  3. ビトニックマージ: 区間の前半と後半を距離 n/2 でペアにし、方向に応じて比較交換する。その後、半分の長さで同じ処理を再帰する。
  4. 全体: 最上位の呼び出しで昇順方向を指定すれば、配列全体が昇順になる。
procedure compare_exchange(A, i, j, dir_up)
  if dir_up and A[i] > A[j] then
    swap(A[i], A[j])
  if not dir_up and A[i] < A[j] then
    swap(A[i], A[j])

procedure bitonic_merge(A, lo, cnt, dir_up)
  if cnt <= 1 then
    return
  k = cnt / 2
  for i from lo to lo + k - 1
    compare_exchange(A, i, i + k, dir_up)
  bitonic_merge(A, lo, k, dir_up)
  bitonic_merge(A, lo + k, k, dir_up)

procedure bitonic_sort(A, lo, cnt, dir_up)
  if cnt <= 1 then
    return
  k = cnt / 2
  bitonic_sort(A, lo, k, true)
  bitonic_sort(A, lo + k, k, false)
  bitonic_merge(A, lo, cnt, dir_up)

要素数は 2の冪 を前提とする実装が一般的である(不足分はダミー要素で埋めることもできる)。

逐次実行では時間計算量 O(n log² n)、追加配列を使わない O(1) 補助記憶のインプレース版が可能である。

比較の依存関係が規則的なため GPU や SIMD 向けの並列ソートの教材としてもよく扱われる。等しいキーの相対順序を保たない 不安定 なソートとして分類されることが多い。

マージソートのように「分割してから整列する」構造を持つが、マージではなく 固定距離の比較交換 で順序を決める点が異なる。

奇偶転置ソートと同様、ラウンド内の比較パターンが決定的であるため、可視化するとネットワーク状の動きが見えやすい。

計算時間量および空間計算量を計測する

Size Average time Maximum time Average memory Maximum memory
256 0.000017 0.000422 1662 1668
512 0.000034 0.000406 1666 1672
1024 0.000078 0.000540 1674 1680
2048 0.000171 0.000507 1690 1696
4096 0.000382 0.000765 1721 1728
8192 0.000906 0.001474 1786 1792
16384 0.001891 0.003437 1918 1924
32768 0.004394 0.035621 2178 2184
65536 0.009015 0.024121 2690 2696
131072 0.019486 0.062187 3714 3720
262144 0.040656 0.177968 5762 5768
計測に使用したコードを表示する

set -euo pipefail

WORKDIR="$(mktemp -d)"
trap 'rm -rf "$WORKDIR"' EXIT

cat > "$WORKDIR/Dockerfile" <<'EOF'
FROM rust:1.95.0

WORKDIR /app

RUN mkdir -p src

RUN cat > Cargo.toml <<'CARGO'
[package]
name = "rust-benchmark"
version = "0.1.0"
edition = "2021"

[profile.release]
lto = true
codegen-units = 1
panic = "abort"
CARGO

RUN cat > src/main.rs <<'RUST'
use std::{
    env,
    process::Command,
    time::{Duration, Instant},
};
const MIN_POWER: u32 = 8;
const MAX_POWER: u32 = 18;
const RUNS: usize = 8192;
fn compare_exchange(a: &mut [usize], i: usize, j: usize, dir_up: bool) {
    let swap = if dir_up {
        a[i] > a[j]
    } else {
        a[i] < a[j]
    };
    if swap {
        a.swap(i, j);
    }
}

fn bitonic_merge(a: &mut [usize], lo: usize, cnt: usize, dir_up: bool) {
    if cnt <= 1 {
        return;
    }
    let k = cnt / 2;
    for i in lo..lo + k {
        compare_exchange(a, i, i + k, dir_up);
    }
    bitonic_merge(a, lo, k, dir_up);
    bitonic_merge(a, lo + k, k, dir_up);
}

fn bitonic_sort_range(a: &mut [usize], lo: usize, cnt: usize, dir_up: bool) {
    if cnt <= 1 {
        return;
    }
    let k = cnt / 2;
    bitonic_sort_range(a, lo, k, true);
    bitonic_sort_range(a, lo + k, k, false);
    bitonic_merge(a, lo, cnt, dir_up);
}

fn bitonic_sort(a: &mut [usize]) {
    if a.is_empty() {
        return;
    }
    bitonic_sort_range(a, 0, a.len(), true);
}

fn benchmark_sort(array: &mut [usize]) {

    bitonic_sort(array);

}

fn shuffled(size: usize, seed: u64) -> Vec<usize> {
    let mut v: Vec<usize> = (1..=size).collect();

    let mut state = seed;

    for i in (1..size).rev() {
        state ^= state << 13;
        state ^= state >> 7;
        state ^= state << 17;

        let j = (state as usize) % (i + 1);

        v.swap(i, j);
    }

    v
}

fn memory_usage_kb() -> usize {
    let contents = std::fs::read_to_string("/proc/self/status")
        .unwrap_or_default();

    for line in contents.lines() {
        if let Some(rest) = line.strip_prefix("VmHWM:") {
            let kb = rest
                .split_whitespace()
                .next()
                .unwrap_or("0")
                .parse::<usize>()
                .unwrap_or(0);

            return kb;
        }
    }

    0
}

fn micros(d: Duration) -> u128 {
    d.as_micros()
}

fn run_once(size: usize, seed: usize) -> (u128, usize) {
    let expected: Vec<usize> = (1..=size).collect();
    let mut array = shuffled(size, seed as u64);

    let start = Instant::now();

    benchmark_sort(&mut array);

    let elapsed = start.elapsed();

    if array != expected {
        panic!(
            "sort failed with seed {} for size {}",
            seed,
            size
        );
    }

    (micros(elapsed), memory_usage_kb())
}

fn run_child(args: &[String]) {
    let size = args[2].parse::<usize>().expect("invalid size");
    let seed = args[3].parse::<usize>().expect("invalid seed");
    let (elapsed_us, mem) = run_once(size, seed);
    println!("{} {}", elapsed_us, mem);
}

fn main() {
    let args: Vec<String> = env::args().collect();
    if args.get(1).is_some_and(|arg| arg == "--run-once") {
        run_child(&args);
        return;
    }

    println!(
        "| {:>10} | {:>15} | {:>15} | {:>15} | {:>15} |",
        "Size",
        "Average time",
        "Maximum time",
        "Average memory",
        "Maximum memory"
    );

    println!(
        "|{:-<11}:|{:-<16}:|{:-<16}:|{:-<16}:|{:-<16}:|",
        "",
        "",
        "",
        "",
        ""
    );

    for power in MIN_POWER..=MAX_POWER {
        let size = 1usize << power;

        let mut total_time: u128 = 0;
        let mut max_time: u128 = 0;

        let mut total_mem: usize = 0;
        let mut max_mem: usize = 0;

        for seed in 1..=RUNS {
            let output = Command::new(env::current_exe().expect("failed to find current executable"))
                .arg("--run-once")
                .arg(size.to_string())
                .arg(seed.to_string())
                .output()
                .expect("failed to run benchmark child process");

            if !output.status.success() {
                panic!(
                    "benchmark child process failed: {}",
                    String::from_utf8_lossy(&output.stderr)
                );
            }

            let stdout = String::from_utf8(output.stdout)
                .expect("child process returned non-UTF-8 output");
            let mut fields = stdout.split_whitespace();
            let elapsed_us = fields
                .next()
                .expect("missing elapsed time")
                .parse::<u128>()
                .expect("invalid elapsed time");
            let mem = fields
                .next()
                .expect("missing memory usage")
                .parse::<usize>()
                .expect("invalid memory usage");

            total_time += elapsed_us;

            if elapsed_us > max_time {
                max_time = elapsed_us;
            }

            total_mem += mem;

            if mem > max_mem {
                max_mem = mem;
            }
        }

        let avg_time = total_time / RUNS as u128;
        let avg_mem = total_mem / RUNS;

        println!(
            "| {:>10} | {:>15} | {:>15} | {:>15} | {:>15} |",
            size,
            format!("{}.{:06}", avg_time / 1_000_000, avg_time % 1_000_000),
            format!("{}.{:06}", max_time / 1_000_000, max_time % 1_000_000),
            avg_mem,
            max_mem
        );
    }
}
RUST

RUN cargo build --release

CMD ["./target/release/rust-benchmark"]
EOF

docker build -t rust-benchmark "$WORKDIR"
docker run --rm --init rust-benchmark