2026年4月9日 星期四

🚀 LeetCode 3653 解題解析:從暴力解到「根號分治 × 乘法差分陣列」

題目連結:3653. XOR After Range Multiplication Queries I

這道題目要求我們對一個陣列進行多次查詢:每次以固定的步伐 k,將區間 [l, r] 內(每隔 k 步)的元素乘上某個數字 v,最後求整個陣列的 XOR 總和。

如果測資很小,雙層 for 迴圈就能輕鬆解決;但如果陣列長度 N 和查詢次數 Q 都高達十萬呢?這時就需要拿出更高階的武器了!

🛑 第一步:為什麼原本的方法會慢?(痛點分析)

讓我們先回顧一下原本直覺的寫法:

for l, r, k, v in queries:
    for i in range(l, r + 1, k):
        nums[i] = (nums[i] * v) % MOD
想像一下最壞的情況:
假設陣列長度 N = 100,000,然後有一萬筆查詢,每一筆的步伐 k = 1(也就是每次都要修改整個陣列)。
這時,內層迴圈每次都要跑十萬次,總共要跑 10,000 × 100,000 = 1,000,000,000(十億)次!程式絕對會跑到超時 (Time Limit Exceeded)。

💡 發現問題點: 當步伐 k 很小的時候,我們會浪費大量的時間在迴圈上。

具象化分流:20 筆查詢的奇妙旅程 總共 20 筆混合查詢 k ≤ B (小步伐) k > B (大步伐) 10 筆大步伐 直接暴力 for 迴圈 (跳躍次數極少,瞬間完成) 10 筆小步伐 k = 2 k = 3 其他 5 筆查詢 差分陣列 A (共用同一陣列記號) O(N) 展開 1 次 3 筆查詢 差分陣列 B (共用同一陣列記號) O(N) 展開 1 次 2 筆查詢 個別差分陣列 (各自分配) 各自展開 1 次 🔥 10 筆查詢,總共只需展開不到 4 次!

⚔️ 第二步:降維打擊武器一 ——「根號分治」(分塊)

既然 k 很小的時候會出問題,那我們就根據 k 的大小來「分工合作」吧!這就是根號分治 (Square Root Decomposition) 的核心思想。

我們設定一個界線,通常是陣列長度的平方根,也就是 B = √N(當 N=100,000 時,B ≈ 316)。我們把查詢分成兩派:

  • 🏃‍♂️ 大步伐派 (k > B): 因為步伐很大(每次至少跳 316 格),就算跑完整個陣列,最多也只會跳 316 次。次數非常少!對於這類查詢,我們直接使用原本的 for 迴圈暴力更新,速度其實非常快。
  • 🚶‍♂️ 小步伐派 (k ≤ B): 步伐很小,每次查詢都要跳好幾萬次。對於這類查詢,我們絕對不能用迴圈慢慢跳,我們需要引入下一個武器來「批次處理」。
步長 k 閾值 B = √N 小步伐派 (k ≤ B) 使用「乘法差分」批次處理 大步伐派 (k > B) 暴力 for 迴圈 (最多跳 √N 次)

🛡️ 第三步:降維打擊武器二 ——「乘法差分陣列」

對於小步伐的查詢,我們怎麼批次處理呢?答案是 差分陣列 (Difference Array)

想像一個情境:你要在 [l, r] 區間內的所有數字都乘上 v

  • 傳統做法: 一個一個乘。
  • 差分做法: 我只在起點 l 做個記號「從這裡開始乘上 v」,然後在終點的下一格 r + 1 做個記號「從這裡開始取消乘上 v 的影響」。最後,我只要從頭走到尾掃描一次,就能把這些記號擴散到整個陣列!
步長 k = 2 的差分陣列操作 (區間 l 到 r 乘上 v) l diff[l] × v l+1 l+2 l+3 l+4 (r) l+5 l+6 diff[next] × v⁻¹ 前綴積擴散:每隔 k 步傳遞一次乘數 當到達 l+6 時,乘上 v⁻¹ (模逆元) 剛好抵銷 v 的效果
⚠️ 致命的數學陷阱:如何取消乘法?
在普通的數學裡,要取消「乘以 v」,我們只要「除以 v」就好。
但是!我們的題目要求對 10**9 + 7 取餘數 (% MOD)。在有取餘數的世界裡,除法是會壞掉的!

這時,我們就要請出 Python 的內建魔法:模逆元 (Modular Multiplicative Inverse)
簡單來說,模逆元就是一個神奇的數字,當你乘上這個數字時,效果就等同於「除以 v」。

在 Python 3.8 以後,計算模逆元只需要一行程式碼:
inv_v = pow(v, -1, MOD)  # 取得 v 的模逆元,完美代替除法!

💡 為什麼需要「差分陣列」?(用最簡單的話說)

先忘記乘法,想一下加法。如果我要把陣列中 [1] 到 [5] 的位置都 +10
笨方法是:a[1]+=10, a[2]+=10, a[3]+=10, a[4]+=10, a[5]+=10
聰明方法(差分)是:我只在起點做記號 diff[1] += 10,然後在終點的下一格做記號 diff[6] -= 10
最後我只要「從左到右,把前一格的數字加到自己身上(前綴和)」,魔法就會發生:

  • i=1: 拿到 +10
  • i=2: 繼承前一格的 +10
  • ... 一路繼承 ...
  • i=6: 繼承了 +10,但是遇到自己這格的 -10,互相抵銷變成 0!從這裡開始又恢復原狀。

🔄 從「加法」變成「乘法」

這題只是把加法變乘法:

  • 加法的起點是 +v,乘法的起點就是 *v
  • 加法的終點抵銷是 -v,乘法的終點抵銷就是 /v(也就是乘上模逆元 v⁻¹

🦘 加入「步伐 k」的跳躍魔法

這題更進階的地方在於,我們不是連續修改,而是每隔 k 步修改一次

假設操作是:從 l=1 開始,到 r=5 結束,步伐 k=2,乘上 v=10
實際要修改的位置是:1, 3, 5

第一步:做記號

  • 起點:diff[1] *= 10
  • 終點外:我們實際上跳了 3 次(1, 3, 5),下一次會跳到哪?1 + 3 * 2 = 7。所以在越界的第一個位置做抵銷記號:diff[7] *= 10⁻¹

第二步:跳躍式前綴積展開

以前是「加上前一格」,現在因為步伐是 k=2,我們改成「乘上自己往前退 k 格的數字」。我們來跑一次看看:

一開始的 diff: [1, 10, 1, 1,  1,  1,  1, 10⁻¹]
(index)         0   1  2  3   4   5   6   7

從左到右,每個數字乘上「往前 2 格」的數字:
i=0: 1
i=1: 10
i=2: 1 * (往前2格的 diff[0]=1) = 1
i=3: 1 * (往前2格的 diff[1]=10) = 10  ✅ 成功傳遞給 3 了!
i=4: 1 * (往前2格的 diff[2]=1) = 1
i=5: 1 * (往前2格的 diff[3]=10) = 10  ✅ 成功傳遞給 5 了!
i=6: 1 * (往前2格的 diff[4]=1) = 1
i=7: 10⁻¹ * (往前2格的 diff[5]=10) = 1 ✅ 10 和 10⁻¹ 抵銷,變回 1,停止傳遞!
    

最後展開的 diff 就變成了:[1, 10, 1, 10, 1, 10, 1, 1]
只有 1, 3, 5 這三個位置變成了 10!然後我們再把這個展開後的 diff 乘回原本的 nums 陣列,就大功告成了!

⚡ 核心加速關鍵:為什麼要「依照步數 k」分組 (Grouping)?

差分陣列本身只是工具,「把相同步伐 k 的查詢合併處理」才是真正的加速引擎。

讓我們來算一筆帳,假設有 10,000 筆查詢,其中有 5,000 筆的步伐都是 k=2

❌ 做法一:不分組(每來一筆查詢就做一次差分展開)

  • 拿一筆 k=2 的查詢,在 diff 陣列做頭尾記號 (2次操作)。
  • 掃描一次陣列進行「前綴積展開」,把記號擴散出去 (N 次操作,約 100,000 次)。
  • 把這 5,000 筆 k=2 的查詢都這樣做...
  • 總運算量: 5,000 × 100,000 = 500,000,000(五億次,還是會超時!)

✅ 做法二:依照步伐分組(批次處理)

  • 我們先不急著展開。把這 5,000 筆 k=2 的查詢,全部先在同一個 diff 陣列上「做記號」
  • 做記號非常快,每筆查詢只要修改頭尾兩個數字。5,000 筆查詢做完記號,只需要 10,000 次操作。
  • 等這 5,000 筆的記號都做完了,我們只做「一次」前綴積展開 (100,000 次操作)。
  • 在這次展開中,5,000 個區間的病毒與解藥會「同時」互相疊加、傳染、抵銷。
  • 總運算量: 10,000 (做記號) + 100,000 (一次展開) = 110,000(十一萬次,整整快了近 5000 倍!)

這就是為什麼要配合「根號分治」:
因為我們規定小步伐派的 k ≤ B (約 316)。這代表我們最多只需要展開 316 次!
無論有幾萬筆小步伐查詢,它們都會被分類到這 316 個桶子裡。每個桶子(每種 k)只要花 O(N) 的時間展開一次。
因此,處理所有小步伐查詢的總時間被嚴格限制在 316 × 100,000 ≈ 3千萬次 以內,這在 1 秒的時限內綽綽有餘!

🚧 為什麼不同的步數 (k) 不能共用同一個差分陣列?

這是一個非常敏銳的問題!答案藏在「展開(前綴積)的公式」裡。

讓我們回顧一下展開差分陣列的那行程式碼:

diff[i] = diff[i] * diff[i - k]

致命衝突:記號本身是「沒有記憶」的

假設我們硬把 k=2k=3 的查詢,都做記號在同一個 diff 陣列裡:

  • 查詢A (k=2):在 diff[1] 標記了 *10
  • 查詢B (k=3):在 diff[2] 標記了 *99

現在陣列長這樣:diff = [1, 10, 99, 1, 1, 1...]

問題來了!當我們要掃描陣列把記號擴散出去時,我們該用哪種步伐 k 呢?

  • 如果用 k=2 展開diff[1] 的 10 會正確傳給 diff[3]。但是!diff[2] 上的 99(本來是 k=3 專用的),也會被當成 k=2,錯誤地傳給 diff[4]
  • 如果用 k=3 展開diff[2] 的 99 會正確傳給 diff[5]。但是 diff[1] 上的 10 會被錯誤地傳給 diff[4]

白話文比喻:

這就像是車站裡有「每 2 站停一次的區間車」和「每 3 站停一次的快車」。
你在第 1 站放了一個包裹 (記號)。如果沒有分開月台(不同的 diff 陣列),當列車進站時,包裹根本不知道自己該上哪一班車!它只是一個數字,無法告訴展開的迴圈:「嘿!我是屬於 k=2 的,請每隔 2 格複製我一次。」

結論:

因為擴散的步伐(傳染的方向)是由展開時的 k 決定的,所以:
👉 同一個 diff 陣列在展開時,只能服務一種 k
這就是為什麼我們要在外層寫一個 for k in range(1, B + 1):,每次輪到一個新的 k,我們就把 diff 陣列清空重置,讓它專心只處理這批步伐為 k 的包裹!

🧩 第四步:將所有拼圖組合起來 (完整程式碼解析)

現在我們擁有了所有武器,來看看完整的高階寫法是如何運作的:

import math
from typing import List

class Solution:
    def xorAfterQueries(self, nums: List[int], queries: List[List[int]]) -> int:
        MOD = 10**9 + 7
        n = len(nums)
        
        # 【策略一:根號分治】計算閾值 B
        B = max(1, math.isqrt(n))
        
        # 準備空陣列,用來依照步長 k 分組存放小步伐查詢
        grouped_queries = [[] for _ in range(B + 1)]
        
        # 分流查詢
        for l, r, k, v in queries:
            if v == 1: continue  # 小優化:乘數為 1 不改變數字
            
            if k <= B:
                # 步伐小,存起來等一下批次處理
                grouped_queries[k].append((l, r, v))
            else:
                # 步伐大,直接暴力更新 (次數保證小於 B)
                for i in range(l, r + 1, k):
                    nums[i] = (nums[i] * v) % MOD
        
        # 【策略二:乘法差分】處理小步伐查詢
        diff = [1] * n
        for k in range(1, B + 1):
            if not grouped_queries[k]: continue
            
            # 每次換新的步長 k,重置差分陣列
            for i in range(n): diff[i] = 1
            
            for l, r, v in grouped_queries[k]:
                # 1. 區間起點:標記乘上 v
                diff[l] = (diff[l] * v) % MOD
                
                # 2. 區間終點外:計算越界的第一個位置
                num_steps = (r - l) // k
                next_idx = l + (num_steps + 1) * k
                
                if next_idx < n:
                    # 標記乘上 v 的反元素 (相當於除以 v,用來抵銷)
                    inv_v = pow(v, -1, MOD)
                    diff[next_idx] = (diff[next_idx] * inv_v) % MOD
            
            # 3. 前綴積展開:將記號擴散回原陣列
            for i in range(n):
                if i >= k:
                    diff[i] = (diff[i] * diff[i - k]) % MOD
                if diff[i] != 1:
                    nums[i] = (nums[i] * diff[i]) % MOD
                    
        # 【最終收尾】:計算 XOR 總和
        result = 0
        for num in nums:
            result ^= num
            
        return result

🚀 進階優化:極致的效能突破 (殘差類掃描)

如果把上述的「標準版根號分治」提交,已經能順利通過。但你會發現有些解法跑得快上數倍,這是因為標準寫法中仍有許多可以壓榨效能的空間。以下是四個極致優化的關鍵:

1. 只處理「真正出現」的步伐 k

標準版中,for k in range(1, B + 1) 會跑滿所有可能的 k 值(例如 316 次),即使某些 k 根本沒有出現在查詢中。進階版改用字典 (Dictionary),只迭代有實際查詢的 k

2. 捨棄 O(N) 的全域陣列重置

標準版每換一個 k,就要花 O(N) 把整個 diff 陣列清為 1。進階版不再使用全域 diff,而是只把「事件 (起點與終點)」存起來,省去了巨大的重置開銷。

3. 殘差類 (Residue Class) 獨立掃描

這是最核心的架構改變。我們把查詢按照起點 l % k 分組(稱為殘差類)。例如 k=2 時,分成了「奇數索引組」和「偶數索引組」。

  • 每個殘差類內的事件各自排序。
  • 掃描時,用雙指標 (Two Pointers) 順著步長 k 往前跳,中途遇到事件就即時套用乘數。
  • 好處:如果某個殘差類完全沒有查詢,就可以直接跳過,連掃描都不用掃!

4. 延遲寫回 nums (Lazy Update)

標準版每處理完一種 k,就去更新一次 nums 陣列。進階版準備了一個 factors 陣列來累積所有小步伐的乘積,最後才統一更新到 nums 陣列,將記憶體寫入次數降到最低。

以下是融合了上述所有優化技巧的「極速版」程式碼:


from typing import List
import math
from collections import defaultdict

class Solution:
    def xorAfterQueries(self, nums: List[int], queries: List[List[int]]) -> int:
        MOD = 10**9 + 7
        n = len(nums)
        if n == 0: return 0
        
        # 【策略一:根號分治】
        B = int(math.sqrt(n)) + 1
        
        # 只記錄有出現的小步伐查詢
        small = defaultdict(list)
        
        # 處理大步伐 (直接暴力做)
        for l, r, k, v in queries:
            if k >= B:
                idx = l
                while idx <= r:
                    nums[idx] = (nums[idx] * v) % MOD
                    idx += k
            else:
                small[k].append((l, r, v))
                
        # factors 用來累積所有小步伐造成的最終乘數
        factors = [1] * n
        
        # 【策略二:殘差類掃描 (Residue Class Sweep)】
        for k, qlist in small.items():
            # 依照 l % k 分組記錄事件
            events = [[] for _ in range(k)]
            
            for l, r, v in qlist:
                res = l % k
                step = (r - l) // k
                last = l + step * k
                
                # 放入事件:(起點, 乘上 v)
                events[res].append((l, v))
                
                # 放入事件:(終點外, 乘上 v 的模逆元抵銷)
                end_idx = last + k
                if end_idx < n:
                    inv_v = pow(v, MOD - 2, MOD) # 費馬小定理求模逆元
                    events[res].append((end_idx, inv_v))
                    
            # 針對每個殘差類獨立掃描
            for res in range(k):
                ev = events[res]
                if not ev: continue
                
                ev.sort() # 依照 index 排序事件
                cur_multiplier = 1
                ptr = 0
                m = len(ev)
                
                # 順著步伐 k 跳躍掃描
                i = res
                while i < n:
                    # 如果走到事件觸發點,更新目前的乘數
                    while ptr < m and ev[ptr][0] == i:
                        cur_multiplier = (cur_multiplier * ev[ptr][1]) % MOD
                        ptr += 1
                        
                    factors[i] = (factors[i] * cur_multiplier) % MOD
                    i += k
                    
        # 【最終收尾】統一將累積的乘數寫回 nums,並計算 XOR
        ans = 0
        for i in range(n):
            nums[i] = (nums[i] * factors[i]) % MOD
            ans ^= nums[i]
            
        return ans

🌟 同場加映:極速版 C++ 實作

競技程式設計界最受歡迎的 C++ 實作版本。邏輯與上述 Python 極速版完全相同,加上了快速冪 (Binary Exponentiation) 來手動實作模逆元,在 LeetCode 上能達到極低的執行時間與記憶體消耗。

#include <vector>
#include <cmath>
#include <unordered_map>
#include <algorithm>

using namespace std;

class Solution {
public:
    int xorAfterQueries(vector<int>& nums, vector<vector<int>>& queries) {
        long long MOD = 1e9 + 7;
        int n = nums.size();
        if (n == 0) return 0;
        
        // 【策略一:根號分治】
        int B = sqrt(n) + 1;
        
        // 紀錄小步伐查詢
        unordered_map<int, vector<vector<int>>> small;
        
        // 處理大步伐
        for (const auto& q : queries) {
            int l = q[0], r = q[1], k = q[2], v = q[3];
            if (v == 1) continue; // 小優化:乘數為 1 不改變數字
            
            if (k >= B) {
                int idx = l;
                while (idx <= r) {
                    nums[idx] = (1LL * nums[idx] * v) % MOD;
                    idx += k;
                }
            } else {
                small[k].push_back({l, r, v});
            }
        }
        
        // factors 用來累積所有小步伐的乘數
        vector<long long> factors(n, 1);
        
        // 快速冪 (用於費馬小定理求模逆元)
        auto power = [&](long long base, long long exp) {
            long long res = 1;
            base %= MOD;
            while (exp > 0) {
                if (exp % 2 == 1) res = (res * base) % MOD;
                base = (base * base) % MOD;
                exp /= 2;
            }
            return res;
        };
        
        // 【策略二:殘差類掃描】
        for (const auto& [k, qlist] : small) {
            // events[res] 存放 (index, factor) 對
            vector<vector<pair<int, long long>>> events(k);
            
            for (const auto& q : qlist) {
                int l = q[0], r = q[1];
                long long v = q[2];
                
                int res = l % k;
                int step = (r - l) / k;
                int last = l + step * k;
                
                events[res].push_back({l, v});
                
                int end_idx = last + k;
                if (end_idx < n) {
                    long long inv_v = power(v, MOD - 2);
                    events[res].push_back({end_idx, inv_v});
                }
            }
            
            // 獨立掃描每個殘差類
            for (int res = 0; res < k; ++res) {
                auto& ev = events[res];
                if (ev.empty()) continue;
                
                sort(ev.begin(), ev.end());
                
                long long cur_multiplier = 1;
                int ptr = 0;
                int m = ev.size();
                
                // 順著步伐 k 往前跳
                for (int i = res; i < n; i += k) {
                    while (ptr < m && ev[ptr].first == i) {
                        cur_multiplier = (cur_multiplier * ev[ptr].second) % MOD;
                        ptr++;
                    }
                    factors[i] = (factors[i] * cur_multiplier) % MOD;
                }
            }
        }
        
        // 統一寫回 nums 並計算 XOR
        int ans = 0;
        for (int i = 0; i < n; ++i) {
            nums[i] = (1LL * nums[i] * factors[i]) % MOD;
            ans ^= nums[i];
        }
        
        return ans;
    }
};

🌍 走出競技場:這些技巧在工業界的真實身影

這道題目中用到的技巧,剝開數學的外衣後,其實就是工業界底層系統架構的核心哲學。我們來看看它們在真實世界中的對應:

1. 📷 影像處理 (Computer Vision)

  • 積分圖 (Integral Image) = 二維前綴和/差分:
    在早期非常著名的 Viola-Jones 人臉偵測演算法 中,需要瘋狂計算圖片中任意矩形區域的像素總和。如果每次都用雙層迴圈加總,相機根本無法做到即時偵測。解法就是建構一張「積分圖」(二維前綴和)。建好之後,不管矩形多大,只要查表 4 個頂點的座標做加減,O(1) 就能得到總和!這就是差分陣列的二維直系血親。
  • Bayer 濾色陣列與步伐 k:
    相機感光元件 (CMOS) 上的像素排列通常是 RGGB(Bayer pattern)。如果你要對所有的綠色 (G) 像素做白平衡補償,你就必須在記憶體中進行「跨步 (Strided)」的陣列修改。這就是我們題目中 k=2 步伐操作的物理硬體展現。

2. 🧠 AI 與深度學習 (Deep Learning)

  • FlashAttention = 分塊處理 (Tiling / Block Decomposition):
    最近幾年大語言模型 (LLM) 最重要的突破之一就是 FlashAttention。當輸入文本很長時,Attention 矩陣會大到 GPU 記憶體塞不下。FlashAttention 的做法就是「分塊 (Tiling)」:把大矩陣切成一塊塊能塞進 GPU 超高速 SRAM 的小區塊,算完再合併。這與「根號分治 (把 N 切成 √N 的區塊)」在精神上完全一致:根據硬體的極限(閾值 B)來決定任務的切分方式。
  • 空洞卷積 (Dilated Convolution) = 跳躍 k 步的修改:
    在影像語意分割 (如 DeepLab) 中,為了在不增加計算量的情況下擴大 AI 的「視野 (Receptive Field)」,卷積核會「跳著」掃描像素(例如每隔 2 格、4 格取樣)。這與我們題目的跳躍步伐 k 概念如出一轍。
  • 線性 RNN (如 Mamba, RWKV) = 前綴積的極致:
    為了取代 Transformer 龐大的注意力機制,最新的架構利用「前綴和 / 前綴積 (Cumulative Sum/Prod)」的概念,把歷史的對話記憶壓縮成一個狀態向量(只跟前一時刻有關),這正是我們在差分陣列最後一步 diff[i] = diff[i] * diff[i-k] 所做的事情!

3. 🐧 Linux Kernel 與底層系統

  • 差分陣列的靈魂 = 延遲計算 (Lazy Evaluation) & 批次寫入:
    差分陣列的本質是「先記帳,最後再一次結帳」。這在 Linux 裡無處不在:
    • Page Cache (Dirty Pages): 寫入檔案時不會立刻動到硬碟,而是在記憶體標記 Dirty(像差分做記號),等到作業系統覺得夠多了,再一次 Flush 到磁碟(像前綴和展開)。
    • CFS (完全公平排程器): 在計算 CPU 任務的虛擬運行時間 (vruntime) 時,Kernel 也是累積時間的 Delta (差值),而不是每個 CPU 時脈週期都去更新所有 Process 的樹狀結構。
  • 大小任務分流 (Heavy/Light Routing):
    我們在演算法中把查詢分成「大步伐」和「小步伐」。在網路封包處理(如 Linux NAPI)或中斷處理 (Interrupt Handling) 中,如果封包量少(小任務),就觸發中斷;如果封包量如海嘯般湧來(大任務),網卡驅動會關閉中斷,改用「輪詢 (Polling)」把封包整批掃進來。這就是真實世界的根號分治:根據流量的閥值,切換兩種完全不同的處理策略!

總結:
你在這題看到的「差分陣列」,在系統工程裡叫做 Delta Tracking (差分追蹤) 或 Lazy Evaluation (延遲計算)
你看到的「根號分治」,在系統工程裡叫做 Tiling (快取分塊) 或 Heavy/Light Routing (冷熱路徑分流)
演算法題目,其實就是把這些複雜的系統瓶頸,抽象成了純粹的數學遊戲!

🎉 總結

透過「根號分治」,我們巧妙地避開了 k 極大或極小的極端情況;再透過「乘法差分」與 Python 的 pow(v, -1, MOD),我們把複雜的多次區間操作,壓縮成了輕鬆的頭尾標記。這就是演算法之美!

喜歡這篇解析的話,也歡迎到 LeetCode 3653 實際挑戰看看!

🚀 深入淺出模逆元:費馬小定理與快速冪的完美結合

在解決涉及「巨大數字」與「取餘數 (Modulo)」的演算法題目時,我們經常會遇到一個棘手的問題:加、減、乘法都可以直接在取餘數的狀態下進行,唯獨「除法」不行。

為了解決除法失效的問題,數學家們引入了「模逆元 (Modular Multiplicative Inverse)」的概念,而最優雅的實作方式,莫過於結合「費馬小定理」與「快速冪」。這篇文章將帶您一步步拆解其中的奧秘。

🛑 第一步:為什麼取餘數的世界裡,除法會壞掉?

讓我們先來看一個簡單的例子:我們想要計算 (12 / 4) % 7

  • 在正常的數學裡:12 / 4 = 3,然後 3 % 7 = 3。答案是 3。

現在,如果我們在計算過程中,數字已經因為太大而被取過餘數了呢?

  • 12 % 7 = 5
  • 如果我們拿取完餘數的數字直接去除:5 / 4 = 1.25
  • 1.25 是小數!在取餘數的整數運算世界裡,這完全失去了意義。
正常除法:12 / 4 = 3 3 % 7 = 3 (正確) 先取餘數再除 (12 % 7) / 4 5 / 4 = 1.25 (崩潰!)

🔄 第二步:模逆元的救贖 (Modular Multiplicative Inverse)

既然不能「除以 4」,那我們能不能改成「乘以某個數字」?

在普通的數學裡,除以 4 等同於乘以 0.25(因為 4 × 0.25 = 1,它們互為倒數)。
在模 7 的世界裡,我們也在尋找一個數字 X,使得 (4 × X) % 7 = 1。這個 X 就是 4 在模 7 底下的模逆元

讓我們暴力找找看 X 是多少:

  • 4 × 1 = 4 ≡ 4 (mod 7)
  • 4 × 2 = 8 ≡ 1 (mod 7) 🎯 找到了!

所以,在模 7 的世界裡,「除以 4」就等同於「乘以 2」

我們回頭驗證一開始的算式:
先取餘數:12 % 7 = 5
把除以 4 改成乘以 2:5 × 2 = 10
再取餘數:10 % 7 = 3答案完美吻合!

📜 第三步:費馬小定理 (Fermat's Little Theorem)

雖然我們可以用迴圈暴力找出模逆元,但當模數 P = 10^9 + 7(十億等級的質數)時,暴力尋找會非常慢。這時候,偉大的費馬小定理就派上用場了。

💡 費馬小定理:
如果 P 是一個質數,且 A 不是 P 的倍數,那麼:
AP-1 ≡ 1 (mod P)

我們把這個等式稍微拆解一下,把其中一個 A 獨立出來:

A × AP-2 ≡ 1 (mod P)

看出來了嗎?根據模逆元的定義(A × X ≡ 1),這個 AP-2 完美符合 X 的位置!

結論:在模 P 的世界裡,數字 A 的模逆元就是 AP-2 (mod P)。

⚡ 第四步:快速冪 (Binary Exponentiation) —— O(log N) 的超光速引擎

雖然我們得出模逆元是 AP-2,但當 P = 10^9 + 7 時,我們要計算 A1000000005。如果傻傻地用 for 迴圈乘十億次,肯定會超時 (TLE)。

為了解決這個問題,我們使用快速冪 (Binary Exponentiation) 技巧。它的核心概念是「倍增」。

以計算 A¹¹ 為例 (11 的二進位是 1011) A¹¹ = A⁸ × A² × A¹ A⁴ (跳過不乘) A⁸ 平方 平方 平方 A¹¹ (Result) 只需要執行 log₂(N) 次「平方」操作,十億次運算瞬間縮減為 30 次!

💻 第五步:程式碼實作

有了費馬小定理與快速冪的觀念,求模逆元的實作就非常簡單了。在 Python 中甚至有內建的高效寫法;而在 C/C++ 中,我們通常會自己實作一個 power 函數。

Python 實作

Python 從 3.8 版本開始,內建的 pow 函數直接支援了求模逆元,只要將指數設為 -1 即可(底層自動採用快速冪與擴展歐幾里得演算法):

MOD = 10**9 + 7
v = 4

# Python 內建魔法,直接求 4 在模 10^9+7 下的模逆元
inv_v = pow(v, -1, MOD)

# 或是手動利用費馬小定理:v^(MOD-2) % MOD
inv_v_fermat = pow(v, MOD - 2, MOD)

print(inv_v) # 輸出:250000002

C++ 實作

在 C++ 中,我們需要手動實作快速冪函數(Binary Exponentiation):

#include <iostream>

long long MOD = 1e9 + 7;

// 快速冪實作:計算 (base^exp) % MOD
long long power(long long base, long long exp) {
    long long res = 1;
    base %= MOD;
    while (exp > 0) {
        // 如果當前二進位最低位是 1,則乘上當前的 base
        if (exp % 2 == 1) {
            res = (res * base) % MOD;
        }
        // base 自我平方 (A^1 -> A^2 -> A^4 -> A^8 ...)
        base = (base * base) % MOD;
        // 將 exp 右移一位 (等同於 exp /= 2)
        exp /= 2;
    }
    return res;
}

// 求模逆元
long long modInverse(long long n) {
    // 根據費馬小定理,逆元為 n^(MOD-2)
    return power(n, MOD - 2);
}

int main() {
    long long v = 4;
    std::cout << "4 的模逆元是: " << modInverse(v) << std::endl;
    // 驗證: (4 * 250000002) % 1000000007 == 1
    return 0;
}

🎉 總結

在涉及大數取餘數的運算中,模逆元是我們繞過「除法禁區」的唯一橋樑。而費馬小定理快速冪的結合,不僅在數學上極具美感,更是將工業界效能極限(將十億次迴圈化為 30 次運算)展現得淋漓盡致!

ChromeOS Flex 內建 WireGuard VPN 連線 Tailscale 指南

這算是個 workaround 等到哪天 ChromeOS Flex 可以支援使用 Tailscale 就不需要了,筆記在 https://hackmd.io/@fourdollars/UsingTailscaleOnChromeOSFlex

2026年3月14日 星期六

從 LeetCode 到 Linux Kernel 的工程智慧:解構「快樂字串」

在程式設計的領域中,有些題目表面上是排列組合的益智遊戲,但深挖其背後的邏輯,你會發現它觸及了計算機科學最核心的課題:如何在有限限制下,進行極致的資源調度與導航。

今天我們要聊的是 LeetCode 的「快樂字串」(Happy String)問題。

什麼是快樂字串?

一個長度為 n 的字串被稱為「快樂字串」,需滿足:

  1. 僅由 {'a', 'b', 'c'} 組成。

  2. 無連續重複:相鄰的字元不能相同(例如 "aba" 是快樂的,但 "aa" 不是)。

任務是:在所有按字典序排列的快樂字串中,找出第 k 個。

階段一:直覺的探索 —— 回溯法 (Backtracking)

最直覺的方法是透過深度優先搜尋(DFS)來模擬人類構思字串的過程。

程式碼實作

class Solution {
    bool solve(string& ans, int n, int& k) {
        if (ans.size() == n) {
            return --k == 0; // 找到第 k 個組合時停止
        }
        for (char c : {'a', 'b', 'c'}) {
            if (!ans.empty() && c == ans.back()) continue; // 核心約束
            
            ans.push_back(c);
            if (solve(ans, n, k)) return true; // 提早回傳
            ans.pop_back(); // 回溯
        }
        return false;
    }
public:
    string getHappyString(int n, int k) {
        string ans = "";
        return solve(ans, n, k) ? ans : "";
    }
};

工程思考

這種方法就像是在迷宮中探路。雖然直觀,但當 n 變大時,搜尋空間會呈指數級成長。在系統底層開發中,過深的遞迴會導致 Stack Overflow,這在核心(Kernel)環境中是絕對要避免的。

階段二:極致的跳轉 —— 數學定位法 (Mathematical Positioning)

如果我們能不透過「走迷宮」,而是直接「空降」到第 k 個字串呢?

觀察規律發現:第一個字元決定後,後續每個位置都只有 2 種選擇。這意味著這是一個變相的 二進位導航系統

最佳化程式碼

class Solution {
public:
    string getHappyString(int n, int k) {
        int m = 1 << (n - 1); // 每個分支的組合數 (2^(n-1))
        if (3 * m < k) return ""; // 總數檢查

        string ans = "";
        k--; // 轉為 0-indexed 處理區間
        
        // 1. 確定首位字元
        ans.push_back('a' + k / m);
        k %= m;

        // 2. 數學跳轉確定後續字元
        for (int i = 1; i < n; ++i) {
            m >>= 1; // 剩餘組合數減半
            char next = 'a' + (k / m);
            if (next >= ans.back()) next++; // 巧妙排除重複,維持字典序
            
            ans.push_back(next);
            k %= m;
        }
        return ans;
    }
};

深入核心:Linux Kernel 中的精準對應

我們在上述數學解法中使用了兩個核心技巧:「基於 2 的冪次方的空間劃分」「前置狀態的數學補償」。在 Linux 核心中,這兩個技巧有著極其精準的對應實例。

實例 A:二進位空間劃分 —— 夥伴系統 (Buddy System)

在快樂字串中,我們利用 m = 1 << (n - 1) 來確定區間,並用除法與餘數直接定位分支。 在 Linux 的記憶體管理核心 mm/page_alloc.c 中,著名的**夥伴系統(Buddy Allocator)**使用了完全一樣的數學邏輯來分配實體記憶體。

當系統釋放一個大小為 2^order 的記憶體區塊時,它必須找到相鄰的「夥伴(Buddy)」來合併。核心絕對不會去遍歷記憶體,而是直接透過位元運算算出夥伴的精確位置:

/* Linux Kernel: mm/page_alloc.c 核心邏輯簡化 */
static inline unsigned long
__find_buddy_pfn(unsigned long page_pfn, unsigned int order)
{
    // 利用 XOR 和 1 << order 直接算出相鄰區塊的位置
    // 就像我們用 k / (1 << (n-1)) 定位分支一樣,純數學、零迴圈!
    return page_pfn ^ (1 << order);
}

精準對應:這與我們處理快樂字串時,依賴 $2$ 的冪次方(二進位樹狀結構)來進行 $O(1)$ 的空間跳轉與定位,在數學本質上完全一致。

實例 B:相鄰約束的 $O(1)$ 跳轉 —— 格雷碼 (Gray Code)

快樂字串的最核心限制是:相鄰元素不能重複。我們用了一行神來之筆 if (next >= ans.back()) next++,在 $O(1)$ 時間內算出第 $k$ 個符合約束的狀態。

在 Linux 驅動程式(特別是旋轉編碼器 drivers/input/misc/rotary_encoder.c 等硬體)中,也有一個嚴格的相鄰約束:相鄰的狀態只能有 1 個位元不同(避免硬體雜訊)。這稱為格雷碼(Gray Code)

工程師如何找出第 $k$ 個符合約束的格雷碼?他們不會從 0 開始生成並檢查相鄰狀態,而是直接套用數學偏移公式:

/* Linux Kernel 中常見的格雷碼轉換邏輯 */
unsigned int binary_to_gray(unsigned int k)
{
    // 透過自己與自己右移一位的值做 XOR,直接計算出第 k 個合法狀態
    // 完美滿足「相鄰狀態約束」,且是 O(1) 的純數學計算
    return k ^ (k >> 1);
}

精準對應:快樂字串的約束是「相鄰字元不同」,格雷碼的約束是「相鄰位元僅一處不同」。兩者都放棄了狀態機遍歷(Backtracking),轉而發掘出**「將序號 $k$ 透過偏移/補償,直接對射到合法狀態空間」**的終極數學公式。

跨領域的共鳴:AI、遊戲生成與空間定位

這種「拒絕盲目搜尋,改用數學約束或狀態機直接算出解」的思想,不僅限於底層作業系統。在當今最前沿的領域中,它更是解決效能瓶頸的核心技術。

1. 大型語言模型 (LLM) 的受限解碼 (Constrained Decoding)

在 LLM 的推論過程中,生成文字的本質就是在「巨大的字彙庫中尋找下一個合法的 Token」。這與我們找快樂字串的字元非常相似。 當我們要求 LLM 嚴格輸出特定格式(如 JSON)時,現代推論引擎(如 vLLM, Guidance)會使用有限狀態機 (FSM)。在生成每個 Token 前,系統會先「計算」出目前狀態下哪些字元是合法的(就像我們排除 ans.back()),並將不合法 Token 的機率強制歸零。這保證了模型一步到位生成完美格式,徹底避免了昂貴的回溯與重寫。

2. 電腦圖學與遊戲開發 (Procedural Generation)

在《Minecraft》這類擁有無限大世界的遊戲中,系統不可能把整個地圖存下來,也不可能在玩家移動時慢慢「搜尋」該生成什麼地形。開發者使用了 Perlin Noise 等純數學函數:只要給定一個座標 $(x, y)$(就像是我們題目中的 $k$),系統就能透過位元運算與雜湊,在 $O(1)$ 時間內直接「算出」這格的地形,且完美滿足相鄰區塊平滑過渡的約束條件。

3. 空間資料庫與希爾伯特曲線 (Hilbert Curve)

Google Maps 或外送平台需要在資料庫中快速找到目標。但地圖是 2D 的,而資料庫索引是 1D 的。科學家發明了空間填充曲線:給定一個 1D 序號 $k$,可以透過一系列精妙的位元運算,直接算出它在地圖上的 $(x, y)$ 座標,完全不需遍歷地圖。這與我們算出「第 $k$ 個快樂字串」的數學原理(空間劃分與位移)屬於同一個家族的工程魔法。

結語:從搜尋者進化為計算者

從回溯法進化到數學定位法,代表了程式設計師思維的轉變:從「一個個去試」的狀態搜尋,進化到「洞察規則」後的直接數學對射。

只要問題具備「狀態空間極大」與「明確的相鄰約束」兩大特徵,頂尖的工程師永遠會找出隱藏的數學規律,透過空間映射、位元運算與狀態掩碼,將複雜的搜尋問題降維打擊成常數時間的計算。這種對系統與數學的雙重敏銳度,正是頂尖架構師的標誌。

本文為「程式夥伴」專題系列,探討演算法與底層工程的連結。

2026年3月12日 星期四

從 LeetCode 3600 看工程思維:極致效能 vs 萬用架構

在面對演算法挑戰時,我們常常會陷入「尋求最快解」的迷思。然而,在真實世界的軟體工程中,最快的演算法真的永遠是最好的選擇嗎?

今天我們透過 LeetCode 3600: Maximize Spanning Tree Stability with Upgrades 這道經典的圖論題,來看看兩種截然不同的解題思路,以及它們在現實工業界中各自稱霸的真實場景。

題目背景:尋找最穩定的生成樹

這道題目的核心目標是:在給定的一張圖中,挑選出 $N-1$ 條邊形成「生成樹 (Spanning Tree)」。其中有些邊是「必選的」,有些是「可選的」。我們手上有 $K$ 次升級機會,可以將可選邊的強度乘以 2。 目標:最大化這棵樹的「最弱連結 (最小邊緣強度)」。

面對這個「最大化最小值」的難題,我們有兩種截然不同的解題策略。

策略一:二分搜尋 + 貪心驗證 (Binary Search on Answer)

這是一個非常扎實且通用的工程思維:我們不知道答案是多少,但我們可以「猜」。

運作邏輯:

  1. 確定答案的上下界(例如強度從 $0$$100,000$)。

  2. 猜測一個目標值 mid,並寫一個 check(mid) 函數來驗證:「在 $K$ 次升級內,我們能不能讓所有挑選的邊,強度都 $\ge mid$?」

  3. 根據驗證結果,不斷縮小範圍,直到找到極限值。

💡 真實世界的應用場景:高擴充性的「萬用框架」

這個演算法雖然時間複雜度多了一個 $\log M$,但在真實的工程應用中,它卻具有壓倒性的擴充性 (Extensibility)

  • 電信網路的 SLA 保證與預算規劃 中華電信或 AWS 要牽線連接全球的資料中心,並保證最低可用頻寬。公司今年只給了預算購買 $K$ 台「訊號放大器」。網路架構師會透過這個演算法「二分猜測」保證頻寬,驗證預算是否足夠,藉此找出基礎建設的投資報酬率極限。

  • EDA (電子設計自動化) 與晶片佈線 晶片設計中,工程師可以在線路上插入 Buffer(緩衝器)來增強訊號,但 Buffer 非常耗電且最多只能放 $K$ 個。軟體會猜測最差的訊號延遲時間,去驗證這 $K$ 個 Buffer 該怎麼放。

  • 為什麼它無可取代? 真實世界的規則往往不講武德。如果今天老闆說:「A 線路升級加 500、B 線路升級乘以 1.5、C 線路升級需要消耗 2 次升級機會...」純數學推導會瞬間崩潰,但二分搜尋版完全不受影響!你只需要在 check() 函數裡加上幾行 if-else,這個演算法就能完美存活。

策略二:Kruskal 演算法變形 (Pure Greedy)

這是一個將圖論數學性質發揮到極致的 $O(E \log E)$ 神級解法。它捨棄了「猜答案」,直接在一次遍歷中找出答案。

運作邏輯:

  1. 將所有「可選邊」依照強度由大到小排序。

  2. 依序將邊加入圖中(使用並查集 DSU 避免迴圈)。

  3. 既然有 $K$ 次升級機會,為了讓「最小值」最大化,自然要把機會留給生成樹中最弱的那 $K$ 條邊

  4. 透過追蹤 edgesUsed,精準攔截出「沒有被升級的最弱邊」和「有被升級的最弱邊」,最後比較瓶頸即可。

💡 真實世界的應用場景:極致效能的「特製手術刀」

當規則明確且不變時,這種純貪心演算法能提供無與倫比的效能,特別適合底層系統與即時運算。

  • Linux Kernel 的生成樹協定 (STP) 在網路橋接系統 (net/bridge/br_stp.c) 中,為了解決交換機之間的「廣播風暴」,Kernel 必須在極短時間內找出無迴圈的生成樹。Kruskal 演算法的底層邏輯正是這類網路防護機制的核心。

  • 機器學習:層次分群 (Hierarchical Clustering) 在資料科學中 (例如 Single-linkage Clustering),我們需要將特徵相近的資料點分群。背後運作完全依賴排序與並查集 (DSU),能快速將距離最短的節點合併,達成自動分類。

  • 電腦視覺:影像分割 (Image Segmentation) 讓電腦看懂照片中哪裡是人、哪裡是背景。演算法將像素當作節點,顏色差異當作邊,透過並查集在極短的 $O(1)$ 時間內將相似區塊合併,達成即時去背效果。

總結

LeetCode 3600 教會我們最重要的一課是:演算法沒有絕對的好壞,只有最適合的情境。

  • 如果你面對的是一個規則單純、對效能要求極高的底層系統,請拿出 Kruskal 貪心法 這把特製手術刀。

  • 如果你面對的是一個業務邏輯複雜、需求隨時會變更的商業系統,請架構好 二分搜尋驗證 這個萬用防護罩。

下次在解題時,不妨多想一步:這段程式碼如果放到真實世界,它會扮演什麼樣的角色呢?

2026年1月20日 星期二

修復 v4l2loopback 0.15.0 的 V4L2 緩衝區佇列問題

## 問題現象 使用 GStreamer v4l2sink 將影像送到 v4l2loopback 虛擬攝影機時出現錯誤: ``` WARN v4l2bufferpool: buffer X was not queued, this indicates a driver bug ``` 經過分析發現是 v4l2loopback 0.15.0 違反 V4L2 規格所致。 ## V4L2 緩衝區佇列規格 V4L2 規格定義的緩衝區使用流程: 1. **VIDIOC_REQBUFS** - 配置緩衝區 2. **VIDIOC_QBUF** - 將緩衝區排入驅動程式佇列 3. **VIDIOC_DQBUF** - 從驅動程式佇列取出緩衝區 核心規則:DQBUF 只能回傳先前透過 QBUF 排入的緩衝區。 正確流程:`QBUF → (處理) → DQBUF → QBUF → (處理) → DQBUF ...` v4l2loopback 0.15.0 的錯誤流程:`(預填充) → DQBUF → (自動循環) → DQBUF → (自動循環) → DQBUF ...` 錯誤點:完全不需要 QBUF,DQBUF 永遠有可用緩衝區。 ## v4l2loopback 0.15.0 的問題 ### prepare_buffer_queue() 預先填充佇列 ```c /* 原始碼 */ for (pos = 0; pos < count; ++pos) { bufd = &dev->buffers[pos]; if (list_empty(&bufd->list_head)) list_add_tail(&bufd->list_head, &dev->outbufs_list); } ``` 問題:所有緩衝區在配置後立即被加入輸出佇列,沒有經過 QBUF。 ### vidioc_dqbuf() 循環使用緩衝區 ```c /* 原始碼 */ bufd = list_first_entry_or_null(&dev->outbufs_list, ...); if (bufd) list_move_tail(&bufd->list_head, &dev->outbufs_list); ``` 問題:使用 `list_move_tail()` 將緩衝區移到佇列尾端,形成循環。 ### 違反規格的行為 1. 緩衝區未經 QBUF 就出現在輸出佇列 2. DQBUF 回傳從未排入的緩衝區 3. 緩衝區自動循環使用 實際流程:`DQBUF → DQBUF → DQBUF ...` (完全不需要 QBUF) ### GStreamer 的檢查 GStreamer v4l2bufferpool 會追蹤已排入的緩衝區。收到未排入的緩衝區時報錯: ``` WARN v4l2bufferpool: buffer X was not queued, this indicates a driver bug ``` 這是正確的行為,因為驅動程式確實違反了規格。 ## 修復方法 ### 修改 prepare_buffer_queue() 清空輸出佇列,不要預先填充: ```c /* 清空輸出佇列 */ list_for_each_entry_safe(bufd, n, &dev->outbufs_list, list_head) { list_del_init(&bufd->list_head); } /* 重設緩衝區狀態 */ for (pos = 0; pos < count; ++pos) { bufd = &dev->buffers[pos]; unset_flags(bufd->buffer.flags); dev->bufpos2index[pos % count] = bufd->buffer.index; } ``` ### 修改 vidioc_dqbuf() 移除緩衝區,不要循環使用: ```c bufd = list_first_entry_or_null(&dev->outbufs_list, ...); if (bufd) list_del_init(&bufd->list_head); /* 移除,不循環 */ ``` ### 修復後的行為 - 輸出佇列初始為空 - 緩衝區只在透過 QBUF 排入時才進入輸出佇列 - DQBUF 移除緩衝區,不循環使用 - 符合 V4L2 規格要求 ## 測試驗證 修復前: ```bash gst-launch-1.0 icamerasrc ! v4l2sink device=/dev/video0 # ERROR: buffer X was not queued, this indicates a driver bug ``` 修復後: ```bash gst-launch-1.0 icamerasrc ! v4l2sink device=/dev/video0 # 正常運作,無錯誤訊息 # Firefox/Chrome 可正常使用虛擬攝影機 ``` ## 技術細節 ### 為什麼原設計會預先填充? v4l2loopback 作為虛擬裝置,可能想簡化緩衝區管理,確保永遠有可用緩衝區。但這違反了 V4L2 規格,與嚴格遵循規格的程式(如 GStreamer)不相容。 ### list_del_init vs list_move_tail - `list_del_init()`: 明確表示「緩衝區不在佇列中」 - `list_move_tail()`: 暗示「移到另一個位置」,語義模糊 使用 `list_del_init()` 讓緩衝區狀態更清楚。 ### 多執行緒考量 正確的緩衝區狀態追蹤在多執行緒環境下很重要,可避免競爭條件。 ## 參考資料 - V4L2 Buffer: https://www.kernel.org/doc/html/latest/userspace-api/media/v4l/buffer.html - VIDIOC_QBUF/DQBUF: https://www.kernel.org/doc/html/latest/userspace-api/media/v4l/vidioc-qbuf.html - V4L2 Streaming I/O: https://www.kernel.org/doc/html/latest/userspace-api/media/v4l/io.html - GStreamer v4l2bufferpool: https://gitlab.freedesktop.org/gstreamer/gstreamer/-/blob/main/subprojects/gst-plugins-good/sys/v4l2/gstv4l2bufferpool.c ## 上游貢獻 修補程式已提交至上游:https://github.com/v4l2loopback/v4l2loopback/pull/656 ## 結論 V4L2 緩衝區管理規格的核心原則: 1. 明確的狀態轉換:QBUF → DQBUF 2. 應用程式控制:由應用程式決定何時提供緩衝區 3. 可預測行為:嚴格遵循規格 當應用程式報告 "driver bug" 時,通常確實是驅動程式的問題。

解析位元運算公式 n & ~(((n + 1) & ~n) >> 1)

# 前言 在解決「尋找最小的 $x$ 使得 $x \lor (x + 1) = n$ 」這個問題時,我們得出了一個結論:對於奇數 $n$ ,答案是將 $n$ 的二進位表示中,「末尾連續的 1」序列裡最高位的那一個 `1` 修改為 `0`。 例如:如果 $n$ 的二進位是 `...01111`,我們目標是把它變成 `...00111`。 這個操作可以透過以下這行精簡的位元運算公式完成: ```cpp n & ~(((n + 1) & ~n) >> 1) ``` 這篇筆記旨在拆解這個複合表達式,逐步說明其工作原理。 --- # 公式拆解 這個公式可以分為三個主要步驟來理解,我們由內而外進行分析。 我們的目標 $n$ 範例設為 **23**,二進位表示為 `00010111`。 我們的目標是將末尾三個 `1` 中最左邊的那個(值為 4 的位元)關閉。 ## 步驟一:找出右邊數來第一個「0」的位置 **表達式核心:** `(n + 1) & ~n` 這是非常經典的位元操作技巧,用於定位最低位的 `0`。 1. **`n + 1` 的進位特性**: 當一個整數加 1 時,其二進位末尾所有的連續 `1` 都會因為進位而變成 `0`,直到遇到第一個 `0`,該位置會變成 `1`,進位停止。 * (23) = `00010111` * (24) = `00011000` (注意末尾三個 1 變成了 0,它們左邊的 0 變成了 1) 2. **`~n` 取反**: * `~n` = `11101000` 3. **`&` (AND) 運算**: 將上述兩個結果進行 AND 運算,只會保留同時為 `1` 的位元。 ``` 00011000 (n + 1) & 11101000 (~n) ---------------- 00001000 (結果為 8) ``` **小結**:這一步成功分離出了 從右側開始數第一個非 `1` 的位置。 ## 步驟二:鎖定目標位元(向右移位) **表達式:** `(步驟一的結果) >> 1` 我們在步驟一找到了第一個 `0` 的位置(在範例中是第 3 位,數值為 8)。 但我們的目標是修改這個 `0` 位置**右邊**的那一個 `1`(也就是末尾連續 `1` 序列的最高位)。 因此,我們將步驟一的結果向右移動一位: * `00001000 >> 1` = `00000100` (數值為 4) **小結**:這一步得到了一個「遮罩 (Mask)」,這個遮罩只有我們想要修改的那一個目標位元是 `1`,其他都是 `0`。 ## 步驟三:清除目標位元 **表達式:** `n & ~(步驟二的遮罩)` 現在我們有了目標遮罩 `Mask = 00000100`。我們要利用這個遮罩把 對應位置的 `1` 變成 `0`,並保持其他位置不變。 這是標準的「清除位元」操作: 1. **`~Mask` (遮罩取反)**: 製造一個工具,目標位置為 `0`,其他位置全為 `1`。 * `~Mask` = `11111011` 2. **`n & (~Mask)`**: 將原始的 與這個反向遮罩做 AND。 * 目標位置:`1 & 0` 結果為 `0`(成功清除)。 * 其他位置:`x & 1` 結果仍為 `x`(保持不變)。 ``` 00010111 (n, 即 23) & 11111011 (~Mask) ---------------- 00010011 (結果為 19) ``` # 總結 回顧整個流程: 1. `00010111` (原始 n) 2. `00001000` (找到第一個 0) 3. `00000100` (右移,鎖定目標 1) 4. `11111011` (取反,準備清除工具) 5. `00010011` (與原數 AND,完成清除) 這個公式 `n & ~(((n + 1) & ~n) >> 1)` 利用了加法進位的特性和基本的邏輯閘操作,在不使用任何迴圈的情況下,精確地完成了「關閉末尾連續 1 中最高位」的任務。這是一種高效且常見於底層優化的寫法。