台灣總統大選的統計分析: (7) 明顯有錯的投票所

2012 大選是三合一選舉,由於總統與政黨票選舉人的規定只有細微不同, 因此總統與政黨的票數應該要很接近。來看一下總統與政黨票領票數的差:

圖一

可以看出有一些投票所的差是很大的。眼尖的讀者一定會發現, 那些差很大的值大多出現在正負300, 200, 100, 50 這些地方。這很可能是跟很多投票所是先整票再計票是有關的。來看一下差別較大的是哪些投票所:

表一

必須注意的是, 出現錯誤的地方不盡然是綠營吃虧的, 藍營明顯少算的也有。但可以確定的是這次計票過程有很多瑕疵, 尤其先整票再計票與規定不合, 必須嚴格禁止。

延伸閱讀:

從監票的重要性談民進黨的輔選體制問題
原來網路謠傳是真的 ( 計票 )

台灣總統大選開票過程的統計分析: (6) 對各縣市分別做分析

前面我們提到, 偏藍的投票所有系統性晚開出的現象。一個有趣的問題是, 這個結果是因為偏藍的縣市開得較慢, 或者是各縣市分別都有偏藍的投票所較慢開出的現象? 如果是前者, 還勉強可以用地域性差別之類的原因來解釋(但仍無法回答為何 2004, 2008 沒有類似現象); 如果是後者, 則更顯得有人為操弄的痕跡。

我們採取如下的方法來分析這個問題。首先對各縣市分別畫出票數對時間的關係圖, 並求出線性迴歸直線 (T=a*V+b, V 為票數, T 為時間)。以台南為例, 如下圖:

圖一

在線的下方的投票所歸類為較快開出的投票所, 反之則歸為較慢開出的投票所。如果KMT在上半部得票率明顯高於下半部, 表示有偏藍投票所晚出的現象。另外一個分析方法是計算相對於線性迴歸的偏離(dT=T-a*V-b) 與 KMT 得票率 [這裡我們取 KMT/(KMT+DPP)] 的相關係數。若相關係數為較大的正數, 表示有偏藍投票所晚出的現象。分析結果整理為下表:

表一

其中最後兩行表示兩種分析方法的結果。我們可看出兩種方法大體上得到一致的結果。會出現不同結果是因為(1)投票所數太少(如澎湖) (2) 快慢與藍綠的關係本來就不高(如新竹縣市)。我們可以看出, 偏藍投票所晚開出明顯出現在台南市, 宜蘭縣, 南投縣, 屏東縣;而新北市, 桃園縣, 雲林縣, 也有中度相關; 其餘縣市則不明顯。有趣的是在嘉義市和金門縣似乎出現了偏綠較晚開出的現象。但必須注意這些是投票所數較少的縣市, 因此統計上雜訊會較大。

接下來我們來看各縣市的開票速度。以 250 票為單位分成區間, 計算平均時間整理為下表:

表二

我們可看出, 下列縣市明顯開得慢:新竹縣, 台東縣, 花蓮縣, 基隆市, 新竹市。而明顯開得較快的是:彰化縣, 雲林縣。但整體說來在 1000 票以下的區段都有偏藍縣市比偏綠縣市開得慢的現象, 尤其在五都及桃園等大票倉。

現在我們可以回到我們一開始提出的問題:偏藍投票所系統性晚開出是因為偏藍的縣市開得較慢, 或者是各縣市分別都有偏藍的投票所較慢開出的現象? 答案是兩者都有。總的來說一些偏藍的縣市有整體開得慢的現象(如新竹縣, 台東縣, 花蓮縣, 基隆市, 新竹市), 而五都和桃園等大票倉也有南快北慢的趨勢。另一方面一些偏綠的縣市則有偏藍的投票所較慢開出的現象(如台南市, 屏東縣, 宜蘭縣)。值得注意的是, 台南市 屏東縣 宜蘭縣 正是被點名綠營得票不如預期的縣市。其中原因有待進一步探究。

台灣總統大選開票過程的統計分析: (5) 偏藍投票所系統性晚開出(修正版)

前面我們提到, 造成 2012 年極端的前後落差是因為偏藍投票所系統性晚開出。關於這點, 我們還是讓圖來說話吧。我把投票區大小以每 250 票為單位, 開票時間以每半小時為單位, 分成區間計算藍綠的得票數。為簡化起見, 宋的得票省略, 故 藍+綠=100%. 下圖中顏色表示藍綠的得票率, 而圓圈的大小表示該區間的總票數:

圖一

下面這張顯示沒有分區間的情形, 每一點表示一個投票所:

圖二

我們可以很清楚的看出, 這兩張圖的下半部偏綠而上半部偏藍。這在 250 — 1000 票這個區段尤其明顯。以下我們再稍微看仔細一點。在 250-500 票的區間, 開出的票數相對於時間的關係如下圖:

圖三

在 500-750 票的區間如下:

圖四

750-1000 票的區間如下:

圖五

1000-1250 票的區間如下:

圖六

1250-1500 票的區間如下:

圖七

1500-1750 票的區間如下:

圖八

由此可看出, 即使在藍營大優的大型投票所, 也有越晚開出越藍的傾向。

最後, 我們可以試著量化偏藍投票所到底晚開了多長時間。在每個投票所大小的區間, 我們先求出綠營的總得票率。個別投票所若綠營得票率大於總得票率則視為偏綠, 反之則視為偏藍。接著我們分別計算偏藍與偏綠投票所開出時間的平均值與標準差。結果總結於下圖:

圖九

明顯可看出偏藍投票所系統性晚開出。這在 1000票以下的投票所尤為明顯。平均而言, 偏藍投票所要比偏綠投票所晚開出 10-20 分鐘。

台灣總統大選開票過程的統計分析: (4) 對模擬開票的補充說明(修正版)

在先前的文章中, 我們首先確立了綠營在大型投票所中居劣勢, 而這基本上是從 2004 年以來一慣的趨勢。由於開票的順序大體上是由小到大, 因此一般來說綠營會有開高走低的現象。問題是, 從開票的初期 (比方說到已經開出一百萬票)到最後的得票率落差的合理範圍是在哪裡?這就是模擬開票試圖回答的問題。

前文發表之後, Hyde 網友有如下的建議 (原文 在此):

影響開票所需時間的因素, 票數多寡固然是很重要的因素, 但所需時間卻不見得和票數成正比.

例如, 越大的投票所配置的人員也可能較多, 如果多到足夠分兩組同時開票, 那麼一個大型投票所有可能贏過一組開票的中型投票所.

又例如有些極小型的投票所實際開票的時間可能很短, 但因其位於偏遠地帶, 要把選舉結果報告單送到鄉公所的路途遙遠, 從中選會的登錄資料看來就可能像是開得很慢.

另外, 當許多票數相去不遠的投票所差不多同時完成開票時, 可能會發生排隊等登錄的情形.

基於這種種的原因, 我覺得用線性迴歸分析得到的直線去模擬開票, 恐怕會相當失真.

如果您有興趣, 我建議您參考KM大的圖, 把投票所分成500以下、500~1000、1000~1500、1500以上四個組分別做線性迴歸分析, 然後再合起來模擬開票.

關於這些問題, 我簡單回覆如下:
(1) 我一開始也覺得只用一個線性迴歸到所有投票所過於簡化。因此我最初的計畫是依投票所大小分成數個區段, 在每個區段取平均值與標準差, 然後再以此為基礎做開票模擬。但有趣的是, 各區段的平均時間與票數呈現良好的線性關係, 連標準差的變化也很小。如下圖:

圖一

因此我就偷懶了一下, 直接算出全體資料的線性迴歸, 以及相對於線性迴歸的偏離的標準差, 以此為基礎做開票模擬。我相信兩種做法的差別應該很小。

(2) 的確, 較小的投票所不一定較早開出。這也是為什麼在模擬時假定開票所需時間是由線性迴歸所得的值再加上一個常態分布的亂數的原因。如果不加上亂數, 則開票的過程會和由小到大依序開出一樣, 也就是我在上文一開頭考慮的極端情形。

(3) 必須注意的是, 由於較小的投票所不一定較早開出, 在正常情形下開票的過程應該比由小到大依序開出的過程較為和緩。這也是我透過模擬開票想顯示的。但即便在由小到大依序開出的極端情形下, 得票率的前後落差也遠比實際的開票過程低。這點就很奇怪。

(4) 我們可以試著了解實際的開票過程有多極端。實際的開票過程, 開到 100 萬票時蔡 51.89% 馬 45.53%, 最後蔡 45.63% 馬 51.6%。落差 (51.89-45.53-45.63+51.6)%=12.33%。我以前述的簡單模型進行十萬次模擬。從開到 100 萬票時到最後的落差呈如下的常態分布:

圖二

平均值為 3.36%, 標準差 0.66%。也就是說有 68.2% 的機率前後落差會在 2.7% 到 4.02% 之間。實際上的落差 12.33% 偏離平均值 8.97%, 是標準差的 13.6 倍。要產生如此極端的偏差的機率是 2E-82! 也就是說, 基本上是幾乎不可能。

(5) 我的模擬開票模型有一個很重要的假設, 即開票所需的時間相對於線性迴歸的偏差是隨機的。在這樣的假設下我們得到了 2012 年實際開票過程是幾乎不可能發生的結論。那麼 2012 年的開票過程到底是怎麼發生的?原因就在於實際開票所需的時間相對於線性迴歸的偏差不是隨機的, 相反的, 卻和投票所的藍綠支持度有關。 簡單的說, 同樣大小的投票所, 偏藍的會比偏綠的系統性的晚開出(這點以後再詳細討論)。你說奇不奇怪?

(6) 我們當然可以設想一些可能的原因來解釋為什麼偏藍的投票所會較晚開出。但任何可能的解釋必須同時能夠回答為什麼同樣的現象沒有在 2004, 2008 年發生。這有一定的難度。

(7) 最後, 即便有這些難以解釋的現象, 我們還是不能輕易做出 KMT 做票的結論。但更細緻的分析是有其必要。

2012 台灣總統大選開票過程的統計分析: (3) 模擬開票 (修正版)

首先我們假定各投票所是完美的以由小到大的順序開出。則得票率走勢應如下圖:

圖一

蔡的得票率在開出約172萬票時達到極大值 48.91%,領先馬的 48.36%. 相較於最後的得票率蔡45.63%馬51.6%,前後落差約為6.52%. 也就是說,即便在如此理想化的開票順序之下,前後落差仍遠低於實際上的13%. 在實際的開票過程,開票所需時間與票箱大小會呈正相關,但絕不會如此完美。因此在正常情況下,實際上的前後落差應該要比 6.52% 更小才符合常理。

依照中選會的資料,所需時間與有效票的關係如下圖:

圖二

令 T 為所需時間, V 為票數,線性迴歸分析給出

T=a*V+b

其中 a=0.001416, b=1.399

a 可視為每張票所需時間 (實際上是三張, 含立委和政黨),約為 5.1 秒。b 可視為選務工作所需時間,與票數無關。

實際上 T 與 V 的關係相對於線性迴歸的偏離大致呈常態分布,標准差約為 s=0.5348,如下圖:

圖三

假設相對於線性迴歸的偏離是隨機的,我們可以用以下的模型來模擬開票。對於一個票數為 V 的投票所,假定所需時間為

T=a*V+b+normrnd(s),

其中 normrnd(s) 是呈常態分布的亂數,標準差為 s. 以此設定每一個投票所的所需時間後依序開出,所得的走勢圖即為模擬開票的結果。下圖是三次模擬的結果:

圖四

由此我們可以看出,在開到  100 萬票以後,各個模擬之間的差異已經很小。馬的得票率呈一路攀升之勢。然而,從開出 100 萬票到最後的落差最多是 3% 到 4% 而已。

作為參考,我們也可以用同樣的模型來模擬 2004 與 2008 年的大選。這是 2004 年:

圖五

2004 年的開票詳細過程迄今尚未尋獲。但由這裡的描述,陳水扁是一路領先最後差點被追上。這和模擬的結果是一致的。

至於 2008, 模擬結果如下:

圖六

這和真實的開票過程(資料來源)相較也不離譜:

圖七

綜合以上的討論,我們可以推論出在開票過程中綠營會有開高走低的現象, 主要是因為藍營在大型投票所有優勢. 但從開出100萬票到最後,合理的落差應該是在 3- 4% 以下。那為何 2012 會出現 13% 的落差呢?這是因為偏藍投票所系統性的較慢開出的緣故。這點我們下次再談。

訂正啓事

由於中選會提供的得票數資料檔案並沒有完全按照投票所編號排列, 而各投票所回報時間是在一個分開的檔案, 以致我在把得票數資料與回報時間彙整時犯了一些錯誤。先前發表的分析所用的資料, 共有 2504 個投票所的回報時間是錯置的, 佔全部投票所的 16.91%。其中台北市有 1048 個, 台中市有 944 個, 桃園縣有 512 個。我在此為自己的粗疏向讀者深深致歉。我用更正後的資料重做了分析, 並以此對之前發表的三篇文章做了修正。幸運的是, 這些錯誤並沒有影響之前得到的結論。舊的文章仍留在版上作為紀錄以供比較。

台灣總統大選開票過程的統計分析: (5) 偏藍投票所系統性晚開出

前面我們提到, 造成 2012 年極端的前後落差是因為偏藍投票所系統性晚開出。關於這點, 我們還是讓圖來說話吧。我把投票區大小以每 250 票為單位, 開票時間以每半小時為單位, 分成區間計算藍綠的得票數。為簡化起見, 宋的得票省略, 故 藍+綠=100%. 下圖中顏色表示藍綠的得票率, 而圓圈的大小表示該區間的總票數:

圖一

我們可以很清楚的看出, 圖的下半部偏綠而上半部偏藍。這在 250 — 1000 票這個區段尤其明顯。以下我們再稍微看仔細一點。在 250-500 票的區間, 開出的票數相對於時間的關係如下圖:

圖二

在 500-750 票的區間如下:

圖三

750-1000 票的區間如下:

圖四

1000-1250 票的區間如下:

圖五

1250-1500 票的區間如下:

圖六

1500-1750 票的區間如下:

圖七

由此可看出, 即使在藍營大優的大型投票所, 也有越晚開出越藍的傾向。

最後, 我們可以試著量化偏藍投票所到底晚開了多長時間。在每個投票所大小的區間, 我們先求出綠營的總得票率。個別投票所若綠營得票率大於總得票率則視為偏綠, 反之則視為偏藍。接著我們分別計算偏藍與偏綠投票所開出時間的平均值與標準差。結果總結於下圖:

圖八

由此得知, 平均而言, 偏藍投票所要比偏綠投票所晚開出 15-20 分鐘。

台灣總統大選開票過程的統計分析: (4) 對模擬開票的補充說明

在先前的文章中, 我們首先確立了綠營在大型投票所中居劣勢, 而這基本上是從 2004 年以來一慣的趨勢。由於開票的順序大體上是由小到大, 因此一般來說綠營會有開高走低的現象。問題是, 從開票的初期 (比方說到已經開出一百萬票)到最後的得票率落差的合理範圍是在哪裡?這就是模擬開票試圖回答的問題。

前文發表之後, Hyde 網友有如下的建議 (原文 在此):

影響開票所需時間的因素, 票數多寡固然是很重要的因素, 但所需時間卻不見得和票數成正比.

例如, 越大的投票所配置的人員也可能較多, 如果多到足夠分兩組同時開票, 那麼一個大型投票所有可能贏過一組開票的中型投票所.

又例如有些極小型的投票所實際開票的時間可能很短, 但因其位於偏遠地帶, 要把選舉結果報告單送到鄉公所的路途遙遠, 從中選會的登錄資料看來就可能像是開得很慢.

另外, 當許多票數相去不遠的投票所差不多同時完成開票時, 可能會發生排隊等登錄的情形.

基於這種種的原因, 我覺得用線性迴歸分析得到的直線去模擬開票, 恐怕會相當失真.

如果您有興趣, 我建議您參考KM大的圖, 把投票所分成500以下、500~1000、1000~1500、1500以上四個組分別做線性迴歸分析, 然後再合起來模擬開票.

關於這些問題, 我簡單回覆如下:
(1) 我一開始也覺得只用一個線性迴歸到所有投票所過於簡化。因此我最初的計畫是依投票所大小分成數個區段, 在每個區段取平均值與標準差, 然後再以此為基礎做開票模擬。但有趣的是, 各區段的平均時間與票數呈現良好的線性關係, 連標準差的變化也很小。如下圖:

圖一

 

因此我就偷懶了一下, 直接算出全體資料的線性迴歸, 以及相對於線性迴歸的偏離的標準差, 以此為基礎做開票模擬。我相信兩種做法的差別應該很小。

(2) 的確, 較小的投票所不一定較早開出。這也是為什麼在模擬時假定開票所需時間是由線性迴歸所得的值再加上一個常態分布的亂數的原因。如果不加上亂數, 則開票的過程會和由小到大依序開出一樣, 也就是我在上文一開頭考慮的極端情形。

(3) 必須注意的是, 由於較小的投票所不一定較早開出, 在正常情形下開票的過程應該比由小到大依序開出的過程較為和緩。這也是我透過模擬開票想顯示的。但即便在由小到大依序開出的極端情形下, 得票率的前後落差也遠比實際的開票過程低。這點就很奇怪。

(4) 我們可以試著了解實際的開票過程有多極端。實際的開票過程, 開到 100 萬票時蔡 51.61% 馬 45.8%, 最後蔡 45.63% 馬 51.6%。落差 (51.61-45.8-45.63+51.6)%=11.78%。我以前述的簡單模型進行十萬次模擬。從開到 100 萬票時到最後的落差呈如下的常態分布:

圖二

 

平均值為 3.17%, 標準差 0.67%。也就是說有 68.2% 的機率前後落差會在 2.5% 到 3.84% 之間。實際上的落差 11.78% 偏離平均值 8.61%, 是標準差的 12.85 倍。要產生如此極端的偏差的機率是 8.6e-38! 也就是說, 基本上是幾乎不可能。

(5) 我的模擬開票模型有一個很重要的假設, 即開票所需的時間相對於線性迴歸的偏差是隨機的。在這樣的假設下我們得到了 2012 年實際開票過程是幾乎不可能發生的結論。那麼 2012 年的開票過程到底是怎麼發生的?原因就在於實際開票所需的時間相對於線性迴歸的偏差不是隨機的, 相反的, 卻和投票所的藍綠支持度有關。 簡單的說, 同樣大小的投票所, 偏藍的會比偏綠的系統性的晚開出(這點以後再詳細討論)。你說奇不奇怪?

(6) 我們當然可以設想一些可能的原因來解釋為什麼偏藍的投票所會較晚開出。但任何可能的解釋必須同時能夠回答為什麼同樣的現象沒有在 2004, 2008 年發生。這有一定的難度。

(7) 最後, 即便有這些難以解釋的現象, 我們還是不能輕易做出 KMT 做票的結論。但更細緻的分析是有其必要。

2012 台灣總統大選開票過程的統計分析: (3) 模擬開票

首先我們假定各投票所是完美的以由小到大的順序開出。則得票率走勢應如下圖:

圖一

 

蔡的得票率在開出約172萬票時達到極大值 48.91%,領先馬的 48.36%. 相較於最後的得票率蔡45.63%馬51.6%,前後落差約為6.52%. 也就是說,即便在如此理想化的開票順序之下,前後落差仍遠低於實際上的13%. 在實際的開票過程,開票所需時間與票箱大小會呈正相關,但絕不會如此完美。因此在正常情況下,實際上的前後落差應該要比 6.52% 更小才符合常理。

依照中選會的資料,所需時間與有效票的關係如下圖:

圖二

 

令 T 為所需時間, V 為票數,線性迴歸分析給出

T=a*V+b

其中 a=0.001325, b=1.482

a 可視為每張票所需時間 (實際上是三張, 含立委和政黨),約為 4.8 秒。b 可視為選務工作所需時間,與票數無關。

實際上 T 與 V 的關係相對於線性迴歸的偏離大致呈常態分布,標准差約為 s=0.5558,如下圖:

圖三

 

假設相對於線性迴歸的偏離是隨機的,我們可以用以下的模型來模擬開票。對於一個票數為 V 的投票所,假定所需時間為

T=a*V+b+normrnd(s),

其中 normrnd(s) 是呈常態分布的亂數,標準差為 s. 以此設定每一個投票所的所需時間後依序開出,所得的走勢圖即為模擬開票的結果。下圖是三次模擬的結果:

圖四

 

由此我們可以看出,在開到  100 萬票以後,各個模擬之間的差異已經很小。馬的得票率呈一路攀升之勢。然而,從開出 100 萬票到最後的落差最多是 3% 到 4% 而已。

作為參考,我們也可以用同樣的模型來模擬 2004 與 2008 年的大選。這是 2004 年:

圖五

 

2004 年的開票詳細過程迄今尚未尋獲。但由這裡的描述,陳水扁是一路領先最後差點被追上。這和模擬的結果是一致的。

至於 2008, 模擬結果如下:

圖六

 

這和真實的開票過程(資料來源)相較也不離譜:

圖七

 

綜合以上的討論,我們可以推論出在開票過程中綠營會有開高走低的現象, 主要是因為藍營在大型投票所有優勢. 但從開出100萬票到最後,合理的落差應該是在 3- 4% 以下。那為何 2012 會出現 13% 的落差呢?這是因為偏藍投票所系統性的較慢開出的緣故。這點我們下次再談。

2012 台灣總統大選開票過程的統計分析: (2) 投票所票數與藍綠得票率的關係

在正常的情形下,較小的投票所會較早開出。因此要分析 2012 的走勢圖是否合理,我們首先要看看綠營的得票率是否在小投票所較佔優勢。以下我們將投票所依有效票數排序以後,等分成  100 個區間。計算每個區間的平均投票所有效票數與藍綠的得票率, 畫成下圖:

圖一

由此可看出,平均而言藍營在極小的投票所與大投票所有優勢,而綠營的優勢區則是在中型的投票所。

這樣的分布是否異常?我們可以用 2004 與 2008 的資料作為對照。2004 年陳水扁對連戰:

圖二

2008年謝長廷對馬英九:

圖三

由此可見,雖說藍綠的得票率有上下的移動,但總的來說趨勢是一致的。

由這些分析,我們大致上可推論出,合理的開票過程應該是:最早期藍營是壓倒性的優勢,然後綠營追趕或超前,接下來藍營追趕/反超/或擴大優勢。

Follow

Get every new post delivered to your Inbox.