在先前的文章中, 我們首先確立了綠營在大型投票所中居劣勢, 而這基本上是從 2004 年以來一慣的趨勢。由於開票的順序大體上是由小到大, 因此一般來說綠營會有開高走低的現象。問題是, 從開票的初期 (比方說到已經開出一百萬票)到最後的得票率落差的合理範圍是在哪裡?這就是模擬開票試圖回答的問題。
前文發表之後, Hyde 網友有如下的建議 (原文 在此):
影響開票所需時間的因素, 票數多寡固然是很重要的因素, 但所需時間卻不見得和票數成正比.
例如, 越大的投票所配置的人員也可能較多, 如果多到足夠分兩組同時開票, 那麼一個大型投票所有可能贏過一組開票的中型投票所.
又例如有些極小型的投票所實際開票的時間可能很短, 但因其位於偏遠地帶, 要把選舉結果報告單送到鄉公所的路途遙遠, 從中選會的登錄資料看來就可能像是開得很慢.
另外, 當許多票數相去不遠的投票所差不多同時完成開票時, 可能會發生排隊等登錄的情形.
基於這種種的原因, 我覺得用線性迴歸分析得到的直線去模擬開票, 恐怕會相當失真.
如果您有興趣, 我建議您參考KM大的圖, 把投票所分成500以下、500~1000、1000~1500、1500以上四個組分別做線性迴歸分析, 然後再合起來模擬開票.
關於這些問題, 我簡單回覆如下:
(1) 我一開始也覺得只用一個線性迴歸到所有投票所過於簡化。因此我最初的計畫是依投票所大小分成數個區段, 在每個區段取平均值與標準差, 然後再以此為基礎做開票模擬。但有趣的是, 各區段的平均時間與票數呈現良好的線性關係, 連標準差的變化也很小。如下圖:

圖一
因此我就偷懶了一下, 直接算出全體資料的線性迴歸, 以及相對於線性迴歸的偏離的標準差, 以此為基礎做開票模擬。我相信兩種做法的差別應該很小。
(2) 的確, 較小的投票所不一定較早開出。這也是為什麼在模擬時假定開票所需時間是由線性迴歸所得的值再加上一個常態分布的亂數的原因。如果不加上亂數, 則開票的過程會和由小到大依序開出一樣, 也就是我在上文一開頭考慮的極端情形。
(3) 必須注意的是, 由於較小的投票所不一定較早開出, 在正常情形下開票的過程應該比由小到大依序開出的過程較為和緩。這也是我透過模擬開票想顯示的。但即便在由小到大依序開出的極端情形下, 得票率的前後落差也遠比實際的開票過程低。這點就很奇怪。
(4) 我們可以試著了解實際的開票過程有多極端。實際的開票過程, 開到 100 萬票時蔡 51.61% 馬 45.8%, 最後蔡 45.63% 馬 51.6%。落差 (51.61-45.8-45.63+51.6)%=11.78%。我以前述的簡單模型進行十萬次模擬。從開到 100 萬票時到最後的落差呈如下的常態分布:

圖二
平均值為 3.17%, 標準差 0.67%。也就是說有 68.2% 的機率前後落差會在 2.5% 到 3.84% 之間。實際上的落差 11.78% 偏離平均值 8.61%, 是標準差的 12.85 倍。要產生如此極端的偏差的機率是 8.6e-38! 也就是說, 基本上是幾乎不可能。
(5) 我的模擬開票模型有一個很重要的假設, 即開票所需的時間相對於線性迴歸的偏差是隨機的。在這樣的假設下我們得到了 2012 年實際開票過程是幾乎不可能發生的結論。那麼 2012 年的開票過程到底是怎麼發生的?原因就在於實際開票所需的時間相對於線性迴歸的偏差不是隨機的, 相反的, 卻和投票所的藍綠支持度有關。 簡單的說, 同樣大小的投票所, 偏藍的會比偏綠的系統性的晚開出(這點以後再詳細討論)。你說奇不奇怪?
(6) 我們當然可以設想一些可能的原因來解釋為什麼偏藍的投票所會較晚開出。但任何可能的解釋必須同時能夠回答為什麼同樣的現象沒有在 2004, 2008 年發生。這有一定的難度。
(7) 最後, 即便有這些難以解釋的現象, 我們還是不能輕易做出 KMT 做票的結論。但更細緻的分析是有其必要。
Like this:
Be the first to like this post.