理學院電子報 No.58

文/ 統計與數據科學研究所陳裕庭助理教授

得益於運算成本降低以及運算速度加快，近年來在機器學習(machine learning)，或者更精確地說，深度神經網路(deep neural network)的研究上有了許多突破性的進展，作為其應用，人工智慧(artificial intelligence)更是在各個領域都掀起了不小的浪潮。因此，現代神經網路中”模型越大，表現越好(Larger models are better)”的教條也就成為了顯學；甚至有學者示警，根據現在的發展趨勢，大型語言模型(large language model, LLM)將在未來的幾年內面臨無可用資料的窘境(註1)。

然而，事實真是如此嗎？Belkin等人在2019年觀察到雙重下降現象(double descent phenomenon)存在於許多常用的模型中(註2)，隨著模型的參數增加，測試誤差(testing error)或稱(generalized error)泛化誤差會先經歷一段下降而後上升的起伏，對應到一般統計學習理論中低度擬合(under-fitting)與過度擬合(over-fitting)的階段，但是隨著參數數量增加到某個臨界點後，測試誤差又會隨之下降。該現象雖然成功解釋了傳統統計概念中的Bias-Variance Trade-off與現代神經網路Larger models are better的概念為何能同時存在，但似乎也揭示著，在算力足夠的情況下，提高模型的複雜度最終將是有益無害。

對此，Nakkiran等人提出了等效模型複雜度(effective model complexity, EMC)的概念(註3)。EMC被定義為訓練誤差(training error)近似於0時的最大樣本數，而影響EMC大小的因子包含資料背後的分布、模型中的參數個數、最佳化演算法的選擇、訓練時間的長短等等。而雙重下降實際上是隨著EMC增加而出現的現象，並非單純的參數個數，訓練誤差的峰值則固定出現在EMC近似於實際樣本數時。其中，如圖一所示，不同複雜度的模型在增加訓練期數時的表現也會有所不同，貿然的增加訓練期數可能反而會降低模型的表現。此外，由於增加訓練樣本的同時也會提高EMC，使得測試誤差的高峰往右偏，導致提高訓練樣本數反而降低了模型表現的奇特現象(圖二)。透過EMC的概念，也許有望能夠估計出目前的模型處於表現期的哪個階段，進而採取相對應的策略，例如是要加入正則化(regularization)等手段避免過度擬合或是加入額外的參數或提高訓練期數讓模型進入下一段下降期。然而，不論是EMC的嚴謹定義或是相對應的估計方式都還有待進一步的研究。

綜上所述，即便是處在新方法與技術層出不窮的科技世代，我們依舊要試圖回到其背後的統計本質，了解各個方法的侷限性，才能妥善運用深度學習這個強大的工具，而非盲目追求算力，最終被淹沒在這波AI洪流之中。