理學院電子報 No.57

文/ 統計與數據科學研究所楊鈞澔助理教授

近幾年來，人工智慧（Artificial Intelligence, AI）的快速發展吸引了所有人的注意。這項技術在許多領域都有顯著的影響力，其中包括自動駕駛技術、語音和圖像辨識系統，以及生成式人工智慧（Generative AI）。在改變我們的生活和工作方式的同時，也為各個領域帶來了許多機會與挑戰。統計科學作為人工智慧發展的三個基礎領域之一（另外兩者分別是數學及電腦科學）也面臨了一些以前未曾見過的問題。

統計的核心問題為以有限樣本推論母體 (population) 的資訊，並以機率敘述刻畫推論結果的可信度。從統計的觀點來說，一個好的統計推論（或說統計模型）包含了幾個要點：(1) 可解釋性（Interpretability），(2) 配適性（Goodness-of-fit），以及 (3) 泛化性（Generalizability）。但是，一個實用的模型必須在這些特性中有所取捨，例如：過度配適 (over-fitting) 的模型通常泛化性不佳且可解釋性較低，此現象稱之為 Bias-Variance Trade-off （見圖一 (A)）。因此，從統計學的觀點中，通常會避免過度複雜的模型。

然而，在面臨大量雜亂的資料時，複雜度不高的模型有時很難達到令人滿意的結果。為解決這個問題，深度學習（Deep Learning）藉由疊加許多層簡單模型的方式建立一個相當複雜的模型，如 ChatGPT 背後的 GPT-4 模型包含了1.76兆（1.76×10¹²）個參數。這種疊加多層簡單模型的方式在統計學中又稱做階層模型（Hierarchical model）。相較於單層模型，階層模型能夠在相同的參數數目下建立較複雜的模型，因此在統計學中是一個常用的建模方式。不過令人驚訝的是，如此過度參數化（Over-parametrized）的模型竟然能有相當好的泛化能力。這樣的現象被稱為雙重下降現象（Double Descent Phenomenon），如圖一 (B) 所示，由 Belkin^註等人在2019年提出。有別於一般的 Bias-Variance Trade-off，雙重下降現象描述了過度參數化的模型在配適性和泛化性上都能有很好的表現，且這種現象在許多常用的模型中都能被觀察到。然而，對於為何會產生這種現象，目前還沒有一個完整的理論能夠解釋。

綜觀至此，人工智慧的發展也為統計科學帶來了一些以前不曾觀察到的現象及挑戰，前述的雙重下降現象便是一個有趣的例子。其他重要的問題還包含了如何衡量這種複雜模型的可信度，以及是否能有某種程度的可解釋性等等。在這過程中，統計科學也需不斷地創新，以應對不斷變化的技術和應用需求。

圖一：雙重下降現象 (Belkin et al. 2019)。(A) 為一般的 Bias-Variance Trade-off，(B) 則是過度參數化模型的雙重下降現象。

註:Belkin, Mikhail, et al. Reconciling modern machine-learning practice and the classical bias-variance trade-off. Proceedings of the National Academy of Sciences 116.32 (2019): 15849-15854.