=題目=
澳洲的黃金海岸是一個氣候怡人的城市,阿慶看到了該地去年的月均溫資料,便把月份及月均溫畫在圖表上,用電腦計算出相關係數約為 $-0.27$,迴歸直線為 $y = -0.2x + 21.8$,並對兩數據做出以下解讀,請問當中哪些解讀不恰當?(多選)
(A) 若將年均溫以月均溫的平均值計算,則可將 $x = 6.5$ 代入該直線求年均溫。
(B) 迴歸直線的斜率小於 0,代表越接近 12 月氣溫越低。
(C) 迴歸直線與實際氣溫走勢不同,原因可能是此數據未標準化。
(D) 由於相關係數接近 0,可推論月份與氣溫相關性不高。
(E) 此統計若增加樣本數據,例如將月均溫改為日均溫,則會提高相關性。
=答案=
(B)(C)(E)
=詳解=
【題目分析】
本題要求判斷線性迴歸與相關係數在特定氣候數據下的解釋是否正確。題目核心在於理解「線性模型」對於「週期性數據(氣候)」的侷限性,以及統計參數(斜率、相關係數、標準化)的本質意義。
【核心概念】
1. 迴歸直線的性質:迴歸直線 $y = mx + b$ 必通過平均點 $(\bar{x}, \bar{y})$。
2. 斜率的意義:在線性模型中,斜率代表自變數增加時,預測值的平均增減趨勢。但在非線性數據中,單純看斜率會忽略局部的真實走勢。
3. 數據標準化 (Standardization):標準化後的迴歸直線斜率會等於相關係數 $r$,但不會改變數據本身的線性或非線性結構,也不會改變模型的配適程度。
4. 相關係數與樣本數:相關係數 $r$ 的大小取決於數據分佈的線性程度,增加樣本數不一定會提高 $r$。
【逐步解法】
(A) 恰當:
月份的平均值 $\bar{x} = \frac{1+2+...+12}{12} = 6.5$。由於迴歸直線必過 $(\bar{x}, \bar{y})$,將 $x=6.5$ 代入 $y = -0.2(6.5) + 21.8 = 20.5$,得到的數值正是這 12 個月溫度的算術平均數(年均溫)。
(B) 不恰當:
斜率 $-0.2$ 雖然代表整體的微弱下降趨勢,但數據顯示黃金海岸(南半球)氣溫在 7 月最低,之後開始回升,到 12 月時(23度)比 6-9 月都高。解釋為「越接近 12 月氣溫越低」完全不符合實際數據的週期性走勢。
(C) 不恰當:
線性迴歸直線與實際走勢不同,是因為月份與氣溫的關係是週期性(波浪狀)而非線性的。標準化只會改變座標軸的刻度(變為 $z$-分數),無法讓一條直線去貼合曲線分佈。
(D) 恰當:
相關係數 $r \approx -0.27$。通常 $|r| < 0.3$ 被視為極弱相關或低度相關,因此推論「相關性不高」是合理的統計描述。
(E) 不恰當:
增加數據點(如月改為日)雖然能提供更多細節,但相關係數反映的是「線性程度」。氣溫受季節影響的本質不變,改為日溫後,數據點會更密集地分佈在原本的曲線上,且可能因每日溫差增加雜訊,不一定會提高 $r$ 值。
沒有留言:
張貼留言