2021年1月13日 星期三

110年初等考試-統計學大意詳解

110年公務人員初等考試-統計學大意

1. 當柴比雪夫定理應用在機率分配上時, 下列敘述何者正確?
(A)該定理只適用在對稱的機率分配上
(B)大約 68%的觀測值會落在平均數上下一個標準差之內
(C)至少 25%的觀測值會落在平均數上下兩個標準差之內
(D)至多 11%的觀測值會落在平均數上下三個標準差之外

$$P(\mu-k\sigma < X < \mu+k\sigma) \ge 1-{1\over k^2}\\(A)\times:不限定任何機率分配\\(B)\times: k=1 \Rightarrow P(\mu-\sigma < X < \mu+\sigma) \ge 1-{1\over 1}=0\\(C)\times: k=2\Rightarrow P(\mu-2\sigma < X < \mu+2\sigma) \ge 1-{1\over 2^2}=0.75\\(D)\bigcirc:k=3 \Rightarrow P(\mu-3\sigma < X < \mu+3\sigma) \ge 1-{1\over 3^2} \Rightarrow P(\mu-3\sigma < X < \mu+3\sigma)\le {1\over 9}=0.11\\故選\bbox[red,2pt]{(D)}$$

2. 假設 E 和 F 為兩個非空集合的事件且滿足\(P(F\mid E) = P(F)\), 下列敘述何者錯誤?
(A)\(P(E\text{ and }F)=P(E)P(F)\)  (B)\(P(E\text{ or }F)=P(E)+P(F)\)
(C)E 和 F 為相互獨立事件  (D)\(P(E\mid F)=P(E)\)


$$(A)\bigcirc:P(F\mid E)=P(F) \Rightarrow {P(F\cap E)\over P(E)} =P(F) \Rightarrow P(F\cap E)= P(F)P(E)\\(B)\times: P(E\cup F)=P(E)+ P(F)-P(E\cap F) =P(E)+ P(F)-P(E)P(F)\\(C)\bigcirc: 由(A)知E,F獨立\\ (D)\bigcirc:P(E\mid F)={P(E\cap F)\over P(F)} ={P(E)P(F)\over P(F)} =P(E)\\只有(B)是錯誤的,故選\bbox[red,2pt]{(B)}$$

3. 美國密西根州 55%的公民是男性, 45%的公民是女性。 已知本次總統大選該州 60%的男性和 40%的女性投票給共和黨候選人。 請問票投給共和黨候選人的密西根州公民之中, 屬於男性的機率有多少?
(A)0.605  (B) 0.736  (C)0.647  (D)0.338

$${投給共和黨的男性\over 投給共和黨的男性與女性} ={0.55\times 0.6\over 0.55\times 0.6+ 0.45\times 0.4} = {11\over 17} \approx 0.647,故選\bbox[red,2pt]{(C)}$$

4. 隨機變數 X 服從指數分配( exponential distribution) , 其機率密度函數為\(f(x)=0.5e^{-0.5x},x>0\)。 請問該指數分配的中位數為多少?
(A)2.008  (B)1.649  (C) 1.386  (D) 2.685


$$中位數為a \Rightarrow \int_0^af(x)\;dx=0.5 \Rightarrow \int_0^a 0.5e^{-0.5x}\;dx=0.5 \Rightarrow \left. \left[ -e^{-0.5x} \right]\right|_0^a=0.5 \\ \Rightarrow 1-e^{-0.5a}=0.5 \Rightarrow e^{-0.5a}=0.5 \Rightarrow -0.5a=\ln 0.5 \Rightarrow a \approx 1.386,故選\bbox[red,2pt]{(C)}$$


5. 下列為 108 年公務人員初等考試統計學科目分數的箱型圖( box plot) :
根據此圖, 請問此考試分數的前標( 第 75 百分位數) 和後標( 第 25 百分位數) 相差幾分?
(A)22 (B) 41  (C) 67  (D) 90

$$上圖兩個紅箭頭的差距約為40,故選\bbox[red,2pt]{(B)}$$

$$\begin{array}{ccc} 年齡&次數 &累計次數\\\hline 18-23 & 8 & 8 \\ 23-28 & 9 & 17\\ 28-33 & 7 & 24\\ 33-38 & 6 & 30 \\ 38-43 & 6 & 36\\\hline\end{array}\\ 由上表各年齡層的次數可知,此資料並非對稱,而是右偏(數字大的在左半部);\\因此 眾數< 中位數 < 平均數,故選\bbox[red,2pt]{(A)}$$

7. 2019 年商學院學生的 TOEIC 成績大約服從一個常態分配, 平均分數\(\mu=610\), 標準差\(\sigma=160\)。某大學 MBA 學程給外國學生的獎學金申請最低門檻是 TOEIC 成績前 3%。 請問 TOEIC 至少要考幾分才能到達此最低門檻?
(A)932 (B) 911  (C) 895  (D) 876

$$先找z值,滿足P(Z\le z)=1-3\%=0.97,由試題卷的附表(見上圖)可知:z至少為1.88\\因此z={x-\mu\over \sigma}={x-610\over 160}=1.88 \Rightarrow x=160\times 1.88+610 =910.8,故選\bbox[red,2pt]{(B)}$$


 :$$(A)\times: 自由度是n-1\\故選\bbox[red,2pt]{(A)} $$

9. 當使用 T 分配來建立母體平均數的信賴區間時, 下列何者假設是不需要的?
(A) 樣本平均數的分配必需是常態或近似常態分配
(B) 母體的標準差未知 
(C) 樣本數必需很大
(D) 樣本觀測值之間相互獨立

$$\bar x\pm t_{\alpha/2}{s\over \sqrt n}的區間估計可以適用於任何大小樣本,故選\bbox[red,2pt]{(C)} $$

10. 民調公司想要了解美國公民對現任總統的支持度百分比。 在信心水準 95%和誤差範圍 5%的要求之下, 請問該民調公司至少需要多少樣本數?
(A) 297  (B) 385  (C) 897  (D) 1,067

$$樣本數n \ge \left( \cfrac{z_{\alpha/2}\times p}{e}\right)^2,其中\cases{信心水準95\% \Rightarrow \alpha=0.05\\ 誤差範圍e=5\%\\ p=1/2} \\ \Rightarrow n \ge \left( \cfrac{z_{0.025}\times 0.5}{0.05}\right)^2 =\left( \cfrac{1.96\times 0.5}{0.05}\right)^2 = 384.16,故選\bbox[red,2pt]{(B)} $$


11. 有關母體參數假設檢定的 P 值( P-value) , 下列敘述何者錯誤?
(A)P 值的計算和顯著水準有關  (B)P 值的計算和虛無假設有關
(C)P 值的計算和樣本的檢定統計量有關  (D)P 值越小, 越傾向於拒絕虛無假設

$$ P 值的計算和顯著水準無關,而是P值檢定和顯著水準有關,故選\bbox[red,2pt]{(A)} $$


$$這題其實不用計算,(B)與(D)的答案是相同的,只要考慮(A)與(C);當然是工廠B的變異較大\\,故選\bbox[red,2pt]{(C)}$$


 

$$ 由成績變異計算t檢定統計量,自由度為8-1=7,故選\bbox[red,2pt]{(D)}$$

14. 如果執行卡方適合度檢定( 顯著水準為α ) 時有許多細格( cell) 的期望次數太少, 會造成下列那一種影響?
(A)該檢定比較容易拒絕 H0  (B)該檢定的檢定力會變小
(C)該檢定的檢定統計量自由度會變少  (D)不會有任何的影響


:$$次數少容易造成較大的差異,因此容易形成變數間有相關性,也就是容易拒絕H_0,故選\bbox[red,2pt]{(A)} $$

 


:$$三家企業(k=3),又15位科學家(n=15),因此自由度(a,b)=(3-1,15-1-(3-1))\\=(2,12),故選\bbox[red,2pt]{(A)}$$




:$$\begin{array}{llll}\hline 變因 & 平方和 & 自由度 & 均方值 &F\\\hline 因子A & 130 & df_A=4-1=3\\因子B & &df_B=5-1=4\\交互作用&270 & df_A\cdot df_B=3\times 4=12 & MS_{AB}=270/12\\ 誤差& 480 & N-4\times 5=40 &MS_E=480/40\\\hdashline 總和 & 1000 & 59=N-1 \Rightarrow N=60\\\hline\end{array}\\ \Rightarrow F=MS_{AB}/MS_E ={270\over 12}\div {480\over 40}={15\over 8} =1.875,故選\bbox[red,2pt]{(B)} $$


:$$X越大,Y並不隨之變大或變小,X和Y之間幾乎不相關,故選\bbox[red,2pt]{(D)}$$

 


:$$R^2=\frac{SSR}{SST}= \frac{300}{900}=0.333 = 33.3\%,故選\bbox[red,2pt]{(A)}$$


 


:$$ 圖形接近對稱y=0(上下對稱),因此(A),(B)可能成立;\\又當x越大,y-\hat y變化越大,Y的變異程度並非常數;\\而(D)也可能成立,無法完全判定;故選\bbox[red,2pt]{(C)}$$



.
:$$ 型II錯誤:該拒絕H_0而未拒絕;(A)與(B)的結果一定是拒絕,\\(C)一定會造成不拒絕的機率遠多於(D),故選\bbox[red,2pt]{(C)}$$




:$$相關係數\rho ={\sum(x-\bar x)(y-\bar y)\over \sqrt{\sum(x-\bar x)^2}\times \sqrt{\sum (y-\bar y)^2}} ={36 \over \sqrt{30}\times \sqrt{48}} ={3\over \sqrt{10}}\\觀察值的測量標準誤=\sqrt{\sum(y-\hat y)^2 \over N-2} =\sqrt{(1-\rho^2)\sum(y-\bar y)^2 \over N-2} = \sqrt{(1-9/10)\times 48 \over 13}\\ = \sqrt{24\over 65}\approx 0.6076  ,故選\bbox[red,2pt]{(D)} $$

22. 在複迴歸的模型中加入一個具有高度共線性( collinearity) 的自變數所造成的影響, 下列敘述何者錯誤?
(A)最小平方法的估計式可能會不存在
(B)\(R^2\)(判定係數) 可能會變小
(C)某些自變數 X 和 Y 之間的關係可能會被錯誤解釋
(D)某些自變數 X 的係數估計值可能會由正轉成負


:共線性會造成重複的自變數,提高某一自變數的解釋力與預測力,也就是\(R^2\)變大,故選\(\bbox[red,2pt]{(B)}\)。

23. 資料中有收入( 低、 中、 高) 及年齡群( 21 歲-30 歲、 31 歲-40 歲、 41 歲-50 歲、 51 歲-60 歲) 兩個變數。 若要以卡方檢定( Chi-square) 檢定收入與年齡群有無關聯性, 其自由度為何?
(A) 6  (B) 7   (C) 8   (D) 12

$$ 收入分3群、年齡分4群\Rightarrow 自由度=(3-1)(4-1)=6,故選\bbox[red,2pt]{(A)}$$


24. 下列那一個假設檢定的程序不適合採用卡方統計量來做檢定?
(A)檢定多組獨立的數值資料是否來自相同的機率分配
(B)檢定 Spearman 的等級相關係數( coefficient of rank correlation) 是否顯著
(C)檢定“性別” 和“支持的政黨” 之間是否有關係
(D)檢定迴歸分析的殘差項是否相互獨立

$$ 順序性不適合採用卡方檢定,故選\bbox[red,2pt]{(B)}$$

25. 根據世界綠色和平組織的抽樣調查和迴歸分析, 得到一個估計式\(\hat{Y}=0.5+0.006X\), 其中 Y 為大氣增加的溫度( 華氏℉) , X 為空氣中二氧化碳濃度的增加量( PPM) , 且\(R^2\)高達 0.92。 如果現在將同一筆資料溫度 Y 的單位改成攝氏( ℃) , 並重新計算迴歸估計式, 則下列敘述何者正確? ( 註: 華氏=攝氏\(\times{9\over 5}+32\))
(A)迴歸估計式的截距項變成-31.5
(B)\(R^2\)數值不會改變
(C)X 的係數估計值變成0.0108
(D)迴歸估計式的截距項變成 32.9

:$$Y={9\over 5}Z+32 \Rightarrow \hat{Y}=0.5+0.006X \Rightarrow {9\over 5}\hat{Z}+32 =0.5+0.006X\\ \Rightarrow \hat{Z}=(0.006X-31.5) \times {5\over 9} ={1\over 300}X-{35\over 2} \Rightarrow \hat{Z}={1\over 300}X-{35\over 2} \\ \Rightarrow 截距變為-{35\over 2},係數變為{1\over 300} \Rightarrow (A),(C),(D)都不對\\ R_{XZ}^2={(Cov(X,Z))^2\over Var(X)Var(Z)} = {(Cov(X,{5\over 9}(Y-32)))^2\over Var(X)Var({5\over 9}(Y-32))} = {({5\over 9}Cov(X,Y))^2\over Var(X)({5\over 9})^2Var(Y)} \\={(Cov(X,Y))^2\over Var(X)Var(Y)} =R_{XY}^2 \Rightarrow R^2不變,故選\bbox[red, 2pt]{(B)}$$

26. 當移動平均數( Moving Average) 的方法用在一時間數列的時候, 下列敘述何者錯誤?
(A)此方法可以用來觀察時間數列的長期趨勢( secular trend)
(B)此方法可以移除時間數列的不規則變動( irregular variation)
(C)當移動期數變大時, 時間數列的波動會變小
(D)此方法可以移除時間數列的季節變動( seasonal variation)


:$$移動平均數是跨季節的,與季節無關,故選\bbox[red,2pt]{(D)} $$





:$$2020年春天\Rightarrow t=10 代入迴歸估計\Rightarrow \hat y=98+6\times 10=158\\,再加上季節因素0.8 \Rightarrow 158\times 0.8= 126.4,故選\bbox[red,2pt]{(A)} $$

28. 下列的資料為某班級的考試分數, 分數的四分位距( interquartile range) 為何?
10, 31, 42, 46, 48, 55, 56, 58, 70, 75, 76, 77, 78, 80, 82, 83, 84
(A) 22  (B)32  (C)70  (D)77

$$\begin{array}{}序位&1& 2& 3& 4& 5& 6 & 7 & 8 & 9 & 10 & 11& 12 & 13& 14 & 15 & 16 & 17\\\hdashline 分數&10& 31& 42& 46& 48& 55& 56& 58& 70& 75& 76& 77& 78& 80& 82& 83& 84\end{array}\\ \cases{17\times 25\%=4.25 \\ 17\times 75\%=12.75} \Rightarrow \cases{Q_1=第5位數:48\\ Q_3=第13位數:78} \Rightarrow 四分位距=Q_3-Q_1=30,故選\bbox[red,2pt]{(B)} $$



$$ E(9X^2)=9\cdot (-1)^2\cdot f(-1)+ 9\cdot 0^2\cdot f(0)+ 9\cdot 1^2\cdot f(1) =9(f(-1)+f(1))\\ =18f(1)= 18\times {4\over 9} =8,故選\bbox[red,2pt]{(D)}$$

30. 假設手稿中的印刷錯誤數量是卜瓦松( Poisson) 分配, 某本 500 頁的手稿有 200 個印刷錯誤。 某頁完全沒有錯誤的機率為何?
(A)\(e^{-0.4}\)  (B)\(e^{0.4}\)  (C)0.4  (D)0.6

:$$ P(X=k)=f(k;\lambda)=\cfrac{\lambda^ke^{-\lambda}}{k!} \Rightarrow f(0,{200\over 500})= e^{-2\over 5}=e^{-0.4},故選\bbox[red,2pt]{(A)}$$

31. 一個調查欲研究全國成人玩線上遊戲是否超過四分之三, 用了 400 個成人為全國代表性樣本, 調查發現有 320 個成人玩線上遊戲, 檢定統計量為何?
(A)1.1547  (B)2.3094 (C)2.50  (D)3.1254


:$$z=\cfrac{\hat{p}-p}{\sqrt{p(1-p)}/\sqrt n} =\cfrac{320/400-3/4}{\sqrt{(3/4)(1/4)}/\sqrt{400}} ={4\over \sqrt 3} \approx 2.3094,故選\bbox[red,2pt]{(B)} $$

32. 某種統計認證的考試分數為常態分配, 平均數為 200 分, 母體標準差為 20 分。 隨機抽取 16 個分數取其平均, 這個平均分數大於 210 分的機率為何?
(A)0.9772  (B)0.6915  (C)0.3085  (D)0.0228

$$P(Z\gt {210-200\over 20/\sqrt{16}})=P(Z > 2) = 1-P(Z\le 2)=1-0.9772= 0.0228,故選\bbox[red,2pt]{(D)} $$

33. 假設母體呈常態分配, 平均數\(\mu\)未知。欲檢定\(H_0:\mu\le 100 \text{ vs. }H_a:\mu > 100\) ,顯著水準設為 0.01。 若將型二錯誤( type II error) 控制為 5%。 當虛無假設\(H_0\)為偽, 拒絕\(H_0\)的機率為何?
(A)001  (B)0.05  (C)0.95  (D)0.99

:$$當虛無假設H_0為偽, 拒絕H_0的機率=1-型二錯誤=1-0.05=0.95,故選\bbox[red,2pt]{(C)} $$

34. 一個青少年研究, 調查 400 個男生及 400 個女生( 男生及女生為獨立樣本) , 欲探討過去一年中,他們是否曾向父母撒謊。 其中 240 個男生及 200 個女生曾向父母撒謊。 若檢定 \(H_0:\) 男生跟女生曾向父母撒謊的比例沒有差異, 結論為何?
(A)若顯著水準(\(\alpha\))為 0.10, 拒絕 \(H_0\); 若顯著水準(\(\alpha\))為 0.05, 則不拒絕\( H_0\)
(B)若顯著水準(\(\alpha\))為 0.05, 拒絕 \(H_0\); 若顯著水準(\(\alpha\))為 0.025, 則不拒絕\( H_0\)
(C)若顯著水準(\(\alpha\))為 0.025, 拒絕 \(H_0\); 若顯著水準(\(\alpha\))為 0.01, 則不拒絕\( H_0\)
(D)若顯著水準(\(\alpha\))為 0.01, 拒絕 \(H_0\);


:$$ 已知\cases{男\cases{n_1=400\\ \hat{p_1}=240/400=3/5}\\ 女\cases{n_2=400\\\hat{p_2}=200/400=1/2}} \Rightarrow z=\cfrac{\hat{p_1} -\hat{p_2}}{\sqrt{\cfrac{\hat{p_1}(1-\hat{p_1})}{n_1}+\cfrac{\hat{p_2}(1-\hat{p_2})}{n_2}}} =\cfrac{3/5-1/2}{\cfrac{3/5\cdot 2/5}{400}+ \cfrac{1/2\cdot 1/2}{400}} \\ ={20\over 7} \approx 2.857 > 2.325=z_{0.01} \Rightarrow 拒絕H_0,故選\bbox[red,2pt]{(D)}$$

35. 承上題, 如果以卡方檢定( Chi-square) 檢定性別與是否曾向父母撒謊有無關聯性, 其檢定統計量為何?
(A)8.08   (B)8.16  (C)400  (D)1,600


:$$ \Rightarrow 觀察值O_i:\quad\begin{array}{c|cc|c} & 男 & 女 &小計\\\hline 說謊 & 240 & 200 &440\\\hdashline 不說謊 & 160 & 200 &360\\\hline 小計& 400 & 400 & 800\end{array} \\ 不分男女,向父母撒謊比率p={240+200 \over 400+400}={11\over 20}\\期望值E_i:\quad \begin{array}{c|cc|c} & 男 & 女 &小計\\\hline 說謊 & 400\times p=220 & 400\times p=220 &440\\\hdashline 不說謊 & 400-220=180 & 400-220=180 &360\\\hline 小計& 400 & 400 & 800\end{array} \\ \Rightarrow \chi^2 = \sum {(O_i-E_i)^2 \over E_i} ={(240-220)^2\over 220} +{(200-220)^2\over 220} +{(160-180)^2\over 180} +{(200-180)^2\over 180} \\ ={800\over 220} +{800\over 180} \approx 8.08,故選\bbox[red,2pt]{(A)} $$

36. 一般科幻小說平均 290 頁。 某出版社隨機選擇他們出版的 16 部小說, 其平均長度為 335 頁, 標準差為 48 頁。 欲檢定這出版社的小說是否明顯比一般科幻小說長, 根據以上資料, 得出結論為:
(A)若顯著水準(\(\alpha\))為 0.10, 拒絕 \(H_0\); 若顯著水準(\(\alpha\))為 0.05, 則不拒絕\( H_0\)
(B)若顯著水準(\(\alpha\))為 0.05, 拒絕 \(H_0\); 若顯著水準(\(\alpha\))為 0.025, 則不拒絕\( H_0\)
(C)若顯著水準(\(\alpha\))為 0.025, 拒絕 \(H_0\); 若顯著水準(\(\alpha\))為 0.01, 則不拒絕\( H_0\)
(D)若顯著水準(\(\alpha\))為 0.01, 拒絕 \(H_0\);


$$H_0:出版社的小說比一般科幻小說長\\檢定統計量t_{df=16-1}={335-290 \over 48/ \sqrt{16}} \Rightarrow t_{15}={15\over 4}=3.75\\查表知:3.75 > 3.733 (t_{df=15,\alpha=0.001}) \Rightarrow 拒絕H_0;\\也就是說無論\alpha=0.1,0.05,0.025,還是0.01,結果都是拒絕H_0,故選\bbox[red,2pt]{(D)} $$




:$$由該表可知 \hat y=2.8x-1.2,將x=6代入可得\hat y=2.8\times 6-1.2=15.6\\,因此殘差為y-\hat y=14-15.6=-1.6,故選\bbox[red,2pt]{(B)} $$註:本題的表格應該是EXCEL產生,其中標準誤所代表的涵意,請參考EXCEL的說明。

38. 一個資料中只有收入( 低、 中、 高) 及年齡群( 21 歲-30 歲、 31 歲-40 歲、 41 歲-50 歲、 51 歲-60 歲)兩個變數。 若要將收入、 年齡群及兩個變數的交互作用以虛擬變數放入迴歸模型當自變數, 會有幾個自變數?
(A) 7  (B) 9  (C) 11  (D) 12


:$$3\times 4-1=11,故選\bbox[red,2pt]{(C)} $$

 

$$由題意知\cases{北區(x_i):\bar x=33, s_x^2=24,n_x=5\\ 中區(y_i):\bar y=29, s_y^2=17.5,n_y=5\\ 南區(z_i):\bar z=28, s_z^2 =9.5, n_z=5\\} \Rightarrow 總平均\bar{\bar x} ={n_x\bar x+ n_y\bar y+ n_z\bar z\over n_x+n_y+ n_z} \\={5(33 +29+28)\over 15}=30 \\ \Rightarrow SS_B= n_x(\bar x-\bar{\bar x})^2 +n_y(\bar y-\bar{\bar x})^2 +n_z(\bar z-\bar{\bar x})^2 =5((33-30)^2 + (29-30)^2 +(28-30)^2)\\ =5(9+1+4) = 5\times 14=70,故選\bbox[red,2pt]{(D)} $$

40. 假設過去的資料顯示 60%的大學生喜歡 C 牌的可樂, 隨機抽取 5 名學生至少有 1 名學生喜歡 C 牌可樂的機率為何?
(A)0.07776   (B)0.2   (C)0.92224  (D)0.98976


:$$P(至少1名喜歡)=1-P(全部不喜歡)=1-(0.4)^5=0.98976,故選\bbox[red,2pt]{(D)} $$

解題僅供參考





沒有留言:

張貼留言