2019年11月14日 星期四

107年地方特考-五等-統計學大意詳解


107年特種考試地方政府公務人員考試
等別:五等考試
類科 :統計
科目:統計學大意
1.為了要決定某藥對疾病之醫療效果,對 23 位病人施予投藥,而對另外 23 位病人給予安慰劑。前述蒐集資料的方式,稱為:
(A) 觀察研究 (B) 實驗設計 (C) 模擬 (D) 調查

$$該方式區分實驗與對照,並經設計後施行,故選\bbox[red,2pt]{(B)}$$

2. 有一組樣本數為 1000 的資料且每個資料值皆不同,其中最小資料值應為-90,但被誤計為-99,而最大資料值應為 190,但被誤計為 199,則下列敘述何者正確?
(A) 用錯誤資料所得的中位數不是正確的
(B) 用錯誤資料所得的四分位距( interquartile range)不是正確的
(C) 正確的變異數應比用錯誤資料所得變異數小
(D) 正確的變異係數(coefficient of variation)應比用錯誤資料所得的變異係數大

$$原資料範圍為-90至190,錯誤資料範圍為-99至199,即正確的資料範圍較小,故選\bbox[red,2pt]{(C)}$$

3. 大眾運輸系統與汽機車為一般通勤者,由甲地至乙地上班之兩種交通工具。隨機各抽取 10 個通勤者,記錄其上班所需時間,時間以分鐘計。試分別計算此兩種交通工具所需時間的樣本平均數與樣本標準差為:

:$$\begin{cases}樣本平均數 \bar x=\sum x_i/n =320/10=32\\樣本標準差s_x= \sqrt{\frac{\sum(x_i-\bar x)^2}{(n-1)}}= \sqrt{\frac{\sum x_i^2-(\sum x_i)^2/n}{n-1}}= \sqrt{ \frac{10434-320^2/10}{9} }  = \frac{\sqrt{194}}{3}=4.64  \end{cases} \\ \begin{cases}樣本平均數 \bar y=\sum y_i/n =320/10=32\\樣本標準差s_y=  \sqrt{\frac{\sum y_i^2-(\sum y_i)^2/n}{n-1}}= \sqrt{ \frac{10270-320^2/10}{9} }  = \frac{\sqrt{30}}{3}=1.83  \end{cases} \\  \Rightarrow (32,4.64);(32,1.83),故選\bbox[red,2pt]{(C)} $$

4. 下列敘述何者正確?
(A) 當一組資料均為正偏時,平均數≦ 眾數≦ 中位數
(B) 若一組資料的平均數、眾數、中位數皆相等時,則變異數不為零
(C) 當一組資料均為負偏時,平均數≦ 中位數≦ 眾數
(D) 若一組資料的眾數、中位數及平均數愈大,則其全距也會愈大

負偏態:高峰在右,即平均數≦ 中位數≦ 眾數;
正偏態:高峰在左,即眾數≦ 中位數≦ 平均數;
正態:高峰在中間,即眾數= 中位數= 平均數;
故選\(\bbox[red,2pt]{(C)}\)

5. 某國家約有 36%之人為左撇子。隨機選出 225 人,其中是左撇子的比例之機率分配會趨近:
(A) 一致分配 (B) t 分配 (C) 指數分配 (D) 常態分配

:依中央極限定理(de Moivre - Laplace)二項分布的極限為常態分布,故選\(\bbox[red,2pt]{(D)}\)

6. 有一組資料,其平均值為 20 而其變異數為 36,則下列敘述何者正確?
(A) 約有 95%資料落在 8 至 32 之間
(B) 約有 95%資料落在 52 至 92 之間
(C) 至少有 75%資料落在 11 至 29 之間
(D) 至少有 75%資料落在 8 至 32 之間

$$該資料並非常態分布,僅能以柴比雪夫不等式來推估\\即P\left( |X-\mu|<k\sigma\right)\ge 1-\frac{1}{k^2} \Rightarrow P(|X-20|<2\times 6)\ge 1-\frac{1}{2^2} \\  \Rightarrow P(8<X<32)\ge \frac{3}{4}=75\%,故選\bbox[red,2pt]{(D)}$$

7. 下列何種方法非用來檢測資料是否來自近似常態分配?
(A) 計算 x ± s , x ± 2s ,及 x ± 3s 區間,落在各區間測量值百分比約各是 68%, 95%,與 99.7%
(B) 建構直方圖或莖葉圖,圖形應是一致(均勻)分配
(C) 求樣本內四分位距(IQR)與標準差(S),則 IQR / S ≈ 1.35
(D) 建立常態機率圖,資料點應大約落在一直線上

:$$均勻分配並非常態分配,故選\bbox[red,2pt]{(B)}$$

8. 某公司平均每 10 天會收到三個訂單。試求要至少 5 天之久,才會有下個訂單之機率?
(A) 0.2228 (B) 0.2229 (C) 0.2230 (D) 0.2231

10 天會收到三個訂單,平均每天會收到\(\lambda=3/10\)個訂單;
至少 5 天之久,才會有下個訂單,代表連續五天都沒有訂單;
由卜松分配可知: \(P(X=x)=e^{-\lambda}\lambda^x/x! \Rightarrow P(X=0)=e^{-\lambda}\);
五天都沒有訂單的機率:\(P^5(X=0)=e^{-5\lambda} = e^{-3/2}= 0.2231\)(查試題附表),故選\(\bbox[red,2pt]{(D)}\)。


9. 下表顯示隨機選取 12 位高風險借貸人,在上完兩年個人財務課程前後之信用分數。在 α=0.01 下,有足夠證據顯示財務課程有增加他們之信用分數?
(A) 不成對 t 檢定,拒絕上課無法增加信用分數
(B) 成對 t 檢定,拒絕上課無法增加信用分數
(C) 不成對 t 檢定,無法拒絕上課無法增加信用分數
(D) 成對 t 檢定,無法拒絕上課無法增加信用分數

$$由於檢定統計值>上臨界值,因此拒絕H_0:上課前後分數相等,故選\bbox[red,2pt]{(B)} $$

10. 已知出版公司員工人數服從平均值為 25 及標準差未知之常態分配。隨機選取 15 家出版公司,得員工數之樣本標準差為 3,則平均員工數大於 27 之機率?
(A) 介於 0.05 及 0.1 之間 (B) 介於 0.025 及 0.05 之間
(C) 介於 0.01 及 0.025 之間 (D) 介於 0.005 及 0.01 之間

$$P(X>27)=P\left(T> \frac{27-25}{3/ \sqrt{15} }\right)=P(T>2.582)\\ 查試題附表可知:   \begin{cases}t_{0.025}(14)=2.1448\\t_{0.01}(14)=2.6245\end{cases}  \Rightarrow t_{0.025}(14) <2.582<t_{0.01}(14)  \\\Rightarrow 0.01<P(T>2.582)<0.025,故選\bbox[red,2pt]{(C)}$$


11.自平均值為 17 與變異數是 36 之常態分配抽取 9 個隨機樣本,則樣本變異數介於 9.81 及 90.405 間之機率?
(A) 0.985 (B) 0.965 (C) 0.945 (D) 0.895
:$$由 \frac{(n-1)s^2}{\sigma^2} \sim \chi^2(n-1)推估:\\
P(9.81<s^2<90.405) =P\left( \frac{(9-1)\times 9.81}{36}<\frac{(9-1)\times s^2}{36}<\frac{(9-1)\times 90.405}{36}  \right) \\=P(2.18<\chi^2<20.09)\\
查試題附表(自由度=9-1=8)可得 \begin{cases}P(\chi^2>20.0902)=0.01 \\ P(\chi^2>2.1797)=0.975\end{cases} \\ \Rightarrow P(2.18<\chi^2<20.09)=0.975-0.01=0.965,故選\bbox[red,2pt]{(B)}$$


12. 請說明簡單迴歸分析中「判定係數( coefficient of determination)」之意義?其與相關係數間有何關係?
(A) 迴歸解釋的標準差占總標準差的比例;相關係數的平方等於判定係數
(B) 迴歸解釋的變異占總變異的比例;相關係數的平方等於判定係數
(C) 迴歸解釋的標準差占總標準差的比例;相關係數開根號等於判定係數
(D) 迴歸解釋的變異占總變異的比例;相關係數開根號等於判定係數
:$$由定義可知:\begin{cases}判定係數R^2 =  \frac{(Cov(X,y))^2}{Var(X)Var(Y)} \\ 相關係數\gamma = \frac{Cov(X,y)}{\sqrt{Var(X)}\sqrt{Var(Y)}} \end{cases}  \Rightarrow \gamma^2=R^2 ,故選\bbox[red,2pt]{(B)}$$

13. 一母體由正整數 1 至 N 所構成,且 N 為未知參數。若自此母體以抽出放回的方式抽樣 n 個數,其和為 S,則 N 的估計式為何?
(A) S/N (B) 2S/n-1 (C) (N+1)/2 (D) S(S+1)/2
:$$\begin{cases}母體平圴數\mu=(1+2+\cdots+N)\div N=(N+1)/2\\樣本平均數\overline{X}=S/n\end{cases}  \Rightarrow 由\overline{X}推估\mu,\\即 \frac{S}{n} = \frac{N+1}{2}  \Rightarrow N= \frac{2S}{n}-1 ,故選\bbox[red,2pt]{(B)}$$

14. 某一擲骰子遊戲,其規則為同時擲兩個骰子,若點數相同,則可獲得 95 元。若長期最終結果是不賺不賠,則每次玩此遊戲應付的金額是多少?
(A) 19 元 (B) 95 元 (C) 20 元 (D) 92 元
:$$ 點數相同的樣本空間S=\{(1,1),(2,2),(3,3),(4,4),(5,5),(6,6)\} \Rightarrow P(S)= \frac{6}{36}= \frac{1}{6} \\ 假設每次玩此遊戲需付x元,則期望值為95\times\frac{1}{6}-x\times \frac{5}{6}=0  \Rightarrow x=\frac{95}{5}=19,故選\bbox[red,2pt]{(A)}$$

15. 若 α = 0.05,欲檢定 H0: μ≦ 14 vs. H1: μ>14 ,而 n = 50, \(\bar x = 14.3\) 且 s = 1.2,求 p 值:
(A) 0.0384 (B) 0.1321 (C) 0.0128 (D) 0.0012
:$$t=\frac{14.3-14}{1.2/\sqrt{50-1}}= \frac{7}{4}=1.75\\ 查試題附表可得 \begin{cases}t_{50,0.05} = 1.6759\\ t_{50,0.025} = 2.0086\end{cases}  \Rightarrow 0.025<P(t>1.75)<0.05,故選\bbox[red,2pt]{(A)}$$

註:試題未附Z表,且t表僅有n=50,沒有n=49,僅能推估;

16. 100 人之隨機樣本中,有 80 人支持候選人甲,則候選人甲之支持率的 95%信賴區間為何?此時關於「候選人甲之支持率至少 90%」之說法是否可以成立?
(A) (0.722, 0.878);無法 (B) (0.762, 0.838);可以
(C) (78.04%, 81.96%);無法 (D) (62.469%, 97.531%);可以
:$$95\%信賴區間為\bar p\pm z_{\alpha/2}\times \sqrt{\frac{\bar p(1-\bar p)}{n}}=0.8\pm 1.96\times \sqrt{\frac{0.8(1-0.8)}{100}}= 0.8\pm 0.0784\\= (0.8-0.0784,0.8+0.0784)=(0.7216,0.8784);又0.9不在該區間內,故選\bbox[red,2pt]{(A)}$$

17. 有一組 25 位年齡 25 至 34 歲婦女體重之隨機樣本,其標準差為 28 磅。另外第二組有 41 位年齡 55至 64 歲婦女體重之隨機樣本,其標準差為 21 磅。試建立兩組體重變異數比例 \(\sigma_1^2/\sigma_2^2\) 之 95%信賴區間;並檢定兩組婦女體重之母體變異數是否相等?
(A) (0.837, 3.663);不相等 (B) (0.847, 3.753);相等
(C) (0.867, 3.843);不相等 (D) (0.887, 3.820);相等

題目有疑義,故\(\bbox[red,2pt]{(送分)}\)

18. 一石油公司在 A 地區從事鑽油探勘工作,根據先前經驗, A 地區有 50%的低品質油田, 20%的高品質油田, 30%沒有油的土地;除此之外,石油公司會檢測某種土壤是否存在,以提高挖到油的機會。已知在高品質油田中有 90%的機會有此種土壤,低品質油田中有 70%的機會有此種土壤,而沒有油的土地會有 30%的機會有此種土壤。如果此石油公司在 A 地區某塊土地檢測到此種土壤存在,請問此石油公司在這塊土地挖到油的機會為何?
(A) 約 70% (B) 約 85% (C) 約 55% (D) 約 95%
:$$A地區檢測到此土壤存在的機率P_A=0.5\times 0.7+0.2\times 0.9+0.3\times 0.3 =0.62\\
A地區檢測到此土壤存在且位於油田的機率P_B= 0.5\times 0.7+0.2\times 0.9 =0.53\\
挖到油的機率為P_B/P_A =0.53/0.62=0.8548\approx 85\%,故選\bbox[red, 2pt]{(B)}$$

19. 假若某警察於某區域每週取締違法攤販之次數服從 Poisson 分配,且平均每週三次,則該警察在某一週取締違法攤販超過五次的機率為何?
(A) 0.1847 (B) 0.1991 (C) 0.5438 (D) 0.6472
:$$P(X\ge 5)= 1-P(X\le 4)=1-\sum_{k=0}^4P(X=k) =1- 0.8153(查試題附表,\lambda=3)=0.1847\\,故選\bbox[red,2pt]{(A)}$$

註:  一般「超過五次」應該是\(P(X>5)=P(X\ge   6)\),若依此則無答案可選!!

20. 如果某一家電公司售出之 A 產品從新品到故障的時間服從一平均值 3 年且標準差 1 年的常態分配。該公司決定在一保固期內,售出之 A 產品如故障可退費。如果在保固期內故障之 A 產品占全部售出之 A 產品比例約為 2.5%,試問該公司設定之保固期約為多久?
(A) 0.5 年 (B) 1 年 (C) 1.5 年 (D) 2 年
:$$P(X\le x)= 2.5\% \Rightarrow P\left(Z\le  \frac{x-\mu}{\sigma}  \right) = P\left(Z\le  \frac{x-3}{1}  \right)=2.5\%=0.025\\ 由z_2=0.975 \Rightarrow z_{-2}=1-0.975=2.5\% \Rightarrow \frac{x-3}{1} =-2 \Rightarrow x=1,故選\bbox[red,2pt]{(B)}$$

21. 欲比較 4 種不同品牌的電池其平均壽命是否一致,每種品牌電池各取得樣本數為 10 的隨機樣本,以單因子變異數分析法( one-way ANOVA)來檢定這 4 種品牌電池平均壽命是否皆一致,得到下列變異數分析表( ANOVA table):


$$\begin{array}{|c|c|c|c|c|}\hline
source&DF & SS & MSS &F\\\hline
treatment&4-1=3 & 11700-10800=900 & 900\div 3=300 & 300\div 300=1\\\hline
error & 39-3=36 & 300\times 36=10800 & \color{blue}{300}\\\hline
total & 10\times 4-1=39 & \color{blue}{11700}\\\hline
\end{array}\\,故選\bbox[red,2pt]{(D)}$$

22. 關於連續型隨機變數( continuous random variable)Y 其機率密度函數( probability density function)g(x)及離散型隨機變數( discrete random variable) X 其機率函數( probability function) f(x)的敘述,下列何者正確?(假定 X 可能值是介於 0 至 10 的整數,而 Y 的可能值是介於 0 至 10 的任何數。)
(A) 如果0 ≤ x ≤ 10,則 0 ≤ f (x)≤1, 0 ≤ g(x)≤ 1
(B) 如果 X 與 Y 是不相關( uncorrelated),則 X 與 Y 彼此獨立
(C) P(X=3)=f (3)
(D) P(-5 ≤ Y ≤ 0)=g (0)
:$$(A)\times: 0\le x=3.6\le 10 \Rightarrow f(3.6)不存在\\(B)\times:不一定\\(C)\bigcirc:f(x)為離散型 \Rightarrow P(X=3)=f(3)\\(D)\times:g(y)為連續型,無個別機率值g(0)\\,故選\bbox[red,2pt]{(C)} $$註: 題目g(x)應為g(y)


:$$\begin{cases}y_i=1+(\beta-2)x_i+ \varepsilon _i\\ \hat{y_i}=1+(\beta-2)x_i \end{cases}  \Rightarrow  \varepsilon_i  =y_i-\hat y_i=y_i -1-(\beta-2)x_i\\ 令g(\beta)= \sum \varepsilon_i^2 =\sum \left( y_i -1-(\beta-2)x_i\right)^2 =\sum \left( y_i -1-\beta x_i+2x_i\right)^2 \\ \Rightarrow g'(\beta)=0 \Rightarrow 2\sum \left( (y_i -1-\beta x_i+2x_i)(-x_i) \right) =2\sum \left( -x_iy_i+x_i +\beta x_i^2-2x_i^2\right)=0\\  \Rightarrow \sum \beta x_i^2=\sum \left(x_iy_i-x_i+2x_i^2 \right) \Rightarrow  \beta = \frac{\sum x_iy_i -\sum x_i+2\sum x_i^2}{\sum x_i^2} = \frac{10-5+2\times 15}{15} \\ =  \frac{35}{15} = \frac{7}{3} ,故選\bbox[red,2pt]{(A)} $$

24. 某工業零件廠欲檢定其所生產零件規格是否符合客戶要求。假定其所生產零件規格服從常態分配,且利用 t 分配所得的信賴區間及檢定統計量來做關於零件長度規格平均值 μ 公分的統計推論。隨機抽檢 4 個零件,其所得的標準差為 2 公分,而 μ的 95%信賴區間為ሾ6.818,13.182ሿ,即在6.818 公分到13.182公分之間,下列敘述何者正確?
(A) 如果假設為 H0:μ=6 對 H1:μ≠6,則在 5%的顯著水準下,結論是不拒絕虛無假設H0
(B) 如果假設為 H0:μ=7 對 H1:μ≠7 ,則 t 統計量值為 10
(C) 如果假設為 H0:μ=10 對 H1:μ≠10 ,則 p 值( p-value)為 1
(D) 如果樣本數增加至 16,且這 16 個零件長度的標準差亦為 2 公分,則樣本數 16 所得 μ之 95%信賴區間寬度為原來樣本數 4 所得 μ之 95%信賴區間寬度的一半

$$95\%的信賴區間為[6.818,13.182]=[\bar x-1.96s,\bar x+1.96s]  \Rightarrow  \begin{cases}\bar x= 10 \\ s=2\end{cases} \\(C)H_0:\mu=10\Rightarrow \mu=\bar x,落在信賴區間的中心\Rightarrow p=1,故選\bbox[red,2pt]{(C)}$$



$$\hat y_i=\beta_0+\beta_1x_i  \Rightarrow \beta_1= \frac{s_{xy}}{s_{xx}} = \frac{\sum (x_i-\bar x_i)(y_i-\bar y_i)}{\sum (x_i-\bar x_i)^2}  = \frac{20}{10}=2 \\  \Rightarrow \beta_0= \bar y-\beta_1 \bar x= \bar y-2 \bar x  \Rightarrow \sum (\hat y_i-\bar y)^2 =\sum \left( \beta_0+\beta_1 x_i-\bar y\right)^2 \\ =\sum \left( \bar y-2\bar x +2x_i- \bar y\right)^2 = \sum \left( 2(x_i-\bar x)\right)^2 =4\sum (x_i-\bar x)^2= 4 \times 10=40 \\ 因此我們有以下ANOVA 表格:
\\\begin{array}{|c|c|c|c|c|}\hline
source&DF & SS & MSS &F\\\hline
\text{regression}&1 & \sum (\hat y_i-\bar y)^2=40 & 40 & 40\div 20=2\\\hline
error & 6-1=5 & \sum (y_i- \bar y)^2=140-40=100 & 100 \div 5 =20\\\hline
total & 7-1=6 & \sum (y_i-\bar y)^2 =140\\\hline
\end{array}\\,故選\bbox[red,2pt]{(C)}$$

26 某大型購物網站共賣出 10 件商品予兩位買家,甲、乙買家各買了 5 件。已知這 10 件商品中有 3 件商品內附加贈品,而其餘 7 件沒有。假定此網站出貨是隨機的,則甲買家拿到至少一件附加贈品的機會為何?
(A) 約 42% (B) 約 83% (C) 約 92% (D) 約 21%

假設10件商品的編號為\(1,2,\dots,10\),其中編號1,2,3的商品有附加贈品;
將10件商品排列,前5件商品給甲,後5件商品給乙,總排列數為10!;
前5件沒有編號1,2,3的可能排列數為\(P^7_5\),而每一個排列出現5!次,因此甲至少拿到1件贈品的機率為$$1-\frac{P^7_5\times 5!}{10!} =1-\frac{7!\times 5!}{2\times 10!}=1-\frac{1}{12}=0.917
,故選\bbox[red,2pt]{(C)}$$


:$$t^*_i={9\over 5}t+32 \Rightarrow  \begin{cases}\overline t^*= {9\over 5}\overline t+32\\ s^2_{t^*} = {81\over 25} s^2_t \\  s_{t^*} = {9\over 5} s_t\end{cases}
\\
(A) \times:  t^*_i 的變異係數 = \frac{s_{t^*}}{\overline t^*} = \frac{ {9\over 5} s_t}{{9\over 5}\overline t+32}  \ne  \frac{s_t}{\overline t} =t_i 的變異係數\\ (B)\times: s^2_{t^*} = {81\over 25} s^2_t\\ (C)\times: S_{xt^*} =Cov(X,T^*) = Cov(X, {9\over 5} T+32) = {9\over 5} Cov(X,T)+ Cov(X,32) = {9\over 5} Cov(X,T) \\ \qquad={9\over 5} S_{xt} s^2_t ={9\over 5} S_{xt}\\ (D)\bigcirc: t^*_1的Z分數= {t^*_1 -\overline t^* \over s_{t^*}} = {({9\over 5}t_1 +32 )-({9\over 5}\overline t+32) \over {9\over 5} s_t} = {{9\over 5}(t_1- \overline t ) \over {9\over 5} s_t} = {t_1- \overline t  \over  s_t} =  t_1的Z分數\\,故選\bbox[red,2pt]{(D)}$$



$$(C)\bigcirc: \begin{cases} s^2_X={1\over 9}\sum_{i=1}^{10} (x_i-\bar x)^2 \\ s^2_Y={1 \over 9}\sum_{i=1}^{10} (y_i-\bar y)^2\end{cases} \Rightarrow 母體變異數\sigma^2 的估計量為 {s^2_X+s^2_Y \over 2}\\= {1\over 18}\left(\sum_{i=1}^{10} (x_i-\bar x)^2+ \sum_{i=1}^{10} (y_i-\bar y)^2 \right),故選\bbox[red,2pt]{(C)}$$

29 若 X 服從成功機率為 1/2 的二項式分配( binomial distribution)。 Y 是另一隨機變數,其定義為當 X的值是偶數時, Y 的值為 1;而當 X 的值是奇數時, Y 的值為-1。下列敘述何者正確?
(A) 如果 n 是偶數,則 Y 的期望值( expected value)不為 0
(B) 如果 n 是奇數,則 Y 的期望值不為 0
(C) 如果 n 是奇數,則 Y 的變異數為 1
(D) X 與 Y 是正相關( positively correlated),即 X 與 Y 的共變異數( covariance)是正的

$$X\sim B(n,k)  \Rightarrow P(X=k)={n\choose k}p^k(1-p)^{n-k}= {n\choose k}{1\over 2^n}( \because p={1\over 2})\\
(A)\times: 令f(x)=(-x+1)^n = \sum_{k=0}^n {n\choose k}(-1)^kx^k \Rightarrow f(1)=  \sum_{k=0}^n {n \choose k}(-1)^k =0\\
\qquad\Rightarrow E(Y)= \sum yP(Y=y) = \sum \left\{1\cdot P(X=偶數) + (-1)\cdot P(X=奇數)\right\}  \\ \qquad = \sum_{k=0}^n  {n\choose k}(-1)^k{1\over 2^n} =0   \Rightarrow 無論n是偶數或奇數E(Y)=0\\(B)\times: 理由同(A)\\(C) \bigcirc: Var(Y)=\sum y^2P(Y=y) = \sum \left\{1^2\cdot P(X=偶數) + (-1)^2\cdot P(X=奇數)\right\}\\ \qquad= \sum_{k=0}^n  {n\choose k}{1\over 2^n} =\left( {1\over 2}+ {1\over 2}\right)^n=1 \Rightarrow Var(Y)=1\\ (D)\times:(X,Y)= \{(0,1), (1,-1),(2,1),(3,-1),\dots\}並不符合X越大則Y越大的條件\\,故選\bbox[red,2pt]{(C)}$$

30 針對某一假設的檢定方法,若 α 為型 I 錯誤( type I error)發生的機率而 β 為型 II 錯誤( type II error)發生的機率,下列敘述何者正確?
(A) α+β=1
(B) 一般常用的 t 檢定,其 β 的值與顯著水準無關;即當顯著水準改變時, β 的值還是不變
(C) 如果型 II 錯誤是一新型引擎比舊型引擎效能好,但被誤判為並沒有比較好,則虛無假設為新型引擎比舊型引擎效能好
(D) 若兩檢定方法 A 與 B 其型 I 錯誤發生的機率皆在顯著水準之內,但檢定方法 A 其型 II 錯誤發生的機率較低,則其檢定力( power of test)較高

$$只有(D)正確, 故選\bbox[red,2pt]{(D)}$$


:$$(B)\times:\beta_1\sim N(1,1) \Rightarrow P(|Z|\le 1.645)=0.9(查表z_{-1.645}=0.05) \\\Rightarrow 信賴區間=[\beta_1-1.645\times 1, \beta_1+ 1.645\times 1]=[-0.645,2.645],故選\bbox[red,2pt]{(B)}$$


:$$Y=\beta_0+\beta_1 X+\varepsilon \Rightarrow \text{Cov}(X,Y)= \text{Cov}(X,\beta_0+\beta_1 X+\varepsilon) \\= \beta_0\text{Cov}(X,1) +\beta_1\text{Cov}(X,X) +\text{Cov}(X,\varepsilon) =0+\beta_1 Var(X)+0  \Rightarrow\text{Cov}(X,Y)= \beta_1 Var(X) \\ 又相關係數\gamma= \frac{\text{Cov}(X,Y)}{\sqrt{Var(X)}\sqrt{Var(Y)}}=   \frac{\beta_1 Var(X)}{\sqrt{Var(X)}\sqrt{Var(Y)}} =   \frac{\beta_1 \sqrt{Var(X)}}{ \sqrt{Var(Y)}} \\ \Rightarrow \frac{ \sqrt{Var(X)}}{ \sqrt{Var(Y)}} =\frac{\gamma}{\beta_1}=\frac{ -0.8}{-1.6}=\frac{1}{2} \Rightarrow \sigma_Y=2\sigma_X,故選\bbox[red,2pt]{(D)}$$


:$$(A)\times: x=95 \Rightarrow z={95-80 \over 6}=2.5<3 \Rightarrow 不是離群值\\(B)\bigcirc: x=95 \Rightarrow z={95-82\over 2}=6.5>3 \Rightarrow 95在亞太是離群值,符合晉升標準\\(C) \times: P(52<x<88)= P\left({52-70\over 3}<z < {88-70 \over 3}\right) = P(-6<z<6) >> 95\% \\(D)\times: \begin{cases} 美洲CV={\sqrt{12.25} \over 85} = 0.041 \\ 歐洲CV={\sqrt{9} \over 70} = 0.043\end{cases} \Rightarrow 美洲CV < 歐洲CV\\,故選\bbox[red,2pt]{(B)}$$


:$$X\sim B(3, p=1/2) \Rightarrow P(X=k)= {3\choose k}{1\over 2^k}\cdot {1\over 2^{3-k}}= {3\choose k}{1\over 8} \\\Rightarrow 期望值 E_k= 800\times P(X=k) =100\times {3\choose k},k=0,1,2,3;\\ \Rightarrow \begin{array}{}\hline i& 0 & 1 & 2 & 3\\\hline 觀察值 O_i & 50 & 300 & 400 & 50\\ \hline 期望值E_i & 100\times {3\choose 0}=100 & 100\times {3\choose 1}=300 & 100\times {3\choose 2}=300 & 100\times {3\choose 3}=100 \\\hline\end{array}\\ \Rightarrow 卡方檢定統計量值為 \sum_{i=0}^3{(O_i-E_i)^2\over E_i}\\= {(50-100)^2\over 100} +{(300-300)^2\over 300} +{(400-300)^2\over 300} +{(50-100)^2\over 100} =25+0+{100\over 3} +25= {250\over 3}\\,故選\bbox[red,2pt]{(C)}$$


:$$P(|\overline{X}-\mu|\le 20)=0.95 \Rightarrow P(-20\le \overline{X}-\mu\le 20)=0.95  \Rightarrow P(-\frac{20}{\sigma/\sqrt{n}}\le \frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\le \frac{20}{\sigma/\sqrt{n}}) \\ = P(-\frac{20}{200/\sqrt{n}}\le Z\le \frac{20} {200/\sqrt{n}})=P(-\frac{\sqrt{n}}{10}\le Z\le \frac{\sqrt{n}} {10}) =0.95 \\ \Rightarrow \frac{\sqrt{n}} {10}=1.96 \Rightarrow n=19.6^2=384.16,故選\bbox[red, 2pt]{(C)}$$註:試題未附Z表,可改查T表,\(t_{400,0.025}\approx 1.96\)!!


:$$(A)\times:\sum f(x)=1 \Rightarrow \frac{k^2-8k+8}{4} +\frac{k}{2}+\frac{1}{4} = \frac{k^2-6k+9}{4}=1 \Rightarrow k^2-6k+5=0 \\\quad \Rightarrow k=1(\because \frac{k}{2}<1, k=5不合) \\(B)\times:  P(20\le X<30)= P(20) = \frac{k}{2} \ne \frac{2k+1}{4}\\(C)\bigcirc: \sum xP(X=k)= 10\times \frac{k^2-8k+8}{4} +20\times \frac{k}{2}+30\times \frac{1}{4} = 10\times \frac{1}{4} +20\times \frac{1}{2}+30\times \frac{1}{4} =20\\(D)\times: P(-10< X <10)=0 \\故選\bbox[red,2pt]{(C)}$$


:$$(A)\times:P((B_1\cup B_2)\cap A_1)=\frac{50+100}{300}=\frac{150}{300}  \neq \frac{150}{200}\\(B)\bigcirc:  \begin{cases}P(A_2)=\frac{10+50+40}{300}=\frac{1}{3}\\ P(B_2)= \frac{100+50}{300} =\frac{1}{2}\end{cases} \Rightarrow P(A_2\cap B_2)=\frac{50}{300} =\frac{1}{6}=P(A_2)\times P(B_2)\\(C)\times:P(A_2\cup B_2)=(10+50+40+100)/300=\frac{2}{3}\neq \frac{5}{6}\\(D)\times:P(B_1\mid A_1)=P(B_1\cap A_1)/P(A_1)=50/(50+100+50)=\frac{1}{4}\ne \frac{1}{6}\\,故選\bbox[red, 2pt]{(B)}$$


:$$總平均\bar {\bar x}=\frac{6\times( \bar x+\bar y +\bar z)}{18}= \frac{6(70+60+80)}{18}= 70 \\\Rightarrow SST = \sum_{i=1}^6(x_i-\bar{\bar x})^2 +\sum_{i=1}^6(y_i-\bar{\bar x})^2 +\sum_{i=1}^6(z_i-\bar{\bar x})^2 \\=\sum_{i=1}^6 x_i^2 +\sum_{i=1}^6 y_i^2 +\sum_{i=1}^6 z_i^2 -140\left(\sum_{i=1}^6 x_i +\sum_{i=1}^6 y_i +\sum_{i=1}^6 z_i \right)+3\sum_{i=1}^6\bar{\bar x}^2\\ =29900+22100+38900 -140(6\times 70+ 6\times 60+ 6\times 80)+3\times 6\times 70^2=2700\\
SSW=\sum_{i=1}^6(x_i-\bar x)^2 +\sum_{i=1}^6(y_i-\bar y)^2 +\sum_{i=1}^6(z_i-\bar z)^2 \\=\sum_{i=1}^6 x_i^2-(\sum_{i=1}^6 x_i)^2/6 + \sum_{i=1}^6 y_i^2-(\sum_{i=1}^6 y_i)^2/6 + \sum_{i=1}^6 z_i^2-(\sum_{i=1}^6 z_i)^2/6 \\ =29900-420^2/6 + 22100-360^2/6+ 38900-480^2/6= 1500\\ \Rightarrow SSB = SST-SSW = 2700-1500=1200\\ 因此有以下ANOVA 表格:
\\\begin{array}{}\hline
 source & SS & DF & MS & F\\\hline
組間 & 2700-1500=1200 &  3-1=2& 1200\div 2=\color{blue}{600} & 600\div 100=6\\
組內 & 1500 & 17-2=15& 1500\div 15=100 \\
總和 & 2700 & 18-1=17& \\\hline
\end{array}\\
由以上表格可知,只有(A)正確,即MSSB=1200\div 2=600 ,故選\bbox[red,2pt]{(A)}$$


:$$(B)\times:  有限母體\bar P的變異數應為{N-n\over N-1}\times {p(1-p) \over n},故選\bbox[red,2pt]{(B)}$$



$$(A)\times:\begin{cases} 第1份問卷支持率p_1=90/400 =9/40 \\ 第2份問卷支持率p_2= 360/1600 =9/40\end{cases}\Rightarrow p_1=p_2=p  \\\Rightarrow \begin{cases} 標準差\sigma_1= \sqrt{p(1-p)\over n_1} = \sqrt{p(1-p)\over 400} ={ \sqrt{p(1-p)}\over 20}\\標準差\sigma_2= \sqrt{p(1-p)\over n_2} = \sqrt{p(1-p)\over 1600} ={ \sqrt{p(1-p)}\over 40}\end{cases}\\ \Rightarrow \sigma_1 = 2\sigma_2 \Rightarrow 第1份問卷的信賴區間是第2份的兩倍\\(B)\times: 兩份問卷支持率相同,但標準差不同,所以p-\text{value }也不同\\(C)\times: z_{0.95} > z_{0.9} \Rightarrow 95\% 信賴區間> 90\%信賴區間\\(D)\bigcirc: \begin{cases}第1份問卷z_A={9/40-0.2 \over \sqrt{9/40(1-9/40) \over 400}}=1.197\\ 第2份問卷z_B={9/40-0.2 \over \sqrt{9/40(1-9/40) \over 1600}}= 2.395 \\ z_{0.025}=1.96\end{cases} \Rightarrow z_B > z_{0.025} > z_A\\,故選\bbox[red,2pt]{(D)}$$


沒有留言:

張貼留言