17.7 探究不同情況 對數據的離差之影響 (Exploring the Effect of the Different Operations on the Dispersion of the Data)

探究不同情況 對數據的離差之影響 其實係講緊

  • 首先對一組現有數據進行不同的修改(即不同情況)
  • 之後睇吓數據嘅離差同原先的有何分別

當中”不同情況”包括:

  • 在數據中加入或剔除一項數據
  • 對所有數據一齊“加”或“減”同一個數值(其實“減”即係“加一個負數”)
  • 對所有數據一齊“乘”或“除”同一個數(其實“除”即係“乘一個細過1嘅數”)
  • 對所有數據又乘又加。

為方便探究不同情況對數據離差嘅影響,喺依節入面我哋首先當有一組由細排到大嘅數據喺度。

x1,x2,x3,x4,… Q1,… Q3,…… xn

  • 數據嘅分佈域 = xn – x1
  • 四分位數間距 = Q3 – Q1
  • 另設:
    • 平均數 = \(\bar{x}\)
    • 標準差 = \(\sigma\)

 

17.7.1  在數據中加入一項數據

當喺數據中加入一項數據嘅時候,我哋要留意嘅主要係數據排喺咩位度。

  • 除非新數據嘅值係大過原有“最大”或細過同“最細”嘅數據,否則分佈域唔會受到影響。
  • 而加入新數據後,四分位數嘅位置同值都可能有變。但一般嚟講,如果原有嘅數據量已經好多,咁多一個數據對四分位數唔會有明顯嘅影響。
  • 至於對標準差嘅影響,我哋要先睇返條公式:
    • 標準差 (standard deviation)
      \(\sigma=\sqrt{\dfrac{(x_{1}-\bar{x})^{2}+(x_{2}-\bar{x})^{2}+…+(x_{n}-\bar{x})^{2}}{n}} \)
    • 方差 (variance)
      \(s = \sigma^{2}= \dfrac{(x_{1}-\bar{x})^{2}+(x_{2}-\bar{x})^{2}+…+(x_{n}-\bar{x})^{2}}{n} \)
    • 如果“新數據同平均數嘅距離二次方”(即 )大過方差,咁新嘅方差同新嘅標準差就會大咗。
      • 唔明?仲記唔記得講過方差係“數據同平均數嘅距離二次方”嘅平均數?咁如果新嘅一個數係大過舊方差,咁新方差咪會大咗囉!

 

17.7.2 在數據中剔除一項數據

當喺數據中剔除一項數據嘅時候,我哋要留意嘅主要係數據排喺咩位度。

  • 除非剔除數據嘅值係唯一“最大”或“最細”嘅數據,否則分佈域唔會受到影響。
  • 而剔除一項數據後,四分位數嘅位置同值都可能有變。但一般嚟講,如果原有嘅數據量已經好多,咁少一個數據對四分位數唔會有明顯嘅影響。
  • 至於對標準差嘅影響,用返前面嘅推論方法。
    • 如果“剔除嘅數據同平均數嘅距離二次方”(即 )大過方差,咁新嘅方差同新嘅標準差就會細咗。(留意係細咗!)
      • 唔明?你諗吓如果喺咁多個 當中剔除一個較大嘅值,咁最後計返咁多個 嘅平均數(即方差)係咪會細咗!
      • 仲唔明? 咁你可以諗吓“有集中嘅數據同分散嘅數據喺一齊,咁如果我將較集中嘅數據剔除,咁D數據係咪會變得更分散”。

 

17.7.3 對數據的每一項加上一個共同常數

當所有數據都加同一個數值(例如a )嘅時候,數據會變成:

x1+a,x2+a,x3+a,x4+a,… Q1+a,… Q3+a,…… xn+a

  • 新數據嘅分佈域 = (xn+a) – (x1+a) = xn – x1
    • 即分佈域不變
  • 新數據嘅四分位數間距= (Q3+a) – (Q1+a) = Q3 – Q1
    • 即四分位數間距不變
  • 新數據嘅平均收 = \(\bar{x}+a\)
  • 至於標準差,我哋要先睇返條公式:
    \(\sigma=\sqrt{\dfrac{(x_{1}-\bar{x})^{2}+(x_{2}-\bar{x})^{2}+…+(x_{n}-\bar{x})^{2}}{n}} \)
    • 留意“每個數都 +a”,而“平均數亦 +a”,所以每個 \((x_{i}-\bar{x})\)嘅冇變到。
    • 因此標準差嘅值最終都有改變。

總結:

  • 將所有數據加同一個數係唔會改變數據組嘅分佈域、四分位數間距、標準差。
    • 其實咁都好合理。因為所有數據一齊郁,佢哋之間嘅“距離”都冇變,所以離差都唔會有變。

 

17.7.4 對數據的每一項乘以一個共同常數

當所有數據都乘同一個數值(例如b )嘅時候,數據會變成:

bx1,bx2,bx3,bx4,… bQ1,… bQ3,…… bxn

  • 新數據嘅分佈域 = bxn – bx1 = b(xn – x1) = b × 舊嘅分佈域
  • 新數據嘅四分位數間距= bQ3 – bQ1 = b(Q3 – Q1) = b × 舊嘅四分位數間距
  • 新數據嘅平均收 = b × 舊嘅平均數 = \(b\bar{x}\)
  • 至於標準差,由條公式我哋亦可推論出:
    • 新數據嘅標準差 = b × 舊嘅標準差

總結:

  • 將所有數據都乘同一個數值,新數據組嘅分佈域、四分位數間距、標準差亦要乘返同一個數值。
    • 大家可以咁樣去理解:當每個數據被倍大或者縮小嘅時候,數據間嘅距離(即離差)亦會被倍大或縮小。

 

17.7.5 對數據的每一項“又乘又加”

有關將數據又乘又加嘅影響,我哋可以咁睇。

  • 唔理你係“先乘b後加a”定“先加a後乘b”,其實效果都係“乘完b再加一個數”。
    • 咁係因為 b ( x + a) = bx + ab = bx + c
  • 而“乘完b再加一個數”當中只有“乘b”會對數據組離差有影響。
  • 根據前面所講嘅嘢,我哋可以推論出:
    • 新數據嘅分佈域 = b × 舊嘅分佈域
    • 新數據嘅四分位數間距= b × 舊嘅四分位數間距
    • 新數據嘅平均收 = \(b\bar{x} + 一個數\)
      • 上面嘅“一個數”係咩就要睇係“先乘b後加a”定“先加a後乘b”。
    • 新數據嘅標準差 = b × 舊嘅標準差