17.2 理解 分佈域 和 四分位數間距的概念 (Understanding the Concepts of Range and Inter-quartile Range)

17.2.1 分佈域 (Range)

分佈域係 “最大的數據 – 最細的數據 嘅結果”。

  • 留意當中的“-”是“減”,不是“至”。
    • 好多時我哋都會以為分佈域係“幾多至幾多”。
  • 除此之外,分佈域亦是有單位的。

留意分佈域只係講俾我哋知“最大同最細數據嘅差距”,但並唔一定可以準確咁指數據嘅分散程度。

  • 例如A組數據有一萬個數據,當中有9999個10,一個10000。
    • 咁A組嘅分佈域就 = 9990。
  • 而B組數據都係有一萬個數據,當中有1000個10、1000個20…1000個100。
    • 咁B組嘅分佈域就 = 100 – 10 = 90。
  • 雖然A組嘅分佈域大好多,但到底邊一組數據分散D呢? 咁就真係見仁見智。
    • 為咗可以再準確D知道數據嘅分佈,數學家就提出“四分位數間距”嘅槪念。

17.2.2 四分位數間距 (Inter-quartile Range)

 四分位數間距入面嘅“四分”就係指

  • 先將D數據先排好大細,然後喺25%、50%同75%度切落去。咁咪變咗做四份囉。
  • 而“四分位數”就係25%、50%同75%嗰個位嘅數據嘅值(連單位),
    • “四分位數”嘅記號係Q1,Q2,Q3
    • Q3 亦叫作上四分位數(upper-quartile)
    • Q1 就叫作下四分位數(lower-quartile)
    • 而Q2就係50%嘅數,亦即係“中位數”

根據定義, 四分位數間距 = Q3 – Q1

    • 留意同分佈域一樣,如果D數據係有單位嘅,咁四分位數間距都要單位。

留意上面講咗要將D數據排列好(通常由細到大咁排)。

先把數據按大細排好:

   1, 2, 3, 6, 7, 7, 8, 11, 100

因為有9個數,

  • 咁第5個數 (7)就係喺中間,即 Q2 = 7
  • 再考慮第1至第5個數, 中間嘅數係3,即 Q1 = 3
  • 再考慮第5至第9個數, 中間嘅數係8,即 Q3 = 8

所以,四分位數間距 = 8 – 3 = 5

除自己排數字外,大家亦要識得由“頻數累積曲線圖”入面睇返嘅Q1,Q2,Q3嘅數值出嚟。

  • 其實“頻數累積曲線圖”已經同我哋排咗D數據。所以可以好似下面嘅例子咁睇返D數值出嚟。
    從頻數累積曲線圖中看四分位間距