分佈域和四分位數間距
17.2 理解 分佈域 和 四分位數間距的概念 (Understanding the Concepts of Range and Inter-quartile Range)
17.2.1 分佈域 (Range)
分佈域係 “最大的數據 – 最細的數據 嘅結果”。
- 留意當中的“-”是“減”,不是“至”。
- 好多時我哋都會以為分佈域係“幾多至幾多”。
- 除此之外,分佈域亦是有單位的。
以上數據的分佈域
= 80 – 50
= 30 kg
留意分佈域只係講俾我哋知“最大同最細數據嘅差距”,但並唔一定可以準確咁指數據嘅分散程度。
- 例如A組數據有一萬個數據,當中有9999個10,一個10000。
- 咁A組嘅分佈域就 = 9990。
- 而B組數據都係有一萬個數據,當中有1000個10、1000個20…1000個100。
- 咁B組嘅分佈域就 = 100 – 10 = 90。
- 雖然A組嘅分佈域大好多,但到底邊一組數據分散D呢? 咁就真係見仁見智。
- 為咗可以再準確D知道數據嘅分佈,數學家就提出“四分位數間距”嘅槪念。
17.2.2 四分位數間距 (Inter-quartile Range)
四分位數間距入面嘅“四分”就係指
- 先將D數據先排好大細,然後喺25%、50%同75%度切落去。咁咪變咗做四份囉。
- 而“四分位數”就係25%、50%同75%嗰個位嘅數據嘅值(連單位),
- “四分位數”嘅記號係Q1,Q2,Q3。
- Q3 亦叫作上四分位數(upper-quartile)
- Q1 就叫作下四分位數(lower-quartile)
- 而Q2就係50%嘅數,亦即係“中位數”
根據定義, 四分位數間距 = Q3 – Q1
- 留意同分佈域一樣,如果D數據係有單位嘅,咁四分位數間距都要單位。
留意上面講咗要將D數據排列好(通常由細到大咁排)。
先把數據按大細排好:
1, 2, 3, 6, 7, 7, 8, 11, 100
因為有9個數,
- 咁第5個數 (7)就係喺中間,即 Q2 = 7
- 再考慮第1至第5個數, 中間嘅數係3,即 Q1 = 3
- 再考慮第5至第9個數, 中間嘅數係8,即 Q3 = 8
所以,四分位數間距 = 8 – 3 = 5
除自己排數字外,大家亦要識得由“頻數累積曲線圖”入面睇返嘅Q1,Q2,Q3嘅數值出嚟。
- 其實“頻數累積曲線圖”已經同我哋排咗D數據。所以可以好似下面嘅例子咁睇返D數值出嚟。