- API介绍
- API接口
- 定价


五数概括计算器
欢迎使用五数概括计算器,在这里您将有机会学习如何找到数据集五数概括的理论和实践。每当我们分析大量(但有限)的数据集并想了解其元素是如何分布的时候,这就是我们首先使用的工具。统计学中的五数概括比平均数能给您提供更多的信息。更重要的是,它允许您以整洁图表的形式呈现数据(别担心,我们也会解释这种所谓的箱线图)。
那么,五数概括到底是什么呢?让我们拿一杯热巧克力开始这段旅程,一起来了解吧!
什么是五数概括?
自COVID-19疫情开始以来,就业市场发生了很大变化,失业率大幅上升。假设您正在找工作,但在面试过程中,潜在雇主很不愿意告诉您薪水会是多少。相反,他们选择告诉您员工收入的平均值。这有什么帮助,与您将要赚取的薪水相差多远?
例如,假设一家公司雇佣了30个人,并说他们的平均薪水是每月4000美元。听起来不错,对吧?但后来发现您的第一张支票只有1500美元。怎么会与您听到的4000美元相差这么远?是因为税收还是什么?毕竟,那是平均值。
问题在于高层人员比底层员工赚得多得多。如果CEO坐在办公桌前就能赚30000美元,他们最亲密的两个同事赚15000美元,秘书泡咖啡得到7000美元,那么他们大大提高了公司的平均薪水。即使许多员工只赚1500美元,顶层的高薪仍然会大幅提升平均值,使他们能够真实地吹嘘平均薪水是4000美元。
那么什么是五数概括呢?它是处理这种差异的工具。它由五个数字组成(现在,这是个惊喜,不是吗?),这些数字与数据集的平均值完全不同。相反,它们告诉您(大致)数字在最小值和最大值之间是如何分布的。
五数概括公式
五数概括包含以下五个值(从小到大):
1. 最小值:数据集中最小的数字
2. 第一四分位数(Q1):较小一半的中位数
3. 中位数(Q2):所有值的中位数
4. 第三四分位数(Q3):较大一半的中位数
5. 最大值:数据集中最大的数字
具体计算公式:
• 最小值和最大值:将数据集按升序或降序排列。升序时,第一项是最小值,最后一项是最大值。
• 第一四分位数:取排列数据集的下半部分,计算下半部分的中位数。第一四分位数是数据集的25%。
• 中位数:如果数据集的总项数是奇数,中位数公式为中间项;如果总项数是偶数,中位数是中间两项的平均值。
• 第三四分位数:取排列数据集的上半部分,计算上半部分的中位数。第三四分位数是数据集的75%。
例如,上述例子中薪水统计的五数概括会告诉您,只有少数人接近30000美元的最高薪水,但有很多员工赚1500美元。
示例:使用五数概括计算器
假设您是一名高中老师,正在批改最近给学生的一次考试。您不太确定是否出得太容易或太难。让我们使用五数概括计算器来分析结果,好吗?
考试数据:
考试满分50分,成绩如下:
32, 21, 38, 12, 44, 42, 37, 36, 21, 9, 40, 33, 22, 25, 27, 29, 30, 48, 19, 17, 30, 22, 45, 42
排序后的数据:
9, 12, 17, 19, 21, 21, 22, 22, 25, 27, 29, 30, 30, 32, 33, 36, 37, 38, 40, 42, 42, 44, 45, 48
计算结果:
• 最小值:9
• 第一四分位数:21.5
• 中位数:30
• 第三四分位数:39
• 最大值:48
当然,大多数学生的得分略高于25分的中间值。这表明学生们不只是在选择答案前抛硬币。此外,中位数是30,所以超过一半的学生通过了考试。
箱线图解释
让我们再次研究上面部分的例子:一家向您提供工作的公司的薪水。假设您以某种方式以箱线图的形式获得了这些值的五数概括统计:
箱线图元素:
• 最小值是左侧水平线(须)的左端
• 第一四分位数、中位数和第三四分位数是矩形(箱)的三条连续线:左侧、中间线和右侧
• 最大值是右侧水平线(须)的右端
从箱线图可以观察到:
1. 最大值比大多数值大得多。这意味着CEO比普通员工赚得多得多。
2. 尽管最小值与中位数有一定距离,但赚取该金额的人不会太多。毕竟,从那里到第一四分位数,我们只代表所有值的四分之一。这表明虽然起薪可能很低,但加薪的可能性很高。
3. 箱子代表第一和第三四分位数之间的值,对应一半的条目。这大致说明了平均薪水的位置(箱子周围某处)以及它与最小值(起薪)的距离。
如何找到五数概括
假设您得到一个数字序列a₁, a₂, a₃,..., aₙ,为了简单起见,假设它们从最小到最大排序(否则,我们必须在进行下一步之前对它们进行排序)。
计算步骤:
1. 最小值 = a₁;最大值 = aₙ
2. 中位数:如果n是奇数,中位数等于中间项;如果n是偶数,取最接近中心的两个数字的平均值
3. 第一和第三四分位数:它们分别是所有条目的第一半和第二半的中位数
注意四分位数这个名称来自于它们分别定义第一个四分之一的结束和最后一个四分之一的开始。
例如,如果n = 8,那么第一四分位数是条目a₁, a₂, a₃, a₄的中位数,第三四分位数是条目a₅, a₆, a₇, a₈的中位数。但是,如果n是奇数,比如n = 7,那么它们分别是a₁, a₂, a₃, a₄和a₄, a₅, a₆, a₇的中位数(即中间数字在两个序列中重复)。
那么什么是五数概括呢?它就是这五个数字的集合:最小值、第一四分位数、中位数、第三四分位数和最大值。
常见问题
Q: 五数概括与平均数相比有什么优势?
五数概括提供了比平均数更多的信息。平均数容易受到极端值的影响,而五数概括显示了数据的分布情况,包括数据的范围、中心趋势和四分位数,能够更好地描述数据的整体特征,不会被异常值误导。
Q: 什么是箱线图?
箱线图是可视化五数概括的一种方式。它由一个矩形(箱子)和两条延伸线(须)组成。箱子的左边界是第一四分位数,中间线是中位数,右边界是第三四分位数。左须延伸到最小值,右须延伸到最大值。这种图表能够直观地显示数据的分布特征。
Q: 如何解释四分位数?
第一四分位数(Q1)表示25%的数据低于此值;中位数(Q2)表示50%的数据低于此值;第三四分位数(Q3)表示75%的数据低于此值。这些值将数据分成四个相等的部分,帮助我们理解数据在不同区间的分布情况。
参数名 | 参数类型 | 默认值 | 是否必传 | 描述 |
---|---|---|---|---|
dataSet | array | [32,21,38,12,44,42,37,36,21,9,40,33,22,25,27,29,30,48,19,17,30,22,45,42] | 否 | 需要计算五数概括的数值数组,至少包含1个数值 |
参数名 | 参数类型 | 默认值 | 描述 |
---|---|---|---|
median | number | 中位数(Q2),即50%分位数,所有数据的中间值 | |
firstQuartile | number | 第一四分位数(Q1),即25%分位数,下半部分数据的中位数 | |
thirdQuartile | number | 第三四分位数(Q3),即75%分位数,上半部分数据的中位数 | |
maximum | number | 数据集中的最大值 | |
minimum | number | 数据集中的最小值 | |
sortedDataSet | array | 按升序排列后的原始数据集 | |
dataCount | integer | 输入数据集中数值的总个数 |
错误码 | 错误信息 | 描述 |
---|---|---|
FP00000 | 成功 | |
FP03333 | 失败 |
参考上方对接示例