注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

数据文化

数据分析和可视化探讨

 
 
 

日志

 
 

盒须图简介  

2010-09-18 04:02:12|  分类: 默认分类 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

盒须图(Boxplot)主要用于对数据分布的显示。对于详细数据的显示通常采用下面几种方法。

最简单的方法是把所有的数据显示在一个散点图上。读者可以直接观察数据点的分布。

盒须图简介 - datavis - 数据文化
 

但如果数据量很大,数据点就会大量的重叠。虽然可以采用一些方法来减少重叠的影响,比如抖动,半透明显示等措施,但当数据量达到一定规模之后,唯一可行的方式就是显示数据汇总之后的结果。

比如在上面的例子,我们显示了一组销售价格和年度的数据。如果我们想看看总体价格是在上升或者下降,最常用的方法就是显示每个年度的均价。

盒须图简介 - datavis - 数据文化
 

根据年度均价的显示,销售价格应该是一个下降的趋势。但是真实情况确实如此吗?在使用平均值的时候,有很多情况会引起对数据的曲解。比如房价,如果高价位的房降了10%,而中低价位的房涨了15%,得出的均价很可能显示一个下降的趋势。而大家的感觉却是房价在上涨。

盒须图在很大程度避免了这种问题。盒须图对每组数据显示了五个部分:

盒须图简介 - datavis - 数据文化
 

以从上到下的顺序:

1.     最大值(或减掉outlier之后的最大值)

2.     位于75%百分位的值

3.     中间值

4.     位于25%百分位的值

5.     最小值

如果我们不上面例子里的同样数据用Boxplot画出来,就可以看到一个完全不同的结果。

盒须图简介 - datavis - 数据文化
 

我们可以看到和2009年相比,2010年的最低价位到中高价位都有一个上升。但因为最高值有一个较大的下降,导致平均值有一个降低。但总体价位是一个上升的趋势。

  评论这张
 
阅读(3639)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017