注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

数据文化

数据分析和可视化探讨

 
 
 

日志

 
 

数据点重叠处理  

2010-07-09 03:33:47|  分类: 默认分类 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

当数据通过散点图显示时,数据通常是不会做任何汇总的。这样我们可以看到数据点的发布,进而从中找到相互的关系。但当数据量大到一定程度,在数据点集中的部分,可能会出现大量的重叠,以至于读者将很难判断数据的真实分布情况。

在下图中,大量数据点集中在图表的左侧。因为它们互相重叠,读者没有办法判断在重叠的部分数据点的集中程度。

数据点重叠处理 - datavis - 数据文化
 

我们可以考虑几个方案。大部分的图表软件都支持对点的形状的控制。在数据量不是特别大的情况下,我们可以考虑把点的形状改变成只有边框而没有填充的状态。这样可以降低重叠的显示密度。从而减轻数据重叠所引起的辨别困难。

数据点重叠处理 - datavis - 数据文化
 

在点被改为圆圈后,我们可以看到数据的重叠程度以左下角最重。但因为数据量太大,在左下角部位我们仍不能很清楚地知道数据最集中的地方。

另外一个有效的处理方式是减小点的大小。因为点的大小减低后,重复显示的情况也得到了改善。

数据点重叠处理 - datavis - 数据文化
 

在重复严重的部位,我们可以看到更密集的小点。但是这两种方法都没有完全解决一个问题。如果有大量的点同时画在一个完全相同的地点,因为它们完全重叠,无论是通过改变形状,还是减小大小,这些点都会被画在一个点。读者完全没有办法发出一个点和多个点的差别。

在一些专业软件里,在点图里可以增加一个摇动的参数。就是在图表生成过程中,我们人为地加入一点随机的移动。那些完全落在同一地点的点,就被强迫散开一些。

下图是把点摇动后生成的。(因为数据关系,总体差别不大,但数据的集中更明显地向左下角偏移。)

数据点重叠处理 - datavis - 数据文化
 

这些方法之外,还有一个更简单的手段。如果图表软件支持,我们可以把点的颜色改为半透明。这样我们可以通过颜色的深浅判断重叠的程度。

数据点重叠处理 - datavis - 数据文化
 

(所有图表皆由StyleScope绘制)

  评论这张
 
阅读(418)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017