编辑
2023-10-27
mysql
00
请注意,本文编写于 561 天前,最后修改于 561 天前,其中某些信息可能已经过时。

目录

Sort-Based Group By
Hash-Based Group By
分布式数据库 Parallel Group By

Group By实现方式主要有以下两种

Sort-Based Group By

已排序为基础的Group by实现,缺点是数据集大了浪费时间,因为需要额外的排序时间。

Hash-Based Group By

以哈希表为基础的Group By,把相同的Tuple放进同一个桶,优点是快速,不需要额外的排序时间,但也不是完美,一般大数据集使用,小数据使用Sort-Based实现更快。当数据到了机器瓶颈,将会变得很慢,因为有数据换出到磁盘。当语句中含有Order By,将默认使用Sort Based Group By。

一般的关系型数据库,比如说Mysql,Oracle,两种都有实现,关键是权衡,什么时候该用哪种,比如Oracle当数据大于10G会使用Hash-Based Group By。

分布式数据库 Parallel Group By

实现原理大概参考MapReduce?那种。

原文链接https://www.modb.pro/db/622289

本文作者:yowayimono

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!