3.3.5 Aggregation语句

3.3.5.1 简介

Cypher支持使用聚合(Aggregation)来计算聚在一起的数据,类似SQL中的group by。聚合函数有多个输入值,然后基于它们计算出一个聚合值。例如,avg函数计算多个数值的平均值。min函数用于找到一组值中最小的那个值。

聚合可以在匹配到的子图上进行计算。非聚合的表达式将值聚集起来,然后放入聚合函数。

以下面的返回语句为例:

这里有两个表达式:n和count()。前者n不是聚合函数,是一个分组键。后者count()是一个聚合函数。因此,根据不同的分组键(Grouping Key),匹配的子图将被分为不同的组。聚合函数将运行在这些组上来计算聚合值。

下面的例子对理解聚合很有帮助,该查询基于如图3-9所示的数据。

图3-9 查询例子的数据

查询:

在这个例子中,试图找到朋友的所有朋友并计算朋友的个数。第一个count(DISTINCT friend_of_friend)聚合函数中每个friend_of_friend只会计算一次,因为DISTINCT剔除了重复的部分。第二个聚合函数中,每个friend_of_friend会被计算多次。当没有使用DISTINCT时,因为B和C都认识D,因此D被计算了两次。

结果:

聚合图例如图3-10所示。

图3-10 聚合图例

3.3.5.2 count

count用于计算行的数量。count有两种使用方式:count(*)用于计算匹配的行数,而count(<expression>)用于计算<expression>中非空值的数量。

1.计算节点

计算节点的数量。例如:如果要计算连接到某个节点的节点数,可用count(*),示例如下。

查询:

结果将返回起始节点及与之相连节点的数量。

结果:

2.按组计算关系类型的数量

计算关系类型组中的数量,返回类型和数量。

查询:

结果将返回关系类型和关系组中的关系数量。

结果:

3.计算实体

除了通过count(*)计算结果的数量,还可以加入name值。

查询:

结果将返回与满足带有name属性值为A的节点相连的所有节点的数量。

结果:

4.计算非空值的数量

可以通过count(expression)来计算非空值的数量。

查询:

结果将返回property属性非空的所有节点。

结果:

3.3.5.3 统计

1.sum可以通过聚合函数sum计算所有值之和。计算的时候,空值将被丢弃。

查询:

结果将返回包含Person标签的所有节点的property属性值之和。

结果:

2.avg

avg计算数值列的平均值。

查询:

结果将返回property属性值的平均值。

结果:

3.percentileDisc

percentileDisc计算给定值在一个组中的百分位,取值从0.0~1.0。它使用舍入法,返回最接近百分位的值。对于插值法,请参考percentileCont函数。

查询:

结果:

4.percentileCont

percentileCont计算给定值在一个组中的百分位,百分位的值从0.0~1.0。它采用线性插值的方法,在两个值之间计算一个加权平均数。对于使用舍入法获取最近的值,请参考percentileDisc函数。

查询:

结果:

5.stdev

stdev计算给定值在一个组中的标准偏差。它采用标准的two-pass方法,以N-1作为分母。当以部分样本作为无偏估计时,应使用stdev;当计算整个样本的标准偏差时,应使用stdevp。

查询:

结果:

6.stdevp

stdevp计算给定值在一个组中的标准偏差。与stdev类似,区别如上所述。

查询:

结果:

7.max

max查找数值列中的最大值。

查询:

结果将返回property属性中的最大值。

结果:

8.min

min查找数值列中的最小值。

查询:

结果将返回property属性中的最小值。

结果:

3.3.5.4 collect

collect将所有的值收集起来放入一个列表,空值null将被忽略。

查询:

结果将以列表的形式返回收集到的值。

结果:

3.3.5.5 DISTINCT

所有的聚合函数都可以带有DISTINCT修饰符,它将去掉其中的重复值。因此,计算节点中不重复眼睛颜色数量的查询可以这样写:

查询:

结果: