效果大小指标的Cohen's d和Hedges'g之间的差异

Question

Elpezmuerto

更多

资料来源非AMP版本编辑

效果大小指标的Cohen's d和Hedges'g之间的差异

对于效应大小分析，我注意到Cohen's d、Hedges's g和Hedges' g*之间存在差异。

这三个指标通常非常相似吗？
在什么情况下它们会产生不同的结果？
另外，我使用哪一个或报告哪一个是否是一个偏好的问题？

Valeriu

56173

已编辑的问题 8日十月 2021 в 7:05

Jeromy Anglim

已编辑的问题 19日八月 2010 в 8:02

机器学习和数据分析

effect-size cohens-d

18日八月 2010 в 5:35

1052 种观点

chl

资料来源非AMP版本编辑

根据我的理解，Hedges's g是Cohen's d（有集合SD）的一个更准确的版本，因为我们为小样本添加了一个校正因子。在不违反同方差假设的情况下，这两种测量方法通常是一致的，但我们可能会发现并非如此的情况，例如，见McGrath & Meyer, Psychological Methods 2006, 11（4）:386-401（pdf）。其他论文列在我的答复的最后。

我通常发现，在几乎所有的心理学或生物医学研究中，报告的都是Cohen's d；这可能来自于解释其大小的著名经验法则（Cohen, 1988）。我不知道最近有什么论文在考虑Hedges's g（或Cliff delta作为一种非参数替代）。布鲁斯-汤普森有一个修订版关于效应大小的APA部分。

在谷歌上搜索围绕效应大小测量的蒙特卡洛研究，我发现这篇论文可能很有趣（我只读了摘要和模拟设置）：效应大小的稳健置信区间。在非正态性和异质方差条件下对Cohen's d和Cliff's Delta的比较研究 (pdf)。

关于你的第二条评论，"MBESS "R软件包包括各种用于ES计算的工具（例如，"smd "和相关函数）。

其他参考资料

1.Zakzanis, K.K. (2001).统计学要讲真话，讲完整的真话，只讲真话：神经心理学研究者的效应大小分析的公式、说明性的数字例子和启发式的解释。临床神经心理学档案》, 16(7), 653-667.(pdf) 2.Durlak, J.A. (2009).如何选择、计算和解释效应大小。儿科心理学杂志》 (pdf)

Valeriu

56173

编辑本段答案8日十月 2021 в 7:04

8

0

FelixST

资料来源非AMP版本编辑

似乎当人们说起科恩的d时，他们大多是指。

$$d =\frac{bar{x}_1 - \bar{x}_2}{s}$$

其中$s$是集合的标准差。

$$s = \sqrt{frac{sum(x_1 - \bar{x}_1)^2 + (x_2 - \bar{x}_2)^2}{n_1 + n_2 - 2}}$$

还有其他集合标准差的估计方法，除了上述方法外，最常见的可能是。

$$s^* = sqrt{\frac{sum(x_1 - bar{x}_1)^2 + (x_2 - \bar{x}_2)^2}{n_1 + n_2}}$$

这里的符号明显不一致，但有时人们说$s^*$（即$n_1+n_2$版本）的版本被称为科恩的$d$，而将Hedge的$g$名称保留给使用$s$的版本（即用贝塞尔的修正，n1+n2-2版本）。这有点奇怪，因为Cohen在Hedges写到它们之前（Hedges, 1981）就已经概述了集合标准差的两种估计方法（例如，第67页的$s$版本，Cohen, 1977）。

其他时候，Hedge's g被保留下来，指的是Hedges开发的标准化平均差的任何一个偏差修正版本。Hedges (1981)表明Cohen's d是向上偏倚的（即它的预期值高于真实的人群参数值），特别是在小样本中，并提出了一个校正因子来校正Cohen's d的偏倚。

Hedges's g（无偏估计器）。

$g = d * (frac{\Gamma(df/2)}{sqrt{df/2 \,}, \Gamma((df-1)/2)})$ 其中$df = n_1 + n_2 -2$为独立组设计，$\Gamma$为伽马函数。 (最初是Hedges 1981，这个版本来自Hedges和Olkin 1985，第104页)

然而，这个修正系数在计算上相当复杂，所以Hedges还提供了一个计算上微不足道的近似值，虽然仍有轻微的偏差，但对于几乎所有可想而知的目的来说都很好。

Hedges的$g^*$（计算上微不足道的近似值）。

$$ g^ = d(1 - \frac{3}{4(df) - 1})$$ 其中$df = n_1 + n_2 -2$为独立组设计。

(原文来自Hedges, 1981, 本版本来自Borenstein, Hedges, Higgins, & Rothstein, 2011, p.27)

但是，至于人们说的Cohen's d vs. Hedges' g vs. g是什么意思？人们似乎把这三个估计器中的任何一个都称为Hedge's g或Cohen's d，可以互换，尽管我从未见过有人在非方法学/统计学研究论文中写"$g^$"。如果有人说 "无偏的Cohen's d"，你只能对后两个中的任何一个进行最好的猜测（我想甚至可能有另一个近似值也被用于Hedge's $g^*$！）。

如果$n>20$左右，它们几乎都是一样的，而且都可以用同样的方式来解释。就所有的实际目的而言，除非你处理的是非常小的样本量，否则你使用哪一个可能并不重要（尽管如果你可以选择，你不妨使用我称之为Hedges' g的那个，因为它是无偏的）。

参考资料：

Borenstein, M., Hedges, L. V., Higgins, J. P., & Rothstein, H. R. (2011). 元分析简介》。英国，西萨塞克斯。John Wiley & Sons。

Cohen, J. (1977). Statistical power analysis for the behavioral sciences (2nd ed.). Hillsdale, NJ, US: Lawrence Erlbaum Associates, Inc.

Hedges, L. V. (1981). Glass's Estimator of Effect size and Related Estimators的分布理论。教育统计学杂志》，6(2)，107-128. doi:10.3102/10769986006002107

Hedges L. V., Olkin I. (1985). 荟萃分析的统计方法。San Diego, CA: 学术出版社

Valeriu

56173

编辑本段答案8日十月 2021 в 7:04

5

0

joshoff

资料来源非AMP版本编辑

如果你像我一样，只是想了解赫奇斯的基本含义，你可能也会发现这很有帮助。

Hedges'g的大小可以用Cohen's（1988[2]）来解释。

惯例解释为小（0.2）、中（0.5）和大（0.8）。[1]

他们的定义简短而清晰。

Hedges's g是Cohen's d的一个变体，它修正了由于小样本量而产生的偏差（Hedges & Olkin, 1985）。[1]脚注

我希望统计学专家能编辑这篇文章，为小（0.2）中（0.5）和大（0.8）的说法添加任何重要的注意事项，以帮助非专业人士避免误解社会科学和心理学研究中使用的Hedges' g数字。

[1] http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2848393/ 基于正念的治疗对焦虑和抑郁的影响。一个元分析评论 Stefan G. Hofmann, Alice T. Sawyer, Ashley A. Witt, and Diana Oh. J Consult Clin Psychol.2010年4月; 78(2): 169-183. DOI: 10.1037/a0018555

[2] Cohen J. Statistical power analysis for the behavioral sciences.Erlbaum; Hillsdale, NJ: 1988 (cited in [1])

Valeriu

56173

编辑本段答案8日十月 2021 в 7:04

3

0

TimeTravel

资料来源非AMP版本编辑

其他网友已经谈到了g和d之间的异同问题。只想补充一点，一些学者确实觉得Cohen提供的效应大小值过于慷慨，导致对弱效应的过度解释。他们也没有与r挂钩，导致学者们可能会来回转换以获得更有利的可解释的效应大小。 Ferguson（2009年，《专业心理学：研究与实践》）建议使用以下值来解释g。

.41，作为 "实际意义 "的推荐最低值。 1.15，中度效果 2.70，强效果

这些显然更加严格/难以实现，没有多少社会科学实验会达到强效应......这可能是应该的。

Valeriu

56173

编辑本段答案8日十月 2021 в 7:04

1

0

user136666

资料来源非AMP版本编辑

布鲁斯-汤普森确实警告过把科恩的（0.2）当作小的（0.5）当作中等的，（0.8）当作大的。科恩从来没有想过要把这些作为僵硬的解释来使用。所有的效应大小都必须根据相关文献的背景进行解释。如果你在分析关于你的主题的相关效应大小，它们是（0.1）（0.3）（0.24），而你得出的效应是（0.4），那么这可能是 "大"。相反，如果所有相关文献的效果是（0.5）（0.6）（0.7），而你的效果是（0.4），这可能被认为是小的。我知道这是个微不足道的例子，但却非常重要。我相信汤普森曾经在一篇论文中说过，"我们只不过是用不同的尺度来衡量，是愚蠢的"，当时他把对效应大小的解释与社会科学家对P值的解释相比较。

Valeriu

56173

编辑本段答案8日十月 2021 в 7:03

0

Robert J. Grissom · Accepted Answer · 2010-08-19T20:52:10+00:00

Cohen's d和Hedges'g都是在假设人口变异相等的情况下汇集变异，但g是用每个样本的n-1而不是n来汇集，这提供了一个更好的估计，特别是样本量越小。 d和g都有一定的正向偏差，但对于中等或较大的样本量来说，偏差可以忽略不计。使用g*可以减少偏差。格拉斯的d并不假定方差相等，所以它使用对照组或基线比较组的sd作为两个平均值之间差异的标准器。

这些效应大小和Cliff's及其他非参数效应大小在我的书中有详细讨论。

Grissom, R. J., & Kim, J, J. (2005).研究的效应大小。A broad practical approach.Mahwah, NJ: Erlbaum.