Ed Küpfer关于球员分类的研究成果
本文翻译自APBR论坛的一个讨论串,标题是"Clustering Players",作者Ed Küpfer是数据沉迷者,前几个月我曾翻译过他另一篇运用因子分析来归类球员的文章,看上去也蛮BT的。其实原作者和翻译者象大多数球迷一样都是统计学门外汉。
球员归类是一个冷门话题,我们更喜欢讨论球员能力高低之类的事情。之所以翻译这篇文章,主要还是被原作者孜孜不倦的研究精神所打动,毕竟翻译者在HC好歹也挂着一个虚名,自己写不出什么有价值的东西,只好去翻译一些真正达人的作品了,假如HC还有其他对数据分析感兴趣的朋友,那我也总算起到了一点广而告之的作用吧。——译者
==============================================
我的一大爱好就是依据球员的实际表现,对照他们的场上位置,来给他们进行分类。现代篮球比赛跟从前相比早就不是一回事了,我认为再用传统的五个位置来区分球员,意义不大。为了更贴合当今篮球比赛的实际状况,我们已经研究了很多更准确的数据来取代命中率之类的原始数据,我想我们同样应该有些更好的方法给球员进行分类。
最近我运用了聚类分析的手段来处理这个问题。聚类分析是统计学中一种常用的分析工具,它直接对给予的数据进行分类,而不需要考虑目标变量,它不需要研究各组自变量之间的特征,而是在聚类完成之后才去归纳类之间的异同。我不打算在这里详细解说聚类分析的数学原理,大家能理解聚类分析的逻辑意义便可,这并不难。
聚类分析有很多不同的运算方法,我这里简单地把它们分成两类:层次分析(HCA)与非层次分析(NHCA)。层次分析会返回一个树型结构图,这很有用。比如你把一个大家族的人口进行层次分析,它便会返回一张清晰的族谱,我们由该族谱便可以研究远亲之间的血缘距离。类似地,当我们把层次分析运用到球员分类上,以球员的各项数据作为输入量,我们也能得到一张关于球员类型的树状图。比如下面这张:

这张图仅依据了三种输入数据,所以得到的只是一个粗放的分类结果。这种方法还是很有用的,在以后我也许还会进行更多的层次分析。
目前我更想研究的其实是球员功能在其职业生涯中的变化。做这样的研究,需要考虑更多的数据。问题在于,假如我要输入从1978年起算所有球员的所有数据,层次聚类分析法的计算量将大到崩溃。幸运的是,统计学者发明了一些偷懒的法则来规避巨大的运算量,我把这些新的运算法称为非层次聚类分析,其中使用最广泛的一种方法称为K-MEANS(K最近邻法),“K”是一个值,即你指定电脑返回的分类组数。K-MEANS与层次聚类的区别在于,它不需要电脑自行给数据归类,而是由你来指定一个分类的规模。我不是很想运用这种偷懒的运算方法,因为实际上我并不了解球员的个人数据究竟应该分为多少个类别。
还好,还有别的方法。著名统计软件SPSS里有一种“二阶段聚类分析”,我并不太清楚所谓的“二阶段”是怎么个二阶段法,但这种运算方法自动并有效地解决了“应该分多少类别”的问题,使我的研究终于变得可行。
好吧,开始工作,以下是我使用到的输入数据:
HT:球员身高
WT:球员体重
2Att:平均每分钟两分球出手次数
3Att:平均每分钟三分球出手次数
FTA:平均每分钟罚球次数
PF:平均每分钟犯规次数
USAGE:进攻权重
OReb:进攻篮板比例
DReb:防守篮板比例
TO:犯规比例
AST:队友受助攻比例
BLK:对手被盖帽比例
STL:对手每次进攻(POSS)被断球比例
qAST:个人受助攻比例
以上所有数据均经过节奏调整(球队节奏/联盟平均节奏),如果球员单赛季曾效力多支球队则以球员该赛季平均数值乘以球员的上场时间计算。
聚类运算后,返回七种类别,我把这七种类别分别命名为:低位球员(Post Players),持球摇摆人(Driving Swingmen),人类胜利雪茄(Human Victory Cigars),杂鱼(Miscellaneous Role Players),防守专家(Defensive Specialists),后场控球手(Backcourt Ballhandlers),以及外线射手(Outside Shooters)。这些名称是我依据分类结果中各类别球员的特征而起的。
每一类别球员都有自己的“类别项”,比如说低位球员的类别项是:高防守篮板数,高两分命中率,高罚球次数,中等犯规数,中等失误数,中等助攻数,低三分次数……。具体如下:
低位球员
高: DReb, 2Att, FTA, WT, HT, USAGE, OReb, qAST, BLK
中: PF, TO, STL, AST
低: 3Att
Eddy Curry, Dirk Nowitzki, Drew Gooden, Stromile Swift, Juwan Howard, Zendon Hamilton, Rasheed Wallace, Patrick Ewing, Elton Brand, Lamar Odom等等。
以上十名球员即被归入了低位类,这也是最易分辨的一组分类。
持球摇摆人
高: 2Att, USAGE, FTA
中: STL, qAST, AST, 3Att, OReb, HT
低: DReb, WT, PF, BLK, TO
Lebron James, Jeryl Sasser, Allen Iverson, Ronald Murray, Ricky Davis, Richard Jefferson, James Cotton, Isiah Rider, Kobe Bryant, Ron Mercer等等。
你不会经常看到Jeryl Sasser的名字出现在AI旁边吧,但我想他们也许是一类人,能力有高低罢了。
人类胜利雪茄
高: PF, TO, STL, FTA, USAGE
中: OReb, qAST, 2Att, 3Att, HT, WT, DReb, BLK
低: AST
Lawrence Funderburke, Tim James, Rusty LaRue, Terry Mills, Jermaine Jackson, Rashard Lewis, Tierre Brown, Damone Brown, Jason Hart, Jerome James等等
这是最难以描述的一类球员,他们天差地别,什么样的都有,很难在逻辑上找到他们的共通之处。在本帖的末尾我绘制了一张球员类型地图,你会发现,其他类型的球员大多集中在一个区域里,而雪茄们则散布在地图的各个位置。他们有一个相似的地方,高出场场次对比低场均时间,这类球员的场均出场时间仅在5分钟左右,远低于第二低的类别(防守专家--15分钟),他们是些垃圾时间清扫员。必须指出的是“场均出场时间”并不是我选择的原始输入数据之一,电脑在毫不知情的情况下自动把他们分在了一类!这可以当作本次数据实验成功的一个小标志。
眼尖的话,你会反驳:Rashard Lewis怎么可能被归入“雪茄”类?!我的解释是,Lewis在99年加入联盟的那个赛季只打了145分钟,这影响了他的整体状况。如果我们对他做一个年度分析,则会得到这样的进化结果:雪茄-->杂鱼-->杂鱼-->射手-->摇摆人-->射手-->射手。
杂鱼
高: qAST
中: HT, OReb, WT, PF, DReb, STL, TO, BLK, 3Att, 2Att, FTA
低: USAGE, AST
Michael Curry, Marcus Haislip, Kenny Thomas, Detlef Schrempf, Jonathan Bender, Kevin Edwards, Robert Horry, Carlos Rogers, Ansu Sesay, Vincent Yarbrough等等
他们是一些角色球员,我把他们称为“杂鱼”是因为,他们在进攻端难有作为,但各项数据都达到了平均水平。与雪茄球员的区别在于,这些杂鱼广泛分布于五个传统意义的位置上。
以下是杂鱼或说角色球员在各传统位置上所占的比例:
PG 1%
G 5%
SG 6%
GF 16%
SF 14%
F 28%
PF 16%
FC 13%
C 2%
这些球员在赛场上比雪茄们要活跃得多,他们有自己的独到本领,虽然在我选择的数据中难以体现。
防守专家
高: WT, HT, BLK, DReb, OReb, PF, qAST
中: TO, FTA
低: USAGE, 3Att, AST, STL, 2Att
Charles Oakley, Jahidi White, Clarence Weatherspoon, Dennis Rodman, Hakeem Olajuwon, Jackson Vroman, Joe Kleine, Rasho Nesterovic, Maciej Lampe, Reggie Slater等等
对这类球员更准确的称呼应该是“防守巨人”因为他们大多是中锋和大前锋,篮板和犯规指标很高,没什么助攻,出手数也不多。Reggie Slater也算防守专家?……我喜欢《Saved By The Bell》里的Reggie Slater,但我确实对猛龙的Reggie没什么印象了。他有防守么?嗯,这个……
后场控球手
高: AST, STL, TO
中: 3Att, USAGE, FTA, 2Att
低: qAST, HT, WT, OReb, DReb, BLK, PF
Chris Childs, Kevin Ollie, Allen Iverson, Keyon Dooling, Charlie Ward, Will Avery, Speedy Claxton, Tony Parker, Mike James, Kenny Anderson等等
看后面的球员分布图就会知道,这些控球手们与另一类球员摇摆人紧挨在一块儿,主要由助攻和失误两项体现他们之间的差别。他们与传统的5位置分类法最接近,大多都是:控球后卫。
外线射手
高: 3Att
中: AST, STL, qAST, USAGE
低: OReb, 2Att, PF, DReb, BLK, FTA, HT, WT, TO
Bobby Phills, James Robinson, Glen Rice, Sean Elliott, Hubert Davis, Jim Jackson, Rasual Butler, Pat Garrity, Matt Bullard, Johnny Newman等等
这些球员的投篮次数最突出,其他大量的数据都在低水平。他们在传统位置中占的比例如下:
PG 12%
G 19%
SG 28%
GF 21%
SF 9%
F 8%
PF 2%
FC 1%
C 1%
*****************************************************
这些聚类可以用二维图形来表示,比如我很喜欢的ASCII图:

标号 标签
------ --------------------
1 低位球员(POST PLAYERS)
2 持球摇摆人(DRIVING SWINGMEN)
3 人类雪茄(HUMAN CIGARS)
4 杂鱼/角色球员(MISC ROLE PLAYERS)
5 防守专家(DEFENSIVE SPECIALISTS)
6 后场控球手(BACKCOURT BALLHANDLERS)
7 外线射手(OUTSIDE SHOOTERS)
图上的数字标号所在的位置是组别图形的质心。各类别球员的分区都比较明显,只有人类雪茄例外,他们分散在图形各个部分。
看下图才能了解他们的所在位置。(点击查看大图)

最后的几张图表现的是每项数据对各类球员的权重:













(完)
==============================================
原作者的研究很过瘾,但是,为球员归类有什么现实意义呢?我们直观地可以感觉到不同球员在场上发挥的不同作用,传统的5位置区分法确实不能具体描述我们直观的感觉,但我们有必要搞出一种复杂的方法去准确描述我们的感觉么?这样做又能有什么好处?
其实我翻译完全文也并不了解原作者分析结果的应用功效,只隐约觉得它或许有可能运用在一些方面,但我不肯定,也说不上来什么意义。
但是,也许这根本不重要,原作者运用数据分析发表长篇大论,也许并没有什么企图心,他之所以这样做,只是因为他喜欢这样做,他爱用数字来较劲。这就好比有的朋友喜欢写篮球散文,有的朋友喜欢与人争论,有的朋友喜欢灌水……写散文、争论、灌水又于篮球有什么好处呢?这些不过都是我们爱篮球的表达方式罢了,并不涉及什么“功利”和“意义”。有的人喜欢用文字来表达他们的爱,有的人喜欢用口水,也有的人喜欢用数字,我们大家并没有什么本质区别。爱篮球本来就应该是多样化的。
其实HOOPER来自社会各行各业,或者正在学校里学着各种不同的学科,大可不必把自己局限于传统的讨论。每个朋友都可以用自己的专业知识或者自己的兴趣所在去阐释我们的篮球运动。不仅仅是数据分析,还可以从教练组出发,讨论技战术的博弈,还可以从经济领域出发,讨论篮球经营之道,还可以从美学出发,讨论体育摄影之要素,还可以从法律出发,讨论球员合同的法律价值……等等等等,每个人都发挥自己所长,用自己与众不同的方式来热爱篮球,不也很有意思吗?