作者序

本书意在向考古学家们介绍统计学的基本原理和方法。这本书的撰写主要是基于我多年来为考古学本科生和研究生教授定量分析课程的经验。本书特别立足于考古学的学科背景,这不是因为书中处理的问题独属于考古学范畴,而是因为许多人发现在熟悉的学科背景中理解定量研究方法会更容易。相应的,以考古学背景和材料为基础,考古学家们可以轻松理解数据的性质和技术的应用。诚然,这些原理和方法的适用范围远不止于此。体质人类学家、文化人类学家、社会学家、心理学家、政治学家以及其他领域的专家同样在应用这些原理和方法。但是特定主题的组合、相对重点和在此给出的方法的确反映了我个人所认为的“对考古学专业数据分析有用的方法”。

我们一定都会注意到,考古学的信息在许多方面都是数字化的,考古分析也不可避免地包含有定量的成分。在将标准的统计方法应用于考古学问题时,人们或是采用简单直接的方式,或是使用一些少见的精妙方法,或是发明解决特殊难题的新技术。考古学定量分析著作的数量已是相当可观。其中一部分著作非常优秀,但另一些则停留在对统计学基本原理非常初步的理解上。还有一类文章试图对已发表作品进行分类评述。本书并不是以这样的方式进行评述或者批判,但部分内容是被这样的想法所驱使——我们需要对考古工作者进行必要的定量分析训练,但其结果只能说是喜忧参半。因此,本书一部分讨论的是定量数据分析在考古学中的应用,但更多则是在讨论定量数据分析怎样被应用到考古学中。本书坚持以基本原理为重点,并介绍它们如何能在考古学中得到有效运用。讨论统计学应用在数据分析时的差异,并且举例说明考古学家应如何将这些原理付诸实践,对考古学家来说,这些内容都很有吸引力。而我努力尝试着抵制这种吸引力,始终将重点放在统计学的基本原理上,并提供简短而清晰的解释。为了保持这一特点,本书正文中应用的案例和每章最后的练习题并非挑选自真实的考古数据,而都是编写出来的。我认为本书的读者对考古学都已经有了足够的了解,不需要我们再对柱洞、房屋居住面、刮削器或者陶片进行描述和配图——我们都知道“进行区域调查并测量53个遗址的面积”是什么意思。

无论是对于1920—1950年间发展出的“经典(classical)”统计学来说,还是对于之后产生的“探索性数据分析”学派而言,本书中使用的大多数技术都是相当标准的。本书的方法(更为重要的是本书所采用的一般态度)都来自于John W.Tukey以及他的同事和学生。他们是探索性数据分析(或可简称为EDA)的先驱。和其他统计学著作一样,本书正文中并未包含引用书目,但是文末有建议阅读的内容。本书倾向于采用EDA术语,尽管文中会经常提到同义的传统术语。为了让处于考古学背景下的解释更加易懂,我们一般不使用标准统计学术语。

考古学家(其他人也一样)有时对统计学保持着谨小慎微的态度,就好像是学生们遇见了学校里最严格的老师一样。统计学规则的基本原理看起来艰深晦涩,如果对其稍有违反,后果可能就像是被用戒尺打了手背一样。有些人责备考古学著作打破了统计学的神圣法则,这无疑更是强化了上文所言的态度。令许多人感到惊讶的是,很多统计学原则可能存在着多种相互矛盾的内容。与其他学科的从业者一样,统计学家们常常对什么是高效的方法和什么是合理的应用持有不同意见。使用统计技术通常需要进行主观判断。为了给此类判断提供可靠的依据,介绍性文本通常试图将其简化为明确的规则,而将真正的基本原则与一些主观判断的指导互相混淆了。

总之,统计学的规则并不是如摩西十诫一般不可违抗。本书公开提倡推翻某些文本中的规则(通过理性和常识,而非强制与暴力)。由于本书旨在对统计学原则进行介绍,所以对其他方法提出长篇大论的反对意见并不合适。然而,有一个问题至关重要,在此不得不提。在显著性检验时,本书并没有默守成规地遵循对 “零假设”拒绝或者无法拒绝这样的原则。在考古学中,绝大多数情况下需要指出这个零假设为正确的可能性有多大。这样的方法所提供的有效信息会更多。与其他著作不同,本书对零假设的严格构想也没有过分关注。关于显著性检验所用的方法和几个与抽样相关的问题,我依照的是George Cowgill的指导(见本书末尾的推荐阅读),尽管我并没有把他提出的那些十分周到且明智的建议全部付诸实践(正如他所言,这些实践的障碍是,很少有电脑统计程序会在输出结果中提供必需的信息)。对于那些认为显著性检验是建立在能否拒绝零假设的基础上的人们,我的建议是多去深入思考一下Cowgill的见解。

显著性检验方法表明,对总体、样本和抽样步骤的思考尤为重要。事实上,在很多情况下,仅靠样本推测总体要比显著性检验更有吸引力。正因如此,本书对样本和抽样的处理比介绍性的统计学书籍通常所交代的要详细得多。本书的第一部分选取了一些自身有趣且有效的方法来探索数组,而当数组是从更大的总体中抽取出来的样本时,这些方法的重要性则更为凸显。第二部分扩展了数组作为样本的概念,并对样本与总体相关的若干中心原则进行正面突击。第三部分则提出了一套相当标准的强度和关联显著性检验的基本方法,以及直接由抽样估算衍生出来的多种方法。第四部分回归到一系列关于抽样的问题上——这也是在考古学中特别重要的问题。这里的章节与第二部分有最直接的关系,但是它们被放到了后面,以免打断第二和第三部分观点间的稳步递进关系。最后,第五章试图对发现规律的多变量数据集的探索进行快速介绍。这使我们又回到了第一部分的重要内容——探索性数据分析的态度。

与其他大多数领域一样,考古学中定量的概念对于一些人来说非常简单,但对另一部分人来说却需要花费大量的精力来学习。人们对数学推理缺乏一种自然的倾向和意愿。这种缺乏往往会因为人们认为数学可以被忽略而得到加强——这种观念往往来自于“数学是一门神秘而专业的学科,对大多数人而言毫无用处”的言论。如果一个在其他方面受过良好教育的人能够承认自己的语言能力有限,只能识图而无法识字,那么即使他或她声称只能理解数学中的简单加减法,也不会招致他人的蔑视。

人们在数学方面拥有不同程度的天赋,这与人们在写作、踢足球或其他活动上拥有不同天赋的道理一样。然而,一些观点认为数学只是小学课程中的万恶之源,这就鼓励了那些认为定量推理很难的人去有意淡化它的重要性,并且极力避免学习能够对自己有帮助的定量技能。这又使欠缺数学教育的问题更加严重。因此,许多考古学研究生似乎只具备高中代数知识——我自己在大一的上学期也得到过同样糟糕的建议,我的指导老师不屑地取消了我本来打算修习的数学课,因为他认为这与我的兴趣无关。和我一样,很多学生也许是同样的受害者。

我希望这本书既能为天生擅长定量推理的人,也能为觉得数学很难甚至很可怕的人提供有效的考古学定量分析工具。向已经熟悉并擅长数学思维的人介绍统计学并非一件难事,我们只需要在正确的方向上推他们一把就足够了。然而,和本书一样的统计学类书籍所面临的长期挑战是,如何有效地向那些不擅长定量分析的人展示定量分析的方法和过程。正是出于对后一类人的特别关注,本书才选择了这种写作方法。这种方法中的一部分就是直接跳到本书所讨论的工具上,而不是通过一系列的铺垫。这种方法的重要性只有到了后面才会显现出来。对于这些“基础”,本书会在需要它们的地方尽可能简短地进行讨论。

所幸的是,用常识和常用语言来讲解基本的统计工具是可行的。这就可以让我们在讲述统计工具的使用机制时,能够真正理解这些工具的操作方式。统计工具在考古学中富有成效的使用,与其说是来自抽象的数学知识,不如说是来自对原理的坚实理解,并辅以常识和对所需的最终结果(即最终研究目标)的专注。需要强调的是,这本书从根本上讲是探讨相关工具(用于识别数字特征的工具),以及用其来评估我们在数据中识别到的特征能够在何种程度上精确、可靠地代表更广泛世界中的真实规律,这才是我们真正在意的结论。统计工具就好比木匠使用的工具一样,我们不需要完全知道这些工具是怎么被制作出来的,也可以熟练地使用它们。因此,我并没有试图说明统计方程如何通过数学逻辑从某些假设中被推导出来(这是一些统计书籍所采用的方法)。尽管抽象的数学语言非常强大而优雅,但对许多考古学家来说,它仍然是无法被完全理解的。我一直认为,避免使用抽象的数学方法对理解统计方法来说很有帮助。这对于那些一想到数学就害怕的人而言特别重要。

虽然学习使用台锯并不需要具备制造它的能力,但想要熟练使用它确实需要了解其工作原理。如果没有理解这些基本原则,我们将会犯错误,切割得不均匀,甚至偶尔会切到自己的手指,或者发生更糟糕的意外。同理,熟练地运用统计工具也需要真正理解它的基本原理。如果没有这样的理解,再精确的统计工具也只能产生粗糙的结果,并且会造成一些损伤(虽然不是皮肉的损伤)。

出于这种原因,我在写作时尽量避免使用应用统计学书籍中常见的“烹饪指南”式的写法。尤其是对那些害怕数学的人来说,像食谱一样简单的统计分析方法具有强烈的吸引力。它看似不需要耗费脑力劳动,不需要掌握晦涩难懂的概念,只要仔细遵循指示即可,但实际上这种方法只适用于那类以固定的格式且有规律地产生特定数据的学科。这种方式只能成功解决那些最常规的数据分析任务,但考古学的数据永远不是常规的。基于考古记录的特有性质和数据提取方式,其他很多学科从业者需要避免的数据获取方式,在考古数据中不可避免地被使用。处理如此混乱的数据就需要考古学家更好地掌握数据分析方法所蕴涵的基本原则,这远超于“烹饪指南”式的方法所提供的内容。

因此,本书试图寻求一种平衡。本书不只是简简单单地向读者提供统计工具的使用指导,但也并不会为读者提供完整的数学证明。我的目的是帮助读者充分理解统计工具背后的原理,以便在分析考古数据时熟练地加以使用。在本书的写作过程中,我脑海中的读者群体主要是刚开始学习考古数据分析的考古专业研究生或是本科生。我也曾经想在课程中使用已有的教材,但是我一直没有找到合适的现成教材,所以才自己进行编写。对那些想要提高和巩固统计工具运用能力的考古学家来说,无论他们是否参与学习过这门课程,我都希望这本书能对他们有所帮助。

这本书中讨论的统计工具绝非考古学家需要的全套工具。这些是基本的通用工具,除此之外还存在很多其他的专用工具。这里介绍的部分工具非常简单而且使用方便,它们只需要笔和纸,或是一个普通的计算器。其他一些则比较复杂,或许会涉及非常繁琐的计算。我认为严肃的考古数据分析工作理应在电脑的帮助下完成。在学习使用统计工具的过程中,最好也一并学习统计软件的使用。所以在本书中,对于如何手工计算复杂的统计数据,我省略了耗时且复杂的解释。虽然手工计算可以促进我们对一些技术的理解,但我们很快就会发现自己可能全神贯注于计算的原理,却分散了本该直接放在基本原理上的注意力。

本书中的很多结果和实例都是用SYSTAT生成的,其他可以使用的程序也有许多,此处无法全部将其列出。因为不同软件的选择余地实在太多(并且一直在改变),所以在书中包含统计软件的使用说明并没有意义。但我认为这本书应该和一些统计软件程序以及相应的手册一起使用,书中也包含了对这些统计软件的通用说明。

几乎所有统计软件都会涉及本书没有讨论到的选项和选择。一些软件的使用说明书为那些有兴趣了解更多知识的人提供了关于这些选项的解释及其所引用的参考书目,而另一些软件的说明中是没有这些内容的(这是选择数据分析软件时值得考量的一个因素)。如果我们可以偶然发现数据分析软件中的一些选项,也不失为拓展定量分析专长的有效方法。但它们也会使研究者的注意力从手头上的任务中转移开,让人们纠结于其他一些可以从事却并无必要的事情。专业的木匠不是先挑一件好看的工具,之后再去看哪里可以使用它。因此,熟练的数据分析者首先决定的应该是自己要做什么分析,然后再去决定使用铅笔、纸、计算器还是电脑等工具,并选择合适的工具完成手头的工作。复杂的计算和复杂的电脑软件操作都会转移人们的注意力,让人无法专心于工作的核心问题。就像许多运动中的老生常谈一样,在运用统计学时,我们也需要时刻提醒自己“把球盯紧”。

周南(Robert D.Drennan)

宾夕法尼亚州,匹兹堡