查看原文
其他

学术观点|李德俊 、洪艳青:论语言研究中定量分析方法的常见错误

语言学通讯 语言学通讯 2021-03-17

点击蓝字关注我们


八万学者关注了语言学通讯


论语言研究中定量分析方法的常见错误

李德俊  洪艳青

  国际关系学院  

摘 要:由于定量分析的显著优点,再加上统计软件和语料库检索工具的推动,定量分析的方法在语言研究中正受到越来越多的重视,近年来出现了大量基于定量分析的研究论文和著作。但是,定量分析方法需要设计实验方案、搜集和整理数据、进行统计分析和检验等,对定量分析方法的误操作或对统计原理的误读都会产生谬误。本文列举了语言研究中定量分析的常见错误,分析其产生的缘由并提出了解决方案。文章特别指出,了解相关统计学知识是使用统计软件的前提,盲目使用统计软件是造成定量分析诸多错误的直接原因。

关键词:关键词:定量分析;语料库;假设检验;统计软件

作者简介::李德俊,博士,教授。研究方向:语料库语言学,双语词典学。洪艳青,硕士,副教授。研究方向:语言学。

学习文献:李德俊,洪艳青.论语言研究中定量分析方法的常见错误[J].外语研究,2012(03):7-13+112.    





1.引言

马克思说,科学只有当利用了数学的时候才达到了完善的程度。语言研究也不例外。由于定量分析 的科学性特征,近年来,它在语言研究的各相关领域都广为运用。在我国,基于统计数据的普通语言学、 心理语言学、外语教学、语言测试、翻译学和词典学等领域的研究论文也与日俱增。特别是在与语料库相 关的各类研究中,定量分析已成为不可或缺的核心组成部分。定量分析的优点毋容置疑,但定量的未必 就是科学的。科学的定量分析不仅需要满足不同类型的定量分析的条件,而且也要考虑不同研究领域的 特点和要求。从目前的研究论文,特别是博士生和硕士生提交的论文来看,定量分析被误用并不鲜见。本文拟从几个常见的定量分析误区出发讨论错误产生的原因,并提出纠错方案。



2.常见错误及解决方案

2.1比较类型不一致

为了分析《简·爱》汉语翻译文本的特征,研究者以该小说两个译本为语料自建了翻译文本语料库, 并将该语料库与汉语通用语料库进行了对比,然后得出句长信息如下表:

据此,研究者得出结论:汉语翻译文本的句子比非翻译文本即汉语原创文本的句子要长。这种对比方法显然是不合适的,因为句长至少与文体有关,将小说的翻译文本(语料库)与通用语料 库对比,得出的是小说(这里是翻译小说)这一特殊文本与通用文本之间的区别。如果要分析《简·爱》翻 译文本的特征,应该将其与汉语通用语料库中的小说文本进行对比;如果分析的重点是《简·爱》多种翻 译文本之间的区别特征,对比的重点是该小说不同译本的语料,同时参照小说文本的通用语料库来进行。

在对比研究中,有时需要考察某类词如模糊限制语( hedge ) 在不同语料中的使用频率。如果语料大小不一样,也是不能进行简单对比的,可以通过计算每百万字/词频数的方法来解决。

还有一种情况,假设要对比翻译文本之间的异同,还需要考虑不同译本基于的母本是否相同。如我 国的一些古典作品和典籍有不同的版本,版本间的差距足以对统计数据产生影响。如果不考虑母本的差 异,对比基于不同母本的英语译本会产生统计误差,在此基础上所做的分析往往也是不可靠的。

2.2类符/形符比的误区

类符/形符比( TTR , type/ token ratio) 常用来评估文本的词汇密度、词汇的变化等,是文本总体统计特征的重要参数,常用的语料库索引工具软件基本都有自动计算类符/形符比的功能。类符/形符比的计算非常简单,公式为:TTR=type÷token , 取百分数。如一篇文章的形符数是800 , 160 ,那么类符/形符比就是 20% 。类符/形符比与文本大小有直接的关系,随着文本大小的变化,形符(分母)会相应地变化,然而,类符( 分子)却不与形符(分母)的变化成正比例增减。一篇短文的类符/形符比可能会高达 60% , 然而对于一 个 100 万词次的语料库来说,类符/形符比可能就会降到 4% 。从理论上说,当语料到达一定规模之后,类 /形符比将只会受到形符数大小的影响。符数将趋于稳定,或者说类符数的变化将可忽略不计。这时,类符/形符比将只会受到形符数大小的影响。

综上所述,当比较两个大小不对等的文本时,简单使用类符/形符比会产生误差。解决这一问题的方 法是使用标准化类符/形符比( STTR , standard type/ token ratio ), 具体操作如下:   

1) 按一定的长度(比如 2000 词)切分待对比的文本,最后剩下的不足 2000词的小文本可以单独计算, 也可以放弃;

2) 逐个计算各切分小文本的类符/形符比;

3 ) 计算类符/形符比的平均值,即标准化类符/形符比。

有些语料库索引软件,如 wordsmith, 可以自动计算标准化类符/形符比,统计时注意区别类符/形符 比和标准化类符/形符比即可。

2.3平均数的问题

从目前已发表的语言研究论文来看,基于数据对比而得出结论的论文占有一定数量,但如果对比分析仅仅依靠算数平均数或总数,很多时候并不符合统计学的要求,也会因此得出错误的结论。下面举两例来讨论这个问题。

2.3.1 忽视极端数值

为了对比研究中国英语学习者与英语本族语者在口语中模糊限制语的使用情况,研究者使用了某中 国学习者英语口语语料库与 BNC( 英国国家语料库)中的口语语料库来进行对比研究。语料库检索得到 10 个最常用的模糊限制语统计数据如下:

研究者据上表得出结论:在口语中,中国学习者比英语为母语者使用更多的模糊限制语。从统计学的角度看,简单地依靠算术平均数来分析问题常常是不科学的。作为最常用的集中量数之 一,算术平均数易受到极端数值的影响。在英语口语语料库中,常用模糊限制语的使用频率全距为 42.7( 52.9 - 10.2 ), 中国学习者英语口语语料库中的全距是112.5( 120.3-7.8 )。全距相差过大表明两个样本的离散程度有很大差异,在这种情况下,算术平均数往往不可靠,通常需要考虑极端数值。比较上面的两个语料库,虽然中国学习者 10个常用模糊限制语的使用总数(或算术平均数)明显高于英语为母语者,但如同时也剔除英语口语语料库中相对应 果剔除中国学习者口语语料库中的两个极端数值 120.3和 100.8 , 的两个数值,剩下的 8个模糊限制语在中国学习者语料库中的总数为 171 ,在英语口语语料库中的总数为184 。这表明,轻易地得出中国学习者比英语为母语者使用更多的模糊限制语的结论是不恰当的。

如果要对比模糊限制语的总体使用情况,可以使用几何平均数。与算术平均数相比,几何平均数不 易受到极端数值的影响。几何平均数的计算公式如下:

公式说明:X1 , X2 … Xn 表示每一组数中的单个数值,将它们的乘积开N次方就是几何平均数。n 得出中国学习者模糊限制语的几何平均数是 英语为母语者模糊限制 用以上的公式进行计算, 24.51 , 语的几何平均数为 24.13 。结合前面极端数值的分析,可以最终得出结论:从总体上来看,中国学习者和 以英语为母语者在接受调查的和10个常用模糊限制语的使用频率上没有特别大的差异。其中, “ think ” “ can ” 是中国英语学习者使用最多的两个模糊限制语,使用度远高于操母语者,而在其他模糊限制语的使用上,操母语者的使用频数要略高于中国学习者。

2.3.2 以算术平均数(或总数)代替标准分

为了研究第二外语学习者与操母语者在常用副词使用方面的异同, 研究者通过检索学习者语料库与 英国国家语料库,得到了相关数据如下表(数据是每百万字语料中的常用副词使用频率) :




3. 余论:统计软件使用的误区

编者按


参考文献略,欢迎查阅《外语研究》2002年第3期纸质原文。

本文编辑:上海理工大学 孙雨

本文审核:吉林大学  王峰

公众号外联:我们优先推广免费的学术会议、讲座、研修等项目。收费项目与商务合作需支持劳务费,请联系dianzishu@126.com 商谈。

欢迎加入语言学通讯读者群,添加时请自报实名,单位和研究方向

语言学及应用语言学加群联系人:sflsy0803 孙老师

文学与翻译加群联系人:Nicole2397471433 李老师

 推 荐 阅 读 

学术会议 | “新媒体、自媒体时代的话语分析”学术研讨会 会议(2020年7月3-5日)

科研助力 | 香港中文大学的统计学课,他搬到了互联网上,文科生再也不愁学统计啦!

科研助力 | Bloomsbury出版社语言学书籍征订(中国官方代理)

科研助力 | 长江学者关于国家社科基金申报的建议

科研助力 | 国家社科基金项目10讲:从选题到结项

科研助力 | 怎样提高国家社科基金项目申报的中标率?

科研助力 | 如何提升文献检索能力?告诉你…

科研助力 | 王宁教授的方法课:30讲带你搞懂质性研究方法

科研助力 | 研究设计35讲重磅上线!浙江大学耿曙教授亲授

科研助力 | 加利福尼亚州立大学刀熊博士:7大实证研究方法逐个击破

期刊征订 | John Benjamins旗下语言学电子期刊征订(中国官方代理)

新著推荐 | 束定芳等:Cognitive Linguistics and the Study of Chinese

读书小札 |  迈克尔·图兰《短篇小说叙事进程:语料库文体学方法》

文学悦读| 从《百家讲坛》到《中国诗词大会》:再听中南大学杨雨教授谈论古诗词

文化解读 | 郑培凯教授:中国戏曲文化解读

科研助力| 如何理解政治?25部经典重识西方文明

文学悦读 | 诺奖作家写作时,我们也以某种方式参与其中?

文学研究 | 走近文学大师 :陈众议、陆建德等11位专攻学者权威解

八万学者关注了

语言学通讯

科研助力|学术观点|专著推荐|期刊动态|教师研修|招贤纳士|博士招生|读书小札

请留下你指尖的温度

让太阳拥抱你

记得这是一个有情怀的公众号


觉得内容还不错的话,给我点个“在看”呗


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存