LIWC一种基于语词计量的文本分析工具.docx
- 文档编号:9919794
- 上传时间:2023-02-07
- 格式:DOCX
- 页数:16
- 大小:26.04KB
LIWC一种基于语词计量的文本分析工具.docx
《LIWC一种基于语词计量的文本分析工具.docx》由会员分享,可在线阅读,更多相关《LIWC一种基于语词计量的文本分析工具.docx(16页珍藏版)》请在冰豆网上搜索。
LIWC一种基于语词计量的文本分析工具
LIWC:
一种基于语词计量的文本分析工具
张信勇
【摘要】文本分析为心理学研究提供了探索人类心灵的新途径。
早期,心理学家们通过对梦、口误、心理投射测验的内容进行心理分析,后来陆续有研究者发明了文本分析方法,但这些方法要么评定过于主观,要么操作程序复杂。
从20世纪80年代起,Pennebaker等人在研究情绪书写的治疗效果时发明了基于计算机软件程序的文本分析工具———“语言探索与字词计数”(简称LIWC),一种可以对文本内容的词语类别(尤其是心理学类词语)进行量化分析的软件。
经过二十多年的发展,由于LIWC的良好信效度,该工具被心理学研究者广泛应用到各个方面。
但是,有关LIWC的中文文本研究却寥寥无几。
本文对LIWC的开发过程、中文版的修订及其应用研究做了详尽介绍,并对LIWC在中国的研究与应用提出了展望,以期为国内的文本分析研究提供参考。
【期刊名称】《西南民族大学学报(人文社科版)》
【年(卷),期】2015(000)004
【总页数】4页(P101-104)
【关键词】LIWC;文本分析;语词特征;梦;口误;心理投射;书写;心理治疗;软件应用
【作者】张信勇
【作者单位】广东外语外贸大学应用心理学系广东广州510006
【正文语种】中文
【中图分类】社会科学
【文献来源】
LIWC:
一种基于语词计量的文本分析工具张信勇[摘要]文本分析为心理学研究提供了探索人类心灵的新途径。
早期,心理学家们通过对梦、口误、心理投射测验的内容进行心理分析,后来陆续有研究者发明了文本分析方法,但这些方法要么评定过于主观,要么操作程序复杂。
从20世纪80年代起,Pennebaker等人在研究情绪书写的治疗效果时发明了基于计算机软件程序的文本分析工具———“语言探索与字词计数”(简称LIWC),一种可以对文本内容的词语类别(尤其是心理学类词语)进行量化分析的软件。
经过二十多年的发展,由于LIWC的良好信效度,该工具被心理学研究者广泛应用到各个方面。
但是,有关LIWC的中文文本研究却寥寥无几。
本文对LIWC的开发过程、中文版的修订及其应用研究做了详尽介绍,并对LIWC在中国的研究与应用提出了展望,以期为国内的文本分析研究提供参考。
[关键词]LIWC;文本分析;语词特征;梦;口误;心理投射;书写;心理治疗;软件应用中图分类号:
B841文献标识码:
A文章编号:
1004—3926(2015)04—0101—04基金项目:
2010年广东外语外贸大学校级重点文科基地招标项目“当代大学生面临的重大道德与心理问题研究”(299-X3510010)、2009年广东外语外贸大学校级青年项目“写作治疗在大学生心理咨询的应用研究”(299-X3209039)阶段性成果。
作者简介:
张信勇(1981-),男,湖北宜昌人;广东外语外贸大学应用心理学系讲师,心理学博士,研究方向:
临床与咨询心理学、职业心理学。
广东广州510006
一、文本分析发展简史日常生活中语词的使用,包括口语与文本,反映了个人的思考方式、内心状态甚至人格特征。
文本分析为心理学研究提供了一条探索人类心灵的新途径。
在很早以前,心理学家们就开始了文本的心理分析研究。
20世纪初,弗洛伊德认为,口误与梦境是一个人潜意识的反映,通过对口误与梦境分析可以了解个体的内在欲求或潜意识。
在临床心理学中常用的投射测验,如罗夏墨迹测验、主题统觉测验,让个体对模糊图形或模糊情境进行自由联想或说故事,并通过分析其联想与故事的语词特征,来窥探人类的想法、意图和动机[1]。
20世纪50年代,Gottschalk和他的同事设计了一种文本分析方法,他们要求被试接受五分钟的录音,然后评定谈话中短语反映其焦虑、敌意、人际关系等心理变量的程度,该方法后来被用于认知障碍、酗酒、脑损伤.精神障碍等精神病的诊断。
然而,无论是前述的精神分析方法、心理投射测验,还是Gottschalk的文本分析方法,他们的共同缺点在于评定者需要受过专业训练,而且其评分缺乏客观性[2]。
在计算机出现后,电脑程序可以大大提升文本分析的客观性及应用价值。
20世纪60、70年代,Stone等人用大型计算机设计了一套适用于任何开放式文本的复杂程序。
该电脑程序在区分精神障碍、评估人格维度、评价演讲方面非常有效。
但是,该方法的缺点是使用者不太容易掌握该程序[3]。
到了80年代,Weintraub发明了简单的文本分析方法,他通过手工统计政治演讲和医学访谈文本,发现单数第一人称代词的使用频率与人们抑郁的程度有关[4]。
从20世纪80年代开始,许多研究陆续发现情绪书写对于个体的生理与心理健康有所裨益[5]。
随后,研究者开始关注究竟书写的哪些特征可以反映书写效果的机制?
文本分析提供了最直接的线索,一般的文本分析往往需要数名评定者逐篇阅读文章并评分,不但耗费时间精力,且最常碰到的问题就是评分者信度不高[6]。
面对该问题,Pennebak-er等人于1990年开始着手进行语词计量分析的计算机程序开发,最终开发出“语言探索与字词计数”软件(LinguisticInquiryandWordCount,LIWC)[5]。
经过二十多年的发展,由于其良好信效度,LIWC被心理学研究者广泛应用到各个方面。
截止到2010年,己累计有数百篇已发表的相关研究[1],但中文文本的研究却寥寥无几。
本文对LIWC的开发过程、中文版的修订及其应用研究做了详尽介绍,并对LIWC在中国的研究与应用提出了展望,以期为国内的文本分析研究提供参考。
二、LIWC的发展历史
(一)LIWC的开发LIWC是一个旨在用电脑程序取代专业评分摘要]文本分析为心理学研究提供了探索人类心灵的新途径。
早期,心理学家们通过对梦、口误、心理投射测验的内容进行心理分析,后来陆续有研究者发明了文本分析方法,但这些方法要么评定过于主观,要么操作程序复杂。
从20世纪80年代起,Pennebaker等人在研究情绪书写的治疗效果时发明了基于计算机软件程序的文本分析工具———“语言探索与字词计数”(简称LIWC),一种可以对文本内容的词语类别(尤其是心理学类词语)进行量化分析的软件。
经过二十多年的发展,由于LIWC的良好信效度,该工具被心理学研究者广泛应用到各个方面。
但是,有关LIWC的中文文本研究却寥寥无几。
本文对LIWC的开发过程、中文版的修订及其应用研究做了详尽介绍,并对LIWC在中国的研究与应用提出了展望,以期为国内的文本分析研究提供参考。
(299-X3510010)、2009年广东外语外贸大学校级青年项目“写作治疗在大学生心理咨询的应用研究”(299-X3209039)日常生活中语词的使用,包括口语与文本,反映了个人的思考方式、内心状态甚至人格特征。
文本分析为心理学研究提供了一条探索人类心灵的新途径。
在很早以前,心理学家们就开始了文本的心理分析研究。
20世纪初,弗洛伊德认为,口误与梦境是一个人潜意识的反映,通过对口误与梦境分析可以了解个体的内在欲求或潜意识。
在临床心理学中常用的投射测验,如罗夏墨迹测验、主题统觉测验,让个体对模糊图形或模糊情境进行自由联想或说故事,并通过分析其联想与故事的语词特征,来窥探人类的想法、意图和动机[1]。
世纪50年代,Gottschalk和他的同事设计了一种文本分析方法,他们要求被试接受五分钟的录音,然后评定谈话中短语反映其焦虑、敌意、人际关系等心理变量的程度,该方法后来被用于认知障碍、酗酒、脑损伤.精神障碍等精神病的诊断。
然而,无论是前述的精神分析方法、心理投射测验,还是Gottschalk的文本分析方法,他们的共同缺点在于评定者需要受过专业训练,而且其评分缺乏客观性在计算机出现后,电脑程序可以大大提升文本分析的客观性及应用价值。
20世纪60、70年代,Stone等人用大型计算机设计了一套适用于任何开放式文本的复杂程序。
该电脑程序在区分精神障碍、评估人格维度、评价演讲方面非常有效。
[3]。
到了80年代,Weintraub发明了简单的文本分析方法,他通过手工统计政治演讲和医学访谈文本,发现单数第一人称代词的使用频率与人们抑郁的程度有关从20世纪80年代开始,许多研究陆续发现情绪书写对于个体的生理与心理健康有所裨益5]。
随后,研究者开始关注究竟书写的哪些特征可以反一般的文本分析往往需要数名评定者逐篇阅读文章并评分,不但耗费时间精力,且最常碰到的问题就是评分者信度不高6]。
面对该问题,Pennebak-等人于1990年开始着手进行语词计量分析的计算机程序开发,最终开发出“语言探索与字词计数”软件(LinguisticInquiryandWordCount,LIWC)经过二十多年的发展,由于其良好信效度,LIWC被1],但中文文本的研究却寥寥无几。
本文对LIWC的开发过一)LIWC的开发LIWC是一个旨在用电脑程序取代专业评分者来对各种文本进行分析的软件程序。
LIWC是自然语言处理技术(NatureLanguageProcessing,NLP)中的一种,它可以对文本内容进行量化分析并将导入的文本文件的不同类别的词语(尤其是心理学类词语)加以计算,如因果词、情绪词、认知词等心理词类在整个文本中的使用百分比[7]。
LI-WC经过十余年的发展、修改与扩充,日益稳定,历经LIWC、LIWC2001、至目前的LIWC2007[8]。
LI-WC主要包括两个部分:
程序主体和词典。
其中,核心为词典,词典定义了词语归属的类别名称以及字词列表,程序通过导入词典和文本将文本中的词语与词典进行一一比对,并输出各类词语的词频结果。
目前的LIWC包含4个一般描述性类别(总词数、每句词数、超过六字母字词、抓取率)、22个语言特性类别(如人称代词、助动词、连词、介词)、32个心理特性类别(如社会过程词、情感过程词、认知过程词、生理过程词等)、7个个人化类别(如工作、休闲、家庭、金钱等)、3个副语言学类如应和词、停顿赘词、填充赘词等)以及12个标点符号类别(如句号、逗号、冒号、分号等),总计拥有80个字词类别、约4500个字词[8]。
(二)LIWC的信效度检验LIWC作为一个测量语言心理特征的工具,必然需经信、效度的考验。
一般而言,自评式问卷在题目设计时,会就某个心理特征编制好几个不同情境或不同描述方式的题目,并假设这些题目均能够反映同样的心理特征,那么题目间一致性评价应该相当高,并据此计算内部一致性系数α,通常α要在0.7以上才能算是较好的内部一致性。
但是,语言的使用与自评问卷不相同,每一次书写或谈话,我们不会刻意交替使用同义词(比如,我们不会刻意交替使用“我”和“本人”,“自己”等同义词);在两次同主题的书写或谈话中,我们可能会让重点有所变化,而不太会使用相同的字词内容(如两次的自我介绍,如果内容都相同,可能反而会觉得太过刻板)。
因此,语言分析工具在内部一致性和信度的测量上无法按照一般问卷的标准来评判。
尽管如此,LIWC2007英文版的词典还是进行了内部一致性的检验。
所有类别的内部一致性在0.02到0.75之间,除了少数几个类别偏低外,多数类别的内部一致性都在可接受范围LIWC的效度检验主要是通过效标效度实现。
例如,抑郁症患者使用较多的负向词与较多的第一人称单数代名词[9]。
也有研究发现使用越多正向情绪词、中等程度的负向情绪词、以及逐渐增多的因果词与顿悟词,书写者的身体越健康[10]。
(三)LIWC中文版的修订台湾学者黄金兰等人[11]在LIWC创始人Pen-nebaker的授权下开始进行繁体中文版LIWC的修订,简称TC-LIWC,并将其研究成果及进展发布在网站上(具体请参见如下网址:
http:
//cliwc.weebly.com/)。
TC-LIWC是以LIWC2007词典作为蓝本,先删去不适用于中文特点的类别(例如冠词类、各种动词时态类别)、对保留下来的所有类别词逐一进行翻译并进行同义词的增添;之后再经过多次3-6人的研究小组讨论,逐字确认类别;同时参考台湾各词库与语词分类系统等,经由小组讨论共同决定加入一些中文特有类别(如数量单位词、语尾助词、时态指称词等),加入字词及逐字确认其所属类别;最后再进行断词确认,类别从属关系确认以及最后的整体再确认等步骤。
研究团队历时半年多经由上述步骤,以及信效度检验,完成了中文LIWC词典,其中包含了30个语言特性、42个心理特性共72个类别,共计6862个字词。
目前TC-LIWC对于一般的书写文本大约已有八成以上的检测率。
在TC-LIWC建立完成后,研究团队经过相关研究与更广泛的文本测试,又对TC-LIWC词典做了微幅修正,于2013年发布了TC-LIWC-v1.1版本。
考虑到中文的简繁体差别,黄金兰等人将TCLIWC经过三个步骤转换以建立SC-LIWC(具体请参见网站)。
首先,他们通过MicrosoftWord2010版本繁体中文转换为简体中文的功能将TC-LIWC直接进行转换。
其次,检查一繁对多简与一简对多繁的问题。
最后,再根据两地用语差异对照表进行比对与转换。
经此三步骤建立简体中文版的LIWC词典。
SC-LIWC维持TC-LIWC的类别架构与词典内容,保有原始71个类别,共计有7444个词汇。
研究结果表明SC_LIWC对简体文本的检测率已与繁体版对繁体文本的检测率相当。
三、LIWC的应用:
语词分析与心理特征
(一)语词特征与注意力、思维过程、情绪情感虚词(或称功能词),比如人称代词,揭示了人们的注意对象。
正在经历身体或情感痛苦的人们倾向于注意自己,因此将使用更多单数第一人称代词[9]。
动词时态也可以反应人们的注意焦点,对政治广告的研究发现,正面的政治广告中有更多的现在时态或将来时态,负面的政治广告中有更多过去时态[12]。
从动词时态和人称代词的使用上,我们可以推测出负面政治广告的候选人把注意焦点放在竞争对手过去的所作所为上,而正面政治广告的候选人把注意焦点放在自己现在和将来计划的行为上。
无论是口语或是书写文本,都是一种自然语201《西南民族大学学报》(人文社会科学版)2015年第4期者来对各种文本进行分析的软件程序。
LIWC是自然语言处理技术(NatureLanguageProcessing,NLP)中的一种,它可以对文本内容进行量化分析并将导入的文本文件的不同类别的词语(尤其是心理学类词语)加以计算,如因果词、情绪词、认知词等心理词类在整个文本中的使用百分比[7]。
LI-WC主要包括两个部分:
程序主体和词典。
其中,核心为词典,词典定义了词语归属的类别名称以及字词列表,程序通过导入词典和文本将文本中的词语与词典进行一一比对,并输出各类词语的词频结果。
目前的LIWC包含4个一般描述性类词)、32个心理特性类别(如社会过程词、情感过如应和词、停顿赘词、填充赘词等)以及12个标点符号类别(如句号、逗号、冒号、分号等),总计拥有80个字词类别、约4500个字词二)LIWC的信效度检验LIWC作为一个测量语言心理特征的工具,必然需经信、效度的考验。
一般而言,自评式问卷在题目设计时,会就某个心理特征编制好几个不同情境或不同描述方式的题目,并假设这些题目均能够反映同样的心理特征,那么题目间一致性评价应该相当高,并据此计算内部一致性系数α,通常要在0.7以上才能算是较好的内部一致性。
但是,语言的使用与自评问卷不相同,每一次书写或谈话,我们不会刻意交替使用同义词(比如,我们不会刻意交替使用“我”和“本人”,“自己”等同义词);在两次同主题的书写或谈话中,我们可能会让重点有所变化,而不太会使用相同的字词内容(如两次的自我介绍,如果内容都相同,可能反而会觉得太过刻板)。
因此,语言分析工具在内部一致性和信度的测量上无法按照一般问卷的标准来评判。
尽管如此,LIWC2007英文版的词典还是进行了内部一致性的检验。
所有类别的内部一致性在0.02到0.75之间,除了少数几个类别偏低外,LIWC的效度检验主要是通过效标效度实现。
例如,抑郁症患者使用较多的负向词与较多的第一人称单数代名词向情绪词、中等程度的负向情绪词、以及逐渐增多的因果词与顿悟词,书写者的身体越健康[10]。
三)LIWC中文版的修订简称TC-LIWC,并将其研究成果及进展发布在网站上(具体请参见如下网址:
http:
//cliwc.weebly.com/)。
TC-LIWC是以LIWC2007词典作为蓝本,先删去不适用于中文特点的类别(例如冠词类、各种动词时态类别)、对保留下来的所有类别词逐一进行翻译并进行同义词的增添;之后再经过多次3-6人的研究小组讨论,逐字确认类别;同时参考台湾各词库与语词分类系统等,经由小组讨论共同决定加入一些中文特有类别(如数量单位词、语尾助词、时态指称词等),加入字词及逐字确认其所属类别;最后再进行断词确认,类别从属关系确认以及最后的整体再确认等步骤。
研究团队历时半年多经由上述步骤,以及信效度检完成了中文LIWC词典,其中包含了30个语言特性、42个心理特性共72个类别,共计6862个字词。
目前TC-LIWC对于一般的书写文本大约已有八成以上的检测率。
在TC-LIWC建立完成后,研究团队经过相关研究与更广泛的文本测试,又对TC-LIWC词典做了微幅修正,于2013年发布了TC-LIWC-v1.1版本。
体请参见网站)。
首先,他们通过Microsoft将TCLIWC直接进行转换。
其次,检查一繁对多简与一简对多繁的问题。
最后,再根据两地用语差异对照表进行比对与转换。
经此三步骤建立简体中文版的LIWC词典。
SC-LIWC维持TC-LIWC的类别架构与词典内容,保有原始71个类别,共计有7444个词汇。
研究结果表明SC_LIWC对简体文本的检测率已与繁体版对繁体文本的检测率相当。
语词特征与注意力、思维过程、情绪情感虚词(或称功能词),比如人称代词,揭示了人们的注意对象。
正在经历身体或情感痛苦的人们倾向于注意自己,因此将使用更多单数第一人称代词[9]。
动词时态也可以反应人们的注意焦点,对政治广告的研究发现,正面的政治广告中有更多的现在时态或将来时态,负面的政治广告中有更多过去时态我们可以推测出负面政治广告的候选人把注意焦点放在竞争对手过去的所作所为上,而正面政治广告的候选人把注意焦点放在自己现在和将来计划的行为上。
20《西南民族大学学报》(人文社会科学版)2015年第4期言,它提供了关于人们如何加工和解释信息、如何应对环境的重要线索。
因果词(如使得、变成)和洞察词(如了解、体会)的使用,可以反映人们对事件进行重新评价的过程。
在对个人遭遇的创伤经历进行写作时,个体由于激活了对该事件的加工,所以使用更多因果词和洞察词。
正是这种反省过程,使得个体对事件进行了重新解释从而改善了健康水平[1]。
当人们对主题不确定时,他们更多使用暂定词(如大概、差不多);被试叙述曾经谈论过的事情时,使用更少的暂定词[13];而谈论未曾与人提及的事情时,使用更多暂定词,因为他们必须反复回忆过去的内容并进行对照[14]。
研究者发现LIWC可以精确识别语言使用中的情感。
例如,在写作积极经历时,个体更多使用积极情绪词;而写作消极事件或创伤经历时,更多的出现负面情绪词。
同时,情绪词的使用也被用作评价个体书写投入程度的指标。
比如,遭遇家庭暴力的女性在书写中使用更多情绪词来描述暴力事件,说明她们沉浸于创伤事件,从而导致对身体疼痛的感知增加
(二)语词特征与社会关系语词特征可以反映个体的社会地位。
地位低的个体在语言中更多使用单数第一人称和暂定词。
比如,对模拟飞行实验的研究中发现,职位较低的机组成员(如第二副机长),比职位较高的机组成员(如第一副机长)使用更多模棱两可的词语。
而且,职位高的机组成员(如机长)更多使用第一人称复数(如我们),而职位低的机组成员使用更多的单数第一人称(如我,自己)。
因此,第一人称代词的单复数可以反映个体的地位高低[1]。
代词使用与亲密关系的质量密切相关。
当夫妻被要求对访谈者评估他们的婚姻时,被试使用“我们”越多,他们的婚姻状况越好[15]。
同时,第二人称的使用可以预测不良的亲密关系[16]。
在对情侣即时通信文本的研究中发现,女性使用越多第一人称单数,相互之间满意度越高;而男性使用越多正面情绪词,双方对彼此的关系越满意。
研究还发现,被试说谎时使用更多负面情绪词、动作词以及较少单数第一人称代词与排除词[17]。
对即时通讯中的说谎文本发现[18],被试说谎时使用的字词数量更多,更少使用单数第一人称。
因为说谎时个体常常需要充分的描述使另一个人相信其说谎内容,所以会使用大量词汇。
(语词特征与个体差异研究发现,单数第一人称代词的使用频率随年龄增长而降低,洞察词、未来时态、排除词却随年龄增长而增加。
即随着年龄增长,个体更关注未来,所以更少使用第一人称,更多使用未来时态语句,语言也变得更复杂。
对性别差异的研究表明,女性使用更多社会词且更多提及他人,男性使用更复杂的语词。
[19]对大五人格的研究表明,神经质得分高者使用更多的负面情绪词和单数第一人称代词;外向型得分高者使用更多社会词、正面情绪词,更少使用冠词、排除词、因果词、否定词和负向情绪词;宜人性和尽责性得分高者更少使用脏话[1]、[8]。
Yarkoni[20]通过对694篇博客、10万字词的研究发现,神经质得分高者偏好使用“糟糕的”、“懒惰的”、“沮丧的”等负面情绪词。
对抑郁和自杀个体的研究发现,他们表达内容更多以自我为中心,表达更多消极情感
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- LIWC 一种 基于 语词 计量 文本 分析 工具