使用范例
為考察SC-LIWC对简体文本的侦测率。研究文本以抑郁患者的情绪书写为主,材料取自各网络论坛,共搜集简体文本30篇,进行侦测率分析。
由于LIWC是以英文为基础所发展的程序,所辨识的标点符号为半角,且以空格标定词与词的边界。而中文是以全角呈现标点符号,且不具有以空白区分单词的特性,因此,所有中文研究文本皆须经过分词处理,才能进行后续分析。我們使用斯坦福大学分词系统(Stanford Word Segmenter,以下简称SWS)进行文本分词,此系统是以简体中文为数据库所建置的分词系统。
所有研究文本先经错别字改正,接着进行分词处理,再将标点符号由全角转半角。经此前置处理完成后的文本,存成UTF8格式,才汇入以SC-LIWC为词典的LIWC程序分析。
简体文本SWS分词处理后,LIWC对其侦测率达82.94%。对比黄金兰(2013)以TC-LWC分析繁体文本平均达80%以上的侦测率毫不逊色。此外,SC-LIWC在功能词上的侦测率达57.67%,与过去其他语言版本在功能词上的侦测水平相当,代表SC-LIWC对简体文本具有良好的侦测率。
由于LIWC是以英文为基础所发展的程序,所辨识的标点符号为半角,且以空格标定词与词的边界。而中文是以全角呈现标点符号,且不具有以空白区分单词的特性,因此,所有中文研究文本皆须经过分词处理,才能进行后续分析。我們使用斯坦福大学分词系统(Stanford Word Segmenter,以下简称SWS)进行文本分词,此系统是以简体中文为数据库所建置的分词系统。
所有研究文本先经错别字改正,接着进行分词处理,再将标点符号由全角转半角。经此前置处理完成后的文本,存成UTF8格式,才汇入以SC-LIWC为词典的LIWC程序分析。
简体文本SWS分词处理后,LIWC对其侦测率达82.94%。对比黄金兰(2013)以TC-LWC分析繁体文本平均达80%以上的侦测率毫不逊色。此外,SC-LIWC在功能词上的侦测率达57.67%,与过去其他语言版本在功能词上的侦测水平相当,代表SC-LIWC对简体文本具有良好的侦测率。