編製過程
中文版的LIWC詞典以LIWC2007所使用的詞典為主要依據,經過下列六個階段而建立。
第一階段--直接翻譯
如前文所述,LIWC2007詞典由64個類別,將近4500個不同的英文字及字幹所組成。這些字依其語文詞性或意義隸屬於各個類別,且部分類別有上下層的結構關係存在。由此可知,在LIWC詞典中,單一的字或字幹可以隸屬於多個類別。考量中、英文字義並非一對一的對應,我們決定對LIWC2007英文詞典中每一個字或字幹在其所屬類別均分別進行翻譯。首先,我們整理並合併各類別所包含的字與字幹數,總計得到將近一萬零六百個英文字與字幹。由於在中文並沒有冠詞,也沒有動詞的過去式、現在式以及未來式的區別,我們先將分屬於這四個類別的字先予以刪除,再針對剩餘字進行翻譯。基於翻譯的周延性考量,我們將這些字依照字母序排列大致平均分成五組,每組由兩位大學生個別進行翻譯。如此安排下,每一個字都有兩位翻譯者翻譯。在正式翻譯前,由作者之一對翻譯者進行工作說明,讓翻譯者充分瞭解其任務是必須依照每個英文字及其所屬類別之意涵進行翻譯,若同一英文字可以翻譯成同義的不同中文詞也要就其所知羅列。在翻譯過程中,翻譯者可以自行查詢各類英漢/漢英辭典。本階段經翻譯與整理共得一萬八千餘中文詞。
第二階段--類別確認
第一階段所獲得一萬八千餘字係由英文直接翻譯而得。為了確認所翻譯得之中文詞在其所屬類別的適宜性,本階段分幾個步驟進行類別確認。為使每個詞的類別適宜性都可以獲得三個判斷反應,本階段招募九位大學生進行字詞的類別判斷。每位大學生需針對六千餘個詞,一一就其歸屬於某特定類別的適宜性進行判斷,詞組與判斷員的安排使每個詞均可得到三個判斷反應。同樣的,在正式進行類別判斷前,由研究者之一對判斷員進行工作說明,讓其充分了解每個類別的意涵。本階段經整理,共有一萬三千多詞獲得一致的類別判斷。我們依據這些詞所獲之一致性判斷來決定其保留於詞典或予以刪除。第二步驟則針對未得一致性判斷的六千多詞,再行招募六位大學生,每人判斷三千餘詞。經整合這六千多詞在前兩個步驟所得的判斷反應,其中有將近五千個詞可依照多數反應來決定是否保留於詞典中,但仍有約一千五百個詞在六個反應中不分軒輊。由於仍有相當比例的詞,未達區辨標準,為求嚴謹性,我們針對這些詞又進行進一步的類別確認程序。第三步驟則由五位心理學碩士以上之評判員,針對此一千五百餘個詞進行類別適當性判斷,最後並以多數反應來決定是否保留於詞典中。經上述三個步驟的類別確認,本階段共整理得各類別總數約一萬五千餘詞,其中包含六千六百多個不同的詞。
第三階段--斷詞確認
在翻譯的過程中,研究者發現許多因為語言特性差異所可能造成的問題。首先,有些英文的單字翻譯成中文時可能會需要兩個詞來表示其完整意義。例如,在人稱代名詞的類別中有my、mine、your、yours、his等,在中文直譯為「我的、你的、他的」,這些翻譯分別均由兩個詞「我/你/他)」與「的」組成。又如,on、in在中文直譯可為「在…上面,在…裡面」,也是分別由兩個詞「在」與「上面/裡面」所組成。此階段的主要任務即在確認前兩個階段所整理得的六千六百多個詞,是否為單一詞。本詞典使用中研院中文詞知識庫(1998b ;陳鍾誠、許聞廉,1998)所發展之線上中文斷詞系統(http://ckipsvr.iis.sinica.edu.tw/)作為斷詞判斷之依據。該系統為目前在國內經常被使用的一個具備未知詞偵測以及語法詞類預測能力的中文斷詞系統。上述六千六百多詞,經該中文斷詞系統分詞後,研究者再將被斷成兩個詞(或以上)的翻譯詞依據其所屬類別進行修改為適切的詞。例如前例中on在介詞類別則修改為「在」,在空間類別則修改為「上面」。本階段依上述程序最後重新整理得六千五百多個詞。
第四階段--逐字確認、加詞與建立詞幹
上述階段所得之六千五百多個詞均以英文詞典為本,經翻譯後,再透過上述方式整理而產生。為了進一步確認類別定義的精確性及其所屬詞的合宜性,且避免一些英文需用片語或數個字表達但中文卻可以用單詞表達相同意義的常見詞(例如, according to, as long as, after all…等等;又如the day after tomorrow, last year )遺漏於詞典中,本階段經過多次的團體討論與腦力激盪,逐類確認類別定義後,逐字檢查其適宜性並加詞於該類別。參與討論的成員均為共同進行文本分析的研究者,他們對於整個研究架構都有相當的瞭解。每次的討論均至少有五位成員(其中三名作者每次都參與)參與,每位成員將有疑義的詞或是想到可以加入的詞提出討論,最後不論是刪詞或加詞或加類別均需得到全體共識。此外,本階段還有一項重要的程序,即詞幹建立。LIWC程式可以利用詞幹(word-stem)加星號的方式來偵測同詞幹的字群。例如,以infinit*即可偵測到所有以infinit為首的字,如infinite, infinitely, infinitive, infinitude, infinity等字。由於中文單字本身也具有特定意涵,更能以詞幹來偵測相關意涵的詞,例如,可用悲*來偵測悲傷、悲痛、悲哀、悲慟、悲苦等等負向情緒詞。本階段利用已經建立的詞典為依,確認建立詞幹的可能性。本階段討論的過程亦參考國語辭典電子版(教育部國語推行委員會,2007)或斷詞系統以確認其適當性。
第五階段--增加類別
在上述階段團體討論的過程中,我們發現有些在中文常用但英文不存在的詞類。例如,第二人稱複數代名詞(如,你們);中文有各種數量詞單位,個、位、條、張、顆…等等;又如,中文有各種句尾助詞,啊、了、呀、喔、呢等等。還有一些多功能字,例如「的」,可以放在句尾,也可以加在具體名詞或代名詞之後可表示所有格;加在抽象名詞之後可表示形容詞;「地」加在抽象名詞之後可表示副詞…等等。相對於英文,這些都是中文獨有的特性,應被放入中文版的詞典中。此外,中英雖然沒有動詞時態之分,可是在文句中卻仍有一些標定時態的語詞(如,現在、過去、已經),也可分類放入詞典中。研究者參考了一些語法資料及語詞資料庫,發現「中央研究院漢語平衡語料資料庫詞集及詞頻統計 」(Word List with Accumulated Word Frequency in Sinica Corpus 3.0,中央研究院中文詞知識庫小組,1998a)的資料庫提供了相當豐富的詞類資訊。該資料庫依據五百萬個詞整理其出現頻率,得到近十五萬個帶有詞類、詞頻及累積頻率標記的詞。研究者在徵得該單位之授權後,參考該資料庫提供的詞頻類別,在本詞典中加入第二人稱複數代名詞(YouPl,如你們、您們等)、後置詞(PrepEnd,如之前、以上等)、特指定詞(SpecArt,如某、該等)、量詞單位(QuantUnit,如箱、顆等)、語助詞(Interjunction,如喔、嗎等)、多功能詞(MultiFun,如的、地、是、有等)等,上述類別內的字詞選自中研院詞頻資料庫中詞頻前5000之字詞。
本詞典亦增加時態標定詞(TenseM),其中又細分四個子類,過去式(PastM,如以前、昨天等)、現在式(PresentM,如今天,目前等)、未來式(FutureM,如今後,即將等)以及持續或完成式(ProgM,如了、已經等)。至此,中文版詞典總計增加十一個類別。除此之外,我們將前四階段所產生的詞典與上述詞頻資料庫中使用頻率最高的前兩千詞進行比對,發現覆蓋率達78.4%,其中有106詞符合本詞典所定義的功能詞類別,但尚未包含在本詞典中,在本階段也一併將之加入詞典,以提升對分析文本的偵測率。
第六階段--詞類結構檢查及整體再確認
如前文所述, LIWC詞典中的部分類別間存在有階層關係,為了避免在前面幾個階段的翻譯、類別判斷及加詞等過程中,破壞了階層關係的完整性,本階段即再度進行詞類結構的檢查,以確保其完整性。本階段將有隸屬階層關係的類別分別整理成不同檔案,並依照字詞排序後進行階層比對。比對的標準是屬於下層類別的字詞一定要包含在上層類別內,倘若有屬於上層類別但不屬與任何下層類別的字詞,則再進一步由研究團隊的3~5位成員判斷其是否需刪除、保留、或可以加入下層類別中。這個階段同時也可以對於整體詞典中各個詞所屬類別及詞幹建立適宜性進行再確認。
研究團隊上述六階段程序,最後編制完成中文版的LIWC詞典(簡稱TC-LIWC),其中包含語文特性30類,心理特性42類,共有72個類別(如表一所示),總計6862個詞,在各類別使用次數總計為15175詞次。本研究完成之詞典對於中央研究院漢語平衡語料詞頻統計資料庫中最常使用的前一千字之偵測率為83.5%,前二千字之偵測率為76.2%,前五千字之偵測率則為58.7%。需特別注意的是,在詞類資料庫中,隨選取詞頻的下降,名詞類的詞數會大幅增加,但LIWC詞典並未包含名詞,故其偵測率有明顯的下降。上述數據顯示,本詞典對於常用的語詞,具有相當不錯的偵測率。
第一階段--直接翻譯
如前文所述,LIWC2007詞典由64個類別,將近4500個不同的英文字及字幹所組成。這些字依其語文詞性或意義隸屬於各個類別,且部分類別有上下層的結構關係存在。由此可知,在LIWC詞典中,單一的字或字幹可以隸屬於多個類別。考量中、英文字義並非一對一的對應,我們決定對LIWC2007英文詞典中每一個字或字幹在其所屬類別均分別進行翻譯。首先,我們整理並合併各類別所包含的字與字幹數,總計得到將近一萬零六百個英文字與字幹。由於在中文並沒有冠詞,也沒有動詞的過去式、現在式以及未來式的區別,我們先將分屬於這四個類別的字先予以刪除,再針對剩餘字進行翻譯。基於翻譯的周延性考量,我們將這些字依照字母序排列大致平均分成五組,每組由兩位大學生個別進行翻譯。如此安排下,每一個字都有兩位翻譯者翻譯。在正式翻譯前,由作者之一對翻譯者進行工作說明,讓翻譯者充分瞭解其任務是必須依照每個英文字及其所屬類別之意涵進行翻譯,若同一英文字可以翻譯成同義的不同中文詞也要就其所知羅列。在翻譯過程中,翻譯者可以自行查詢各類英漢/漢英辭典。本階段經翻譯與整理共得一萬八千餘中文詞。
第二階段--類別確認
第一階段所獲得一萬八千餘字係由英文直接翻譯而得。為了確認所翻譯得之中文詞在其所屬類別的適宜性,本階段分幾個步驟進行類別確認。為使每個詞的類別適宜性都可以獲得三個判斷反應,本階段招募九位大學生進行字詞的類別判斷。每位大學生需針對六千餘個詞,一一就其歸屬於某特定類別的適宜性進行判斷,詞組與判斷員的安排使每個詞均可得到三個判斷反應。同樣的,在正式進行類別判斷前,由研究者之一對判斷員進行工作說明,讓其充分了解每個類別的意涵。本階段經整理,共有一萬三千多詞獲得一致的類別判斷。我們依據這些詞所獲之一致性判斷來決定其保留於詞典或予以刪除。第二步驟則針對未得一致性判斷的六千多詞,再行招募六位大學生,每人判斷三千餘詞。經整合這六千多詞在前兩個步驟所得的判斷反應,其中有將近五千個詞可依照多數反應來決定是否保留於詞典中,但仍有約一千五百個詞在六個反應中不分軒輊。由於仍有相當比例的詞,未達區辨標準,為求嚴謹性,我們針對這些詞又進行進一步的類別確認程序。第三步驟則由五位心理學碩士以上之評判員,針對此一千五百餘個詞進行類別適當性判斷,最後並以多數反應來決定是否保留於詞典中。經上述三個步驟的類別確認,本階段共整理得各類別總數約一萬五千餘詞,其中包含六千六百多個不同的詞。
第三階段--斷詞確認
在翻譯的過程中,研究者發現許多因為語言特性差異所可能造成的問題。首先,有些英文的單字翻譯成中文時可能會需要兩個詞來表示其完整意義。例如,在人稱代名詞的類別中有my、mine、your、yours、his等,在中文直譯為「我的、你的、他的」,這些翻譯分別均由兩個詞「我/你/他)」與「的」組成。又如,on、in在中文直譯可為「在…上面,在…裡面」,也是分別由兩個詞「在」與「上面/裡面」所組成。此階段的主要任務即在確認前兩個階段所整理得的六千六百多個詞,是否為單一詞。本詞典使用中研院中文詞知識庫(1998b ;陳鍾誠、許聞廉,1998)所發展之線上中文斷詞系統(http://ckipsvr.iis.sinica.edu.tw/)作為斷詞判斷之依據。該系統為目前在國內經常被使用的一個具備未知詞偵測以及語法詞類預測能力的中文斷詞系統。上述六千六百多詞,經該中文斷詞系統分詞後,研究者再將被斷成兩個詞(或以上)的翻譯詞依據其所屬類別進行修改為適切的詞。例如前例中on在介詞類別則修改為「在」,在空間類別則修改為「上面」。本階段依上述程序最後重新整理得六千五百多個詞。
第四階段--逐字確認、加詞與建立詞幹
上述階段所得之六千五百多個詞均以英文詞典為本,經翻譯後,再透過上述方式整理而產生。為了進一步確認類別定義的精確性及其所屬詞的合宜性,且避免一些英文需用片語或數個字表達但中文卻可以用單詞表達相同意義的常見詞(例如, according to, as long as, after all…等等;又如the day after tomorrow, last year )遺漏於詞典中,本階段經過多次的團體討論與腦力激盪,逐類確認類別定義後,逐字檢查其適宜性並加詞於該類別。參與討論的成員均為共同進行文本分析的研究者,他們對於整個研究架構都有相當的瞭解。每次的討論均至少有五位成員(其中三名作者每次都參與)參與,每位成員將有疑義的詞或是想到可以加入的詞提出討論,最後不論是刪詞或加詞或加類別均需得到全體共識。此外,本階段還有一項重要的程序,即詞幹建立。LIWC程式可以利用詞幹(word-stem)加星號的方式來偵測同詞幹的字群。例如,以infinit*即可偵測到所有以infinit為首的字,如infinite, infinitely, infinitive, infinitude, infinity等字。由於中文單字本身也具有特定意涵,更能以詞幹來偵測相關意涵的詞,例如,可用悲*來偵測悲傷、悲痛、悲哀、悲慟、悲苦等等負向情緒詞。本階段利用已經建立的詞典為依,確認建立詞幹的可能性。本階段討論的過程亦參考國語辭典電子版(教育部國語推行委員會,2007)或斷詞系統以確認其適當性。
第五階段--增加類別
在上述階段團體討論的過程中,我們發現有些在中文常用但英文不存在的詞類。例如,第二人稱複數代名詞(如,你們);中文有各種數量詞單位,個、位、條、張、顆…等等;又如,中文有各種句尾助詞,啊、了、呀、喔、呢等等。還有一些多功能字,例如「的」,可以放在句尾,也可以加在具體名詞或代名詞之後可表示所有格;加在抽象名詞之後可表示形容詞;「地」加在抽象名詞之後可表示副詞…等等。相對於英文,這些都是中文獨有的特性,應被放入中文版的詞典中。此外,中英雖然沒有動詞時態之分,可是在文句中卻仍有一些標定時態的語詞(如,現在、過去、已經),也可分類放入詞典中。研究者參考了一些語法資料及語詞資料庫,發現「中央研究院漢語平衡語料資料庫詞集及詞頻統計 」(Word List with Accumulated Word Frequency in Sinica Corpus 3.0,中央研究院中文詞知識庫小組,1998a)的資料庫提供了相當豐富的詞類資訊。該資料庫依據五百萬個詞整理其出現頻率,得到近十五萬個帶有詞類、詞頻及累積頻率標記的詞。研究者在徵得該單位之授權後,參考該資料庫提供的詞頻類別,在本詞典中加入第二人稱複數代名詞(YouPl,如你們、您們等)、後置詞(PrepEnd,如之前、以上等)、特指定詞(SpecArt,如某、該等)、量詞單位(QuantUnit,如箱、顆等)、語助詞(Interjunction,如喔、嗎等)、多功能詞(MultiFun,如的、地、是、有等)等,上述類別內的字詞選自中研院詞頻資料庫中詞頻前5000之字詞。
本詞典亦增加時態標定詞(TenseM),其中又細分四個子類,過去式(PastM,如以前、昨天等)、現在式(PresentM,如今天,目前等)、未來式(FutureM,如今後,即將等)以及持續或完成式(ProgM,如了、已經等)。至此,中文版詞典總計增加十一個類別。除此之外,我們將前四階段所產生的詞典與上述詞頻資料庫中使用頻率最高的前兩千詞進行比對,發現覆蓋率達78.4%,其中有106詞符合本詞典所定義的功能詞類別,但尚未包含在本詞典中,在本階段也一併將之加入詞典,以提升對分析文本的偵測率。
第六階段--詞類結構檢查及整體再確認
如前文所述, LIWC詞典中的部分類別間存在有階層關係,為了避免在前面幾個階段的翻譯、類別判斷及加詞等過程中,破壞了階層關係的完整性,本階段即再度進行詞類結構的檢查,以確保其完整性。本階段將有隸屬階層關係的類別分別整理成不同檔案,並依照字詞排序後進行階層比對。比對的標準是屬於下層類別的字詞一定要包含在上層類別內,倘若有屬於上層類別但不屬與任何下層類別的字詞,則再進一步由研究團隊的3~5位成員判斷其是否需刪除、保留、或可以加入下層類別中。這個階段同時也可以對於整體詞典中各個詞所屬類別及詞幹建立適宜性進行再確認。
研究團隊上述六階段程序,最後編制完成中文版的LIWC詞典(簡稱TC-LIWC),其中包含語文特性30類,心理特性42類,共有72個類別(如表一所示),總計6862個詞,在各類別使用次數總計為15175詞次。本研究完成之詞典對於中央研究院漢語平衡語料詞頻統計資料庫中最常使用的前一千字之偵測率為83.5%,前二千字之偵測率為76.2%,前五千字之偵測率則為58.7%。需特別注意的是,在詞類資料庫中,隨選取詞頻的下降,名詞類的詞數會大幅增加,但LIWC詞典並未包含名詞,故其偵測率有明顯的下降。上述數據顯示,本詞典對於常用的語詞,具有相當不錯的偵測率。