使用中文版LIWC詞典注意事項
1. TXT檔格式為UTF-8
檔案輸入格式需為UTF-8,請使用者按此規格匯入檔案。
2. 文本斷詞處理
由於LIWC程式分析時係以空格作為字詞邊界之標定,然而中文書寫並沒有以空格作為字詞之邊界,故將文本匯入LIWC分析前需先進行斷詞。使用者可自行選用各類的斷詞系統,例如:繁體文本可參考中研院之網路斷詞系統,進行斷詞;簡體文本可參考斯坦福大學分詞系統(Stanford Word Segmenter)。每一個斷詞系統處理後可能各有其輸出形式,使用者需依其使用系統整理輸出文本,只保留加入空格分隔後的斷詞文本,刪除多餘標記。例如,若使用中研院之網路斷詞系統則需將其輸出檔之字詞類別予以刪除。
例:
「全球暖化已經讓不少島嶼面臨沉島危機,杜拜的「世界島」也不例外,島上以人工填海方式打造的300多座島嶼,現在也不堪暖化影響,正在悄悄下沉,不少砸下重金購買的富豪氣炸了,有的甚至對開發商提出告訴。」(選自2010/01/22 TVBS新聞http://tw.news.yahoo.com/article/url/d/a/110122/8/2l9lm.html)
經斷詞處理後,最後需將文本整理成為在每個詞間加入一個半形的空格分隔開來的格式。如下:
「全球 暖化 已經 讓 不少 島嶼 面臨 沉島 危機,杜拜 的 「 世界島 」 也 不例外 , 島 上 以 人工 填海 方式 打造 的 300多 座 島嶼 , 現在 也 不堪 暖化 影響 , 正在 悄悄 下沉 , 不少 砸下 重金 購買 的 富豪 氣炸 了 , 有的 甚至 對 開發 商 提出 告訴 」
3. 全型標點符號轉半型
使用者若對標點符號的使用有興趣,在將文本匯入LIWC分析前需先將全型的標點符號轉換成半型(亦即以英文的標點符號使用方式呈現)。請參考標點符號轉換對照表。
承上例,經標點符號轉換後的格式,如下:
「全球 暖化 已經 讓 不少 島嶼 面臨 沉島 危機,杜拜 的 “世界島” 也 不例外, 島 上 以 人工 填海 方式 打造 的 300多 座 島嶼, 現在 也 不堪 暖化 影響, 正在 悄悄 下沉, 不少 砸下 重金 購買 的 富豪 氣炸 了, 有的 甚至 對 開發 商 提出 告訴. 」
4. 斷詞後處理程式
本研究團隊已經發展可協助斷詞後文本處理程序之程式,並提供免費下載。請點選技術支援。
檔案輸入格式需為UTF-8,請使用者按此規格匯入檔案。
2. 文本斷詞處理
由於LIWC程式分析時係以空格作為字詞邊界之標定,然而中文書寫並沒有以空格作為字詞之邊界,故將文本匯入LIWC分析前需先進行斷詞。使用者可自行選用各類的斷詞系統,例如:繁體文本可參考中研院之網路斷詞系統,進行斷詞;簡體文本可參考斯坦福大學分詞系統(Stanford Word Segmenter)。每一個斷詞系統處理後可能各有其輸出形式,使用者需依其使用系統整理輸出文本,只保留加入空格分隔後的斷詞文本,刪除多餘標記。例如,若使用中研院之網路斷詞系統則需將其輸出檔之字詞類別予以刪除。
例:
「全球暖化已經讓不少島嶼面臨沉島危機,杜拜的「世界島」也不例外,島上以人工填海方式打造的300多座島嶼,現在也不堪暖化影響,正在悄悄下沉,不少砸下重金購買的富豪氣炸了,有的甚至對開發商提出告訴。」(選自2010/01/22 TVBS新聞http://tw.news.yahoo.com/article/url/d/a/110122/8/2l9lm.html)
經斷詞處理後,最後需將文本整理成為在每個詞間加入一個半形的空格分隔開來的格式。如下:
「全球 暖化 已經 讓 不少 島嶼 面臨 沉島 危機,杜拜 的 「 世界島 」 也 不例外 , 島 上 以 人工 填海 方式 打造 的 300多 座 島嶼 , 現在 也 不堪 暖化 影響 , 正在 悄悄 下沉 , 不少 砸下 重金 購買 的 富豪 氣炸 了 , 有的 甚至 對 開發 商 提出 告訴 」
3. 全型標點符號轉半型
使用者若對標點符號的使用有興趣,在將文本匯入LIWC分析前需先將全型的標點符號轉換成半型(亦即以英文的標點符號使用方式呈現)。請參考標點符號轉換對照表。
承上例,經標點符號轉換後的格式,如下:
「全球 暖化 已經 讓 不少 島嶼 面臨 沉島 危機,杜拜 的 “世界島” 也 不例外, 島 上 以 人工 填海 方式 打造 的 300多 座 島嶼, 現在 也 不堪 暖化 影響, 正在 悄悄 下沉, 不少 砸下 重金 購買 的 富豪 氣炸 了, 有的 甚至 對 開發 商 提出 告訴. 」
4. 斷詞後處理程式
本研究團隊已經發展可協助斷詞後文本處理程序之程式,並提供免費下載。請點選技術支援。