修订过程
自动化繁简转换的议题相当复杂,也是计算语言学与信息科技热门的议题。在字的层次上,自1949汉字简化迄今,繁体字与简体字之间虽大多数是一对一对应,但仍有部分是一简对多繁与极少数一繁对多简的情况(维基百科)。就本研究而言,研究者首先进行繁转简的工作,目前在Google或Word的自动转换处理上已经有不错的成效,可以直接透过上述软件直接进行转换。接着研究团队再行检查讨论,处理繁简转换后产生之一繁对多简与一简对多繁的问题。紧接着,在词的层次,就面临两地用语的差异问题。目前并没有一套公认完整的用语差异对照表,计算语言学的相关研究多采用透过各网页搜寻方式各自建立对照表(如李民祥, 吴世弘, 曾议庆, 杨秉哲及谷圳, 2010; 黄群弼, 2008)。本研究也采用类似方式,透过学术网络搜寻相关研究成果以及政府公开网站的相关数据,建立两地用语差异对照表,并据以进行词典的繁简转换。
具体而言,本研究将TC-LIWC经过三个步骤转换以建立SC-LIWC。首先,我们将TC-LIWC直接透过Microsoft Word 2010版本,繁体中文转换为简体中文的功能进行转换。其次,检查一繁对多简与一简对多繁的问题。最后,再将它与本研究所建立之两地用语差异对照表进行比对与转换。经此三步骤建立简体中文版的LIWC词典。
1. 两地用语差异对照表之建立
本研究广泛搜集各类官方网页(如,互动百科; 台湾海峡两岸观光旅游协会; 交通部观光局; 维基百科)、相关学术论文研究成果(金慧兰, 2006; 黄群弼, 2008)以及专业人士之博客(如陈钟诚, 2010)等所公布的两地用语差异表。本研究先采取最宽松的原则,只要任一来源有出现的语词即保留建档,汇整得到一份作为本研究转换依据之繁简用语差异对照表。该对照表共包含3178词,且正如研究者所预期用语差异绝大多数是发生在名词。
2. 两阶段繁简转换
如前文所述,我们首先将TC-LIWC所包含的所有字词汇入Microsoft Word 2010,使用其内建之繁简转换功能,将所有字词转换成简体。由于繁体中文与简体中文之间存在多繁对一简的现象,即数个繁体中文字皆对应同一简体中文字,如繁体中文字中的“里”与“裡”,在简体中文中皆对应为“里”。因此,研究团队经过繁简转换后的词典进行比对确认,删除简体词典中因为一对多的对应关系而造成的重复词。另外,针对繁简转换后产生的一繁对多简的问题,依据维基百科所列,仅有15个繁体字有可能转换成多个简体字的情况。由于此类字很少,本研究采取人工处理比对的方式一一检查,并同步检查word在进行繁简转换时, 是否正确将这些字转换成符合其原义的简体字。
透过Microsoft Word 2010转换得到的简体字词,在与TC-LIWC原始字词比对之下,发现已有15个词经Word自建的用语差异词库,已被自动转换为简体中文对应词汇,例如繁体中文的“幼稚園”自动转换为简体中文的“幼儿园”,显示Microsoft Word 2010除了进行单纯简体字与繁体字的转换,也同时具有一个程度的用语习惯上的对应转换。接着本研究进行第二阶段转换,请专人撰写程序比对TC-LIWC内字词与本研究所汇整得到的繁简用语差异对照表。结果发现TC-LIWC内的字词共有299个词呈现繁简用词习惯差异。为了更精准地确认用语差异的转换,我们参考中科院语言研究所(2012)出版的《现代汉语词典》,查阅每个繁简用语差异词的定义,并进行逐词讨论,以较为宽松的原则,决定是否修正该词或者保留两者于词典中。经研究团队逐一讨论,并参考简体字使用者的意见后,总计修订了116个词汇,以更贴近简体字的使用习惯。
本研究经由上述两阶段,将TC-LIWC进行简体化,分别处理了繁简转换产生之一对多与多对一的问题,也依照研究者所汇整的繁简用语差异对照表,进行了用语习惯差异的检查与修正,完成了SC-LIWC。SC-LIWC维持TC-LIWC的类别架构与词典内容,保有原始71个类别,共计有7444个词汇。
具体而言,本研究将TC-LIWC经过三个步骤转换以建立SC-LIWC。首先,我们将TC-LIWC直接透过Microsoft Word 2010版本,繁体中文转换为简体中文的功能进行转换。其次,检查一繁对多简与一简对多繁的问题。最后,再将它与本研究所建立之两地用语差异对照表进行比对与转换。经此三步骤建立简体中文版的LIWC词典。
1. 两地用语差异对照表之建立
本研究广泛搜集各类官方网页(如,互动百科; 台湾海峡两岸观光旅游协会; 交通部观光局; 维基百科)、相关学术论文研究成果(金慧兰, 2006; 黄群弼, 2008)以及专业人士之博客(如陈钟诚, 2010)等所公布的两地用语差异表。本研究先采取最宽松的原则,只要任一来源有出现的语词即保留建档,汇整得到一份作为本研究转换依据之繁简用语差异对照表。该对照表共包含3178词,且正如研究者所预期用语差异绝大多数是发生在名词。
2. 两阶段繁简转换
如前文所述,我们首先将TC-LIWC所包含的所有字词汇入Microsoft Word 2010,使用其内建之繁简转换功能,将所有字词转换成简体。由于繁体中文与简体中文之间存在多繁对一简的现象,即数个繁体中文字皆对应同一简体中文字,如繁体中文字中的“里”与“裡”,在简体中文中皆对应为“里”。因此,研究团队经过繁简转换后的词典进行比对确认,删除简体词典中因为一对多的对应关系而造成的重复词。另外,针对繁简转换后产生的一繁对多简的问题,依据维基百科所列,仅有15个繁体字有可能转换成多个简体字的情况。由于此类字很少,本研究采取人工处理比对的方式一一检查,并同步检查word在进行繁简转换时, 是否正确将这些字转换成符合其原义的简体字。
透过Microsoft Word 2010转换得到的简体字词,在与TC-LIWC原始字词比对之下,发现已有15个词经Word自建的用语差异词库,已被自动转换为简体中文对应词汇,例如繁体中文的“幼稚園”自动转换为简体中文的“幼儿园”,显示Microsoft Word 2010除了进行单纯简体字与繁体字的转换,也同时具有一个程度的用语习惯上的对应转换。接着本研究进行第二阶段转换,请专人撰写程序比对TC-LIWC内字词与本研究所汇整得到的繁简用语差异对照表。结果发现TC-LIWC内的字词共有299个词呈现繁简用词习惯差异。为了更精准地确认用语差异的转换,我们参考中科院语言研究所(2012)出版的《现代汉语词典》,查阅每个繁简用语差异词的定义,并进行逐词讨论,以较为宽松的原则,决定是否修正该词或者保留两者于词典中。经研究团队逐一讨论,并参考简体字使用者的意见后,总计修订了116个词汇,以更贴近简体字的使用习惯。
本研究经由上述两阶段,将TC-LIWC进行简体化,分别处理了繁简转换产生之一对多与多对一的问题,也依照研究者所汇整的繁简用语差异对照表,进行了用语习惯差异的检查与修正,完成了SC-LIWC。SC-LIWC维持TC-LIWC的类别架构与词典内容,保有原始71个类别,共计有7444个词汇。