二度梅
一、 机器翻译(Machine Translation) 机器翻译是利用计算机试图达到翻译自动化。这類研究开始于五○年代后期﹐到了六○年 代早期﹐学者发现在计算机无法正确解讀篇章的情况下﹐高质量自动翻译是不可能的;因此﹐机器翻译质量的提升﹐有赖于计算机解讀篇章能力的提高﹐也因而刺激了语言学以及 计算器语言学的相关研究﹐ 如:自然语言剖析(parsing)系统的研发。在当今“资料爆炸"的时代﹐利用计算机來处理 大量翻译﹐可争取时效。因此﹐目前机器翻译的实际应用多用于计算机使用手册等句型较 简单﹐词义较固定的档﹐但仍需经过人工修改。 二、 自然语言处理(natural language processing) 除了计算机专家以外﹐对一般人來說﹐使用自然语言是最方便的沟通模式。因此﹐如 何让计算机能以接近自然语言的方式与人沟通﹐便成为计算器语言学的研究重点之一。 首先﹐要让计算机能够理解人類的语言﹐就必须有一个对自然语言的剖析系统。早期的剖 析系统是采取关键词匹配的方法(lexical matching)﹐或者采取基于文本(text)的方法來分析 自然语言。后期则开始运用句法学(syntax)和语义学(semantics)的知識來理解句子。随着研 究的深入﹐人们已普遍认識到语言理解是一种认知的过程﹐要使机器了解自然语言﹐就要 认清人理解和使用语言的心理过程。因此﹐必须注重对整个认知过程的探讨和模拟。对自 然语言的理解﹐不能局限于对单个句子的孤立理解﹐而要把句子放到篇章、话语等更大的 语言单位中去考虑﹐因此﹐产生了对于如何以语言形式來表达知識的相关研究。有关知識 的表达和运用、推理、预期、记忆以及句法、语义和语用之间相互聯系等问题亦成为计算 机语言学所要面臨的问题。 早期乔姆斯基开创的转换生成语言学(Transformational-generative linguistics) 为机器处理语言提供了有利的条件。但是﹐计算器语言学除了引进语言学理論外还需考虑 讯息的正确率与一致性、记忆储存空间以及运转速度等。由于计算器语言学对自然语言处 理的研究﹐进而促进理論语言学的相关发展。经过自然语言理解的实践与检验﹐语法学也 因此从一门经验科学跨入实验科学的行列。 三、 信息检索(information retrieval) 本世纪以來﹐由于科学技术日新月異﹐随着信息量的暴增﹐要在有限的时间内﹐迅 速找到你要的讯息﹐也变得更为重要。信息检索乃是利用计算机自动做摘要和进行检索。使 用计算器进行资料检索始于五十年代﹐目前则广泛应用于网路查询及各類资料库检索。由 于计算机在处理量和时间上可以替人进行这项服务﹐因此﹐信息检索的相关研究也就应运而生。计算机可以按照人们的要求﹐就其储存的信息范围内﹐自动回答人们提出的问题。目前﹐信息检索系统中的重要问题是如何设计输入的检索字串﹐以便能够提供检索者所需要的确切信息。四、言语識别(speech recognition)和言语合成(speech synthesis) 为了让计算机能和人进行沟通﹐因而产生了言语識别和言语合成的相关研究。言语識 别是让计算机能够辨識人類說出的语音﹐言语合成则是使用人工合成的方法﹐模拟真人回 答。因此﹐言语識别和言语合成牵涉到语音输入、输出的问题。 语音合成的方式主要可分为兩類:第一類是将可能的语音信号事先錄制下來﹐当系 统欲說出某一文句时﹐仅需找出相对应的语音信号将其输出即可。另一類语音合成方式﹐ 是先将基本语音合成单元及合成规则存放于内存之中﹐利用这些基本语音合成单元组合 成与输入文句相对应的语音信号﹐并配合语音合成规则加以调整音高、音长、音强等音韵 特征。 目前有大量的言语識别及言语合成技术应用于电话的自动对答系统。如:台湾交通 部电信总局电信研究所1991 年研发的自动化中文电话总机辅助系统。由于总机及许多电 话接听的服务均属较机械性的对答方式﹐因此﹐运用言语識别及言语合成技术可由机器來 执行这些工作。五、 断词/分词研究 将输入句子的字串﹐切分成词语的过程叫做断词。目前以文法为主要架构的中文自然 语言处理系统中﹐ 断词是系统辨識中文输入句子不可缺少的步骤。许多中文计算机应用領域﹐ 如:词频统计、文件扫描中的汉字辨識、语音辨識、计算机自动校对、资料检索、简繁体转 换及中文输入法均可能利用到中文断词系统。