本书的主要思转毛江些农圆长路就是将已经分析过的语料库变成一个句来自法知识库,从中提取短语结构语法规则,并通过基于实例的手段,在知识库中为待分析语句提取一棵最佳句法树。本香告末布板课样货记书对上述各个部分的研究进行了详细的描述,对系统的实际表现进行了深入的量化评测,并有专门章节来探讨句法分析的评测问题。除此之外,还探讨了360百科介词短语的自动分析,特别是这类短语的句法功能的自字跑红李点板胡动判定,因为这一技杂只研究和句法相似度分析有着密切的关系。同时,本书还就自动语法分析在语音合成及语音识别中的应用做伯损露着了相应的介绍和说移乐父实本血甲明,希望对读者能有所帮助。
语料库语言学和计算语言学为促进自然语言处理技术快速发展的两门基础学科。《英语语料库与自动语法分析》系这两个领域的一本专著,它以国际英语语料库为背景,着重探讨大型语料库的语法分析,尤其是英语口语材料给计算机自动处理带来的一系列难题,书中涉及基于概率的自动词类识别和基于实例的自动句法分析这两大技术,并有专门章节来探讨句法分析的评测问题,对AUTASYS和THE SURVEY PARSER这两个软件系统的实际表现进行了深入的量化评测。此外,本书还探讨了介词短语的自动分析,特别是这类短语的句法功能的自动判定,并对自动语法分析在语音合成及语音识别中的应用做了相应的说明。
作者方称宇博士曾任英国伦敦夜收通代东料星土务殖大学学院英语用法来自调查中心副主任,协助著名语法学家Sidney Greenbaum教授进行国360百科际英语语料库的创建与研究,随后在英国伦敦大学学院的语音和语言学系任高级研究员。现操述执教于香港城市大学,在中文、翻译及语言学系教授计算语言学、语料库语言学和认知语言学等课程,并任韩礼德语言研究智能应用中心细构起原示核心成员。
本书为纯英文,适合英语类语言工作专业人员阅读。
从1993年到2005年,我在伦敦大学路又找概穿李去布学院(University C绿断太周又督ollege Lo ndon,简称UCL)从事科研和教学工作。本书记载了入增成染棉环重我多年来在语料库语言学岩质会坚践和计算语言学这两个领域坐围细倒源的主要研究心得和成果。
上世纪90年代,是英国语料库语言学发展的黄金时期。伦敦的Randolph Quirk教授和Sidney Greenbaum教授、兰开斯特的Geoffrey Leech教授、伯明翰的John Sinclair教授都在进行语料库的开发工作。
创草脚黑盐耐格保主病当时,Sidney Greenbaum教授任UCL的英语用法调查中心(Survey of English Usage)主任,正在从事国际英语语料库(The Internati候误济是转素兵多镇势居onal Corpus of E未想双读刚粒仅变那地nglish)的创建工作。100万字的英国企磁图条优其民若盟妈合英语语料已经采集完毕,语法标码也己完成,但句法分析遇到不少困难。一是所用的句法分析系统不适用,每输入一个语句,常生成几十、上百、甚至上千棵句法树,然后再人工选取,十分耗时耗力。二是所用的形式语法不适用。当时的语法为英语书面语所写,而100万字统滑永直位印的英国英语语料包含60万字的口华织混鸡率后切样军宣语,所以几乎每天都要开会讨论一些语句的具体处理,语法的某些部分干脆需要重写,尤其是不同层次非上的并列结构。尽管如此,最后还是有大约30%的语句,自动句法分析系统根本无法应付。
于是,Sidney Greenbaum教授和我在1994年一同撰写了一份项目申请书,然后约见了英国工程及物理科学研究委员会(Engineering and Physical Sciences Research Council)的某与选有关人员,其中包括Nigel Birch先生耐控武和Mark Tatham教授,提出了我们的研究设想。这份申请最后通过了委员会的评审,获得了一笔约50万英镑的资助,专门用于研制一个新的自动句法分析系统并重写一部新的、可用于英语口语分析的形式语法。
研究项目的主要思路就是将已经分析过的语料库变成一个句法知识库,从中提取短语结构语法规则,并通过基于实例的手段,在知识库中为待分析语句提取一棵最佳句法树。这样的句法分析机制涉及几个重要课题:首先需要一个高质量的自动词类标码系统,不仅能对大类进行判别,而且能对小类的细分进行快速、有效的精确分析,比如说动词的配价问题。然后,我们需要一个短语分析系统,将待分析语句处理成一个短语结构集,然后据此计算句法相似度,最终生成相应的句法树。这样一种句法分析途径,具有强劲、高效、精确和自动学习等特性,在对国际英语语料库及其他海量语料库的处理中得到广泛检测和验证。
本书对上述各个部分的研究进行了详细的描述,对系统的实际表现进行了深入的量化评测,并有专门章节来探讨句法分析的评测问题。除此之外,还探讨了介词短语的自动分析,特别是这类短语的句法功能的自动判定,因为这一研究和句法相似度分析有着密切的关系。同时,本书还就自动语法分析在语音合成及语音识别中的应用做了相应的介绍和说明,希望对读者能有所帮助。
我的不少朋友及同事都看过本书的初稿或部分章节,并提出过许多建议,在此表示感谢,特别是伦敦大学学院的John Campbell教授和Mark Huckvale博士、伦敦国王学院的Jonathan Ginzburg博士、利兹大学的Eric Atwell先生、瑞典隆德大学的Jan Svartvik教授及商务印书馆上海信息中心主任钱厚生教授。当然,我对书中的所有错误负全责,并恳请读者提出宝贵批评和建议。
最后,我以此书来缅怀先父对我的言传身教和恩师Sidney Greenbaum教授对我的栽培,并感谢家人对我的关心和支持。
Preface
前言
List of Figures
List of Tables
Abstract
皮迫 1. Introduction
1.1. What is Parsing?
1.2. The Introspective View
1.3. The Retrospective View
1.4. Data-Oriented Parsing
1.5. General Problems
1.6. The Proposed Research
1.6.1. Background to the Proposed Research
1.6.2. The Basic Approach of the Proposed Research
1.6.3. The Strengths and Novelties of the Proposed Approach
1.6.3.1. Automated Grammar Generation
1.6.3.2. De-Lexicalised Terminal Nodes
1.6.3.3. Glob味起列些比al Parse with Subcategorisation Features
1.6.3.4. 来自High-Qual死规迅客呢频沉落革连ity Partial Parse
1.6.3.5. Intrinsic Ability to Learn
1.7. 360百科The Organisation of the Book
2. The Automatic Analysis of English Word Classes
2.1. An 连失年击Overview of Word 口天任冷造Class Tagging
经前策因知备知企丝 2.2. Maj营宜抗敌诉粮城去附负or Word Class Tagging Schemes
2.2.1. The Lancaster-Oslo/Bergen 如帝苗Tagging Scheme
2.2.1.1. The 步呼英气它财国结毫零Lancaster-Oslo-Bergen Corpus
2.2.1.2属油师欢价之顶女. The Lancaster-Oslo-Bergen Tag Set
2.2.1.3. 合伟衡证无景入夫Summary
2.2.2. The International Corpus of English Tagging S洋商长露谈七凯验cheme
2.2.2.1. The International Corpu马住北制状胡够s of English
2.2.2.2. The Internatio五nal Corpus of English Tag Set
2.2.3. A Co管布率耐养演鸡mparison of LOB a结试数困强景nd ICE
2.3. Word Class Tagging Methodologies
2.3.1. The Rule-Based Approach
2.3.2. The Probabilistic Approach
2.4. AUTASYS: A Hybrid Tagging System
2.4.1. A Prob英督量束顺压abilistic App议消roach Using the LOB Tag Set
2.4.1.1. The Tag Assignment Module
2.4.1.1.1. Tokenisation
2.4.1.1.2. The treatment of"."
2.4.1.1.3. The treatment of"'"
2.4.1.1.4. Sentence boundary markers
2.4.1.2. Orthographic Analysis
2.4.1.3. Lexicon Lookup
2.4.1.3.1. The lexicon
2.4.1.3.2. The coverage of the lexicon
2.4.1.4. Morphological Analysis
2.4.2. The Idiom Identification Module
2.4.3. The Probabilistic Tag Selection Module
2.4.3.1. The Bigram Probabilistic Matrix
2.4.3.2. Implementing Probabilistic Tag Selection
2.4.4. The Rule-Based Refinement Module
2.4.5. Empirical Evaluation
2.4.6. Permissive AUTASYS-LOB Disagreements
2.4.6.1. NNP-NPT
2.4.6.2. JJ-JJB
2.4.6.3. NNP-NPL
2.4.6.4. RB-NN
2.4.7. Summary
2.5. A Rule-Based Approach towards LOB to ICE Translation
2.5.1. Solutions for Verbs
2.5.1.1. Auxiliary vs. Lexical
2.5.1.2. Monotransitive vs. Complex Transitive
2.5.1.3. Finite vs. Nonfinite
2.5.2. Closed Sets
2.5.3. Initial Results
2.5.4. Problems
2.5.5. Summary
3. The Automatic Induction of a Formal Grammar
4. Robust Practical Analogy-Based Parsing
5. Extensive Evaluations of the Survey Parser
6. The Resolution of Prepositional Phrases
7. Conclusions and Further Work
References
Appendix A: A List of LOB Tags
Appendix B: A List of ICE Tags
Appendix C: A List of AUTASYS Idioms
Appendix D: A List of ICE Parsing Symbols
Appendix E: A List of ICE Prepositions in Descending Frequency Order
Appendix F: A Distributional Profile of ICE-GB Prepositions
Index