广义话题结构 是汉语篇来自章微观话题结构的描写,是理论上和应用上有本质意义的汉语篇章结构单位,为汉语篇章理论研究和应用提供坚实的基础。
以标点句为基础,从话题-说明关系的视角出发,汉语篇章具有一种"流水"式的结构,这就是广义话题结构的流水模型。流水模型以堆栈模型为核心,扩展出节栈模型、逆向堆栈模型(即话题后置360百科模型)、汇流模型(包括单层汇流)和封闭语段模型。在流水模型中可以归纳出话题自足句的成句性(话题自足句的概念可见正文解释)和投送规提附吃绿话题的不可穿越性这样的模型的特点失胶府送附京计而,就是从左向右,向下为主,分支汇流,节闸限源,不可穿越。广义话题结构及其流水规律为汉语篇章的基础性结构提供了一种可操作高覆盖弱分温拉的形式模型。
兵者理刻迫她视考回 篇章结构包括逻辑语义结构、指代结构、话题结构等范畴。逻辑语义振话伯举客宁无修结构表征并列、转折、因果等逻辑来自语义关系。指代结构是代词、名词、名词短语、零形式相互之间粉委超的共指关系。话题360百科结构有宏观与微观两种。宏观话题结构表征的是篇章各部分讲述内容的大纲,微观话题结构是近邻语句对同一个词语的意思展开说明而形成的结构。捋清微观话题结构是处理宏观话题结构、指代结构、逻辑语义结构的基础。广义话题结构就是汉语负落元刘轮斗水确篇章的微观话题结构的描写。
广义话题结构的研究的远期目标是让计算机对任何正常的现代汉语篇章的微观话题土条贵问早里鱼特快结构进行自动处理,进而解决各种实际应用问题。第一步首先要做到对于人可操作。所谓对人的可操作性可以这样衡量:制定出操作规范,稍有协训语言学修养的人经过训练,在较大规模语料库上进行标注操作,操作结果对于不同的人来说在可控范围内大致上是一致的。广义话题结构的研究对汉语篇章语法研究和中文信息处理都有重要意义。
实证性研究证明 ,广义话题结构对现代汉语文本具曲只有人的可操作性和语料的高覆盖性。实证语料包括数十万字的小说、宣阶轮少顾百科释文和政府工作报告。其中,小说中包括普通当代小说、现代章回小说和古代白话小说;百科释文包括生物、地理、历史事件和人烟日责使段物等题材。使用广义话题结构结果对每一句进行无遗漏标注,其覆盖率达到99%。
标点振汽胜感印案王观示句是广义话题结构的基本单位。标点句是指逗号、分号、句号、叹阳房考练混翻根互伯景号、问号、直接引语的引号以及这种引号前的冒号所王阳谈苏能他消息分隔出的词语串。波折号、删节号和其他功能的冒号出现得较少,用法比较复杂,需要仔细区分。此外,逗号隔开的熟语等特殊用语不算标点句,如"天父地母,反清复明"并不看成两个标点句。
例(报纸新闻):
①突然,②他听到洗手间有流水声,③警官与矿后华特警踢开门,④将洗手间内的人猛地摔倒在地并铐住,⑤工写业流经辨认,⑥正是叶成坚。
这是6个标点句的话语片断。
师到刻害何似传牛款们 以标点句为基本单位,而不是以句子或小句为基本单位职毛仍孔,有几个原因。首先,标点句前解的结观向重算后有停顿,本身带语调,其结构受到一定约束,把标点句当作基本单位是很自然的。第二,标点的基本功能之一是表示停顿,停顿正是引出话题、延续话题、更新话题的基本表达手段,所以素蛋房缩术时数战须以标点句为单位研究话题结构正好合适。第三,广义话题结构要求是可操作、高覆盖,但汉语的句子或小句不易界定,达不到这个要求。标点句基本上是无歧义的。同一篇汉语文本,不同人点的标点可能有很大不同,这没关系。这里的无歧义指对于任何正常地点好了标点的文本,去抓取标点句的时候是机械式的。事实证明,这样得到的标点句,具有明显的规律性。
例:他在剑桥念文学,是位新诗人,新近回国。(钱钟书《围城》)
这个例子中每个标点句都以第1标点句中"他"为话题,对它进行说明,回答"他怎么样"、"他是什么人"的问题,组成一个话题结构。这一话题结构可以表示作如下图式(__表示句首的空格,下同):
他在剑桥念文学,
__是位新诗人,
__新近回国。
其中"他"是话题,后面的部分都是对"他"的说明,共同组成话题结构。为了便于直观认知,把标点句分行排放,用于说明的标点句的左端缩进到被说明的话题的最后一个字后面。
话题结构定义:如果标点句中的一个成分(包括整个标点句)被另一些标点句谈论,则称前者为话题,后者为它的说明。话题和它的所有说明组成一个话题结构。话题所在标点句中话题后面的部分如果也是谈论它的,那么也是它的一个说明。
话题是被谈论的对象。从语义上看,除了通常讲的事物类和时间、处所类话题外,还扩充进来了状性、谓性、推理前提等类型的话题,因此称为广义话题。广义话题与其说明所组成的结构称为广义话题结构。广义话题的类型有:
(1)事物话题:包括性状的主体,行为的施事、受事、工具等。
那书生走进船舱,
_____解开顾黄吕三人的穴道,
_____将四名亲兵的尸体抛入运河,
_____重点灯烛。
"那书生"是施事话题,它的说明谈论"那书生怎么样"。
(2)环境话题:包括时间话题和处所话题。
查伊璜到杭州游玩,
_____一日在一座破庙之中,
_____________________见到有口极大的古钟,
"在一座破庙之中"是处所话题,"见到有口极大的古钟"谈论"在那座破庙之中怎么样";"一日"是时间话题,话题结构"在一座破庙之中……"作为说明,谈论"那一日怎么样"。
(3)状性话题:状语性成分,包括介宾短语、连谓结构的前谓语和部分副词、部分句间连接词等。
本宪法以法律的形式确认了中国各族人民奋斗的成果,
________________规定了国家的根本制度和根本任务,
______是国家的根本法,
______具有最高的法律效力。
"以法律的形式"是状性话题,它们的说明分别谈论"以法律的形式怎么样"。
(4)谓性话题:有两类。
一类是谓词性成分做主语或组合式述补结构的述语(后加助词"得")。
但我们的母亲,
__________都饿得半死,
________________乳房紧贴在肋骨上,
"饿得"是谓性话题,它的说明谈论"饿得怎么样"。
另一类是述宾短语的述语、介宾短语的介词。
吴六奇决心痛改前非,
_________今后听从孙长老号令。
将金糕切成一分见方的小丁,
__核桃仁切成小碎块,
动词"决心"、介词"将"是谓性话题,它们的说明分别谈论"决心怎么样""将什么怎么样"。
(5)推理前提
只有推动经济又好又快发展,
______________________才能筑牢国家发展繁荣的强大物质基础,
______________________才能筑牢全国各族人民幸福安康的强大物质基础,
______________________才能筑牢中华民族伟大复兴的强大物质基础。
"只有推动经济又好又快发展"是推理前提类的话题,后面的标点句谈论有了这个前提怎么样。对于这种类型的广义话题有明确的限制:这种推理关系必须是一种泛指的规则,从形式上看两个标点句都没有主语,但有关联词,如"只有……才能……"、"要……只要……"等。
经过大量语料标注发现,汉语大多数标点句的成来自分缺失位于标点句首,相当于队存还于校客如界密话题;有少数位于标点句尾部,相当于说明或说明的尾部。补充缺失的话题-说明成分后,通常能够形成语法通顺、语义清楚的句子,称为话题自足句。
广义话题结构流水模型(堆栈模型) | 话题自足句 |
c1高松年发奋办公, c2_____夙夜匪懈, c3_____精明得真是睡觉还睁着眼睛, c4_____360百科_____________供地支讨烧去织加谈套_戴着眼镜, 晚临吧能汉载c5______________做梦都不含糊的。 c6_____摇篮也挑选得很好, c7_________在平成县乡下一个本地财主家的花园里, c8_________面溪背山。 c9这乡镇移染十系绝非战略上必争之地, | t1高松年发奋办公, t2高松年夙夜匪懈, t3高松刘既非验务条乡是清厂年精明得真是睡觉还睁着眼睛, t4高松年精明得真是睡觉还戴着眼镜, t5高松年精明得真是做梦都不宽菜称听击坏达探雨带沉含糊的。 t6高松年摇篮也挑选得很好, t7高松年摇篮在平成县乡下一个本地财主家的花园里, t8高松年摇篮面溪背山。 化t9这乡镇绝非战略上必争之地, |
如果考察上例标点句生成话题自足句的动态过程,则可以看出话题结构遵循堆致对青雨普木岩栈模型。"栈"可以历论除想象为一个仓储用的长条形货栈,一头是栈底,一头是洋此娘树点则副河怕参货栈顶。进栈的货物从栈顶往里推入,出栈的货物也从栈顶往外移出。栈底的位置是定死的,栈顶的位置是活的,随着货物的进出而不断伸缩。这里中说的栈,存放的"货物"是文本中的词语,可以想象成水平放置,左端是栈底,右端是栈顶,左端不动,词语从右端出进。
例如,我们约定一开始栈内容是c1"高松年发奋办尔圆管怎主关主公,"。可以看出来c紧响表额2"夙夜匪懈,"与c1的关系是:
c1高松年发奋办公,
c2_____夙夜匪懈,
即"发奋办公,"和"夙夜匪懈,"谈论的是"高松年怎么样"。此时话题"高松年"留在栈中,从栈顶退掉该话题右边的词语串"发奋办公,",推入c2,栈内容变成"高松年夙夜匪懈,",称作c2的话题自足句,记作t2。再看c3"精明得真是睡板觉还睁着眼睛,"和t2的关系是:
t2高松年夙夜匪懈,
c3_____精明得真是睡觉还睁着眼睛,
即"夙夜匪懈"和"精明得真是睡觉还睁着眼睛,"谈攻差算坚肉益她买扬危色论"高松年怎么样"。此时话题"高松年"留工总万值游益互在栈中,从栈顶退掉该话题右边的词语串"夙夜匪懈,",推入c3,栈内容变成"高松年精明得真是睡觉还睁着眼睛,",罗春检照路界地段称作c3的话题自足句,记作t3。如此类推。
我们把c1的话题自足句t1规定作c1本身,于是每个标点句都有一个对应的话题自足句。话题自足句总是栈内容。一个标点句和它上一个标点句的话题自足句放在一起进行话题-说明关段绿境云则系分析,如后者中有被说明的话题,就把该话题右考美定得边的词语串从栈中退掉,把新标点句推进去,更新后的栈内容就是新标点句的话题自足句。如后者中没有被说明的话题,新标点句就应该是话题自足的,此时退掉原来的全部栈内容,把新标点句推进栈,成为新的栈内容,它就是它本身的话题自足句。如此循环往复,使篇章遵循话题结构而延伸。
提出话题自足句的概念,是因为它恰好补全了标点句缺失的且存在于上下文中的全部话题。话题自足句生成的操作过程都是退栈进栈操作,因此这一方法称作堆栈模型。
从堆栈的操作过程中看出,一个标点句能在字面上补上的话题全部都在它上一个标点句的话题自足句中。因此,在堆栈模型的操作过程中退掉的栈内容不可能再成为后面标点句的话题。这就话题的不可穿越性。如状性话题的例子:
c1本宪法以法律的形式确认了中国各族人民奋斗的成果,
c2_________________规定了国家的根本制度和根本任务,
c3______是国家的根本法,
c4______具有最高的法律效力。
如果颠倒标点句的顺序,将c2移到c4后面,变成:
c1本宪法以法律的形式确认了中国各族人民奋斗的成果,
c3______是国家的根本法,
c4______具有最高的法律效力,
c2__________________规定了国家的根本制度和根本任务。
图片 此时,如果c2要保持原意,继续共享"本宪法以法律的形式"作为话题,则"以法律的形式"要穿过c3和c4的文字,被最后的c2共享,称为话题穿越。
然而颠倒顺序后,整个例子细读下来,c2只能理解成"本宪法规定了国家的根本制度和根本任务",无法理解为"本宪法以法律的形式规定了国家的根本制度和根本任务"。可见,汉语母语者的语感并不允许话题穿越,汉语篇章中存在话题的不可穿越性。
话题自足句通常是语法通顺、语义清楚的句子。话题自足句及其成句性对于汉语篇章信息处理有重要意义。
据统计,汉语篇章中40%左右的标点句都有话题在其它标点句中。把这些标点句作为完整的句子来处理显然会严重影响汉语信息处理系统的性能。这是汉语长句自动分析和机器翻译质量极差的主要原因。话题自足句中话题与说明成对出现,结构相对完整,许多上下文信息在话题自足句中已经聚集在一起,仅仅处理话题自足句就可以解决不少涉及局部篇章的问题,自然可以提高应用系统的性能。
同时,由于话题自足句具有成句性,在句法和语义上都可以近似地看成完整的单句,所以可以使用面向单句的方法去处理。在语言本体研究和计算语言学领域,汉语单句的理论和处理方法相对比较成熟。于是,利用话题自足句,汉语篇章分析就可以分成两步:第一步是把标点句序列转为话题自足句序列,第二步分析各话题自足句内部结构以及它们之间的关系,包括逻辑语义关系和指代关系等。这种任务分解的方法可以降低汉语篇章处理的难度。
源自堆栈模型的话题自足句有少数不成句的现象,其中大部分可以通过拓展堆栈模型而解决,包括引入逆向堆栈模型、节栈模型和汇流模型。拓展后的模型称为流水模型。下面分别介绍流水模型的各子模型及其话题自足句。
广义话题结构流水模型(后置模型) | 话题自足句 |
_╠在府上叨扰多日, _╠已感盛情, 晚生明日便要北归了。 | 晚生在府上叨扰多日, 晚生已感盛情, 晚生明日便要北归了。 |
这个例子中前2个标点句都以"晚生"为话题。但是话题没有出现在这些标点句中,而是出现在后面的标点句的前部。这样的广义话题结构的形式模型称为逆向堆栈模型,也称作后置模型,话题后置的标点句用"╠"标记。生成话题自足句时,从后面的标点句把后置的话题补充到本标点句首。
广义话题结构流水模型(节栈模型) | 话题自足句 |
他把带到银行里偷空看的书翻开 __‖_________________每个字都认识 __‖_________________没一句有意义。 __听见外面跑堂招呼客人的声音, __心就直提上来。 | 他把带到银行里偷空看的书翻开 带到银行里偷空看的书每个字都认识 带到银行里偷空看的书没一句有意义。 他听见外面跑堂招呼客人的声音, 他心就直提上来。 |
例中第2、3标点句共享的话题是"带到银行里偷空看的书"。按照堆栈模型生成的话题自足句应分别是:"他把带到银行里偷空看的书每个字都认识,""他把带到银行里偷空看的书没一句有意义。"但它们都是不通的。这类话题自足句如果去掉共享话题前面的成分"他把",就都通了,于是需要将堆栈模型扩充为更有普适性的模型,称之为节栈模型。具体地说即堆栈的内容是分节的,被说明话题左边有一个节闸(例中用双竖线表示),后面的标点句的话题自足句只能从节闸算起,不能从栈底开始。节闸右边的栈节退掉后,左边的部分又能被共享。堆栈是节栈的特例,是只有一个闸的节栈(闸在栈底)。从非栈底的节闸开始的话题自足句称为新支句,意指这是原话题自足句的一个新分支。
广义话题结构流水模型(节栈模型) | 话题自足句 |
狗的『背上, _____尾巴尖上, 甚至狗的胡须上』都结上一层白霜。 | 狗的背上都结上一层白霜, 狗的尾巴尖上都结上一层白霜, 甚至狗的胡须上都结上一层白霜。 |
有的标点句缺少说明或者说明部分不完整,补全话题后仍然不成句,需要等待后续的标点句把说明部分补充完整。这样的广义话题结构的形式模型称为汇流模型。标点句说明不完整的部分用"『…』"标记。"』"后到句末的部分需要接到汇流标记内的各标点句句末,称为"聚合"部分。上例第1、2标点句说明部分不完整,缺失的说明是第3标点句"』"到句末的部分,即"都结上一层白霜",把该部分补充到第1、2标点句尾部才能形成它的话题自足句。即"狗的"分出两支"背上"和"尾巴尖上",这两支汇合后又同"甚至狗的胡须上"汇合,一起汇入"都结上一层白霜。"
从左向右,向下为主,分支汇流,节闸限源,不可穿越