语言文字工作汇报材料(精编3篇)
【前言导读】此篇优秀范文“语言文字工作汇报材料(精编3篇)”由阿拉题库网友为您精心整理分享,供您学习参考之用,希望这篇资料对您有所帮助,喜欢就复制下载吧!
语言文字工作汇报材料1
关键词:《等级划分》 国际教育 国别化教学 国别化教材
一、引言
中国和泰国的交往历史悠久。就泰国方面来说,在东南亚范围内,泰国政府对华人可以说是最开放的。近一二百年来,数以百万计的华人移民定居泰国。近年来,随着中国经济的发展和中泰友好关系的进一步发展,泰国很注重汉语学习,掀起了一浪高过一浪的学习热潮。泰国人在本国学习汉语,有着双重任务:1.一般任务。泰国学生像其他国家的学生学习汉语一样要遵循学习汉语的规律。2.特殊任务。如何把泰国特有的,比如地名、人名、食品、用品、风俗习惯等,用汉语表达出来。要完成这个特殊任务,不仅要研究泰汉两种语言的词汇,还要对泰汉语言翻译进行深入研究。
中国的对外汉语教学界,比较重视制定一些词汇大纲、词表,以此规范教材对词汇的收录。以前的是《汉语水平词汇和汉字等级大纲》,最近又颁布了《汉语国际教育用音节汉字词汇等级划分》。但这类词汇大纲或词表,在一定程度上不适合国别化的词汇教学。因为语言文化的交流是双向的,一方面,其他国家的学习者要了解中国,另一方面,他们也想向中国人介绍自己国家的历史文化、社会、风俗等等。从某种意义上说,后者更重要。因为外国人跟中国人交流的时候,不仅要说中国的事情,而且还要说自己国家的事情。而中国研发的这类词汇大纲或词表,是基于中国境内的常用词收录的,比如“饺子”“春节”等,不可能也把其他国家的专用词语和常用词都收录进来。从这一点上说,在不同国家进行的汉语教学,即国别化汉语教学不应当完全受这类词汇大纲或词表的限制,要重视与本土社会文化相关的词语的教学。
二、《等级划分》与《实用泰汉翻译教程》介绍
《汉语国际教育用音节汉字词汇等级划分》是汉语国际教育的第一个国家标准,是国家汉办/孔子学院总部重点科研项目,是教育部社科司重大研究课题。《等级划分》是经过17年的不断思考、积淀和梳理,经过在香港11年3万多学员的长期实践,用了两年九个月的时间研制出来的。由国家语言文字规范(标准)审定委员会审定,中华人民共和国教育部、国家语言文字工作委员会。这项研究有两项重要成果:一是《汉语国际教育用音节汉字词汇等级划分》语言文字规范(GF0015-2010),一是《汉语国际教育用音节汉字词汇等级划分》(国家标准·应用解读本)。两本书均由北京语言大学出版社出版。《国家标准》规定了汉语国际教育用音节、汉字、词汇的等级划分,给出了汉语国际教育用分级的音节表、汉字表、词汇表,体现了三维基准体系。它适用于汉语国际教育总体设计、教材编写、课堂教学、课程测试、工具书编写和音节库、字库、词库建设,也可供计算机辅助汉语水平测试以及中国少数民族汉语教学、普通话教学之用。《等级划分》是基于具有代表性、权威性的37亿字次最新大型动态语料(特别是对话体语料)、词典、字表、词表建立的现代汉语规范口语主导型的新模式。
《实用泰汉翻译教程》是为具有中级汉语水平的泰国学生专门编写的一本实用语言类教材。这本书可作为高等院校三、四年级的必修课(或选修课)教材,也可作为汉语导游工作者及其他从事与汉语有关工作的泰国人的自学教材。该教程共18课,以介绍泰国国情与泰国文化为主要教学内容,通过18篇课文,系统介绍了泰国的国家政体、国民性格、、民俗节日、饮食特色及华文教育等多方面的内容。
三、《实用泰汉翻译教程》词语等级分析
(一)《实用泰汉翻译教程》词语等级分布
参照《等级划分》,笔者把《实用泰汉翻译教程》注释的1187个词语与《等级划分》的词汇表做出对照。发现同《等级划分》里的词语有266个,超纲词语有921个。同《等级划分》的266个词语的分布,一级词语有68个,二级有98个,三级有79个,附录有21个。同《等级划分》的266个词语占%,超纲词语921个占%。
(二)《实用泰汉翻译教程》不同等级词语的语域分布
结果证明,要解决汉语国际教育的国别针对性,任何一套词汇等级划分或大纲都是远远不够的。《实用泰汉翻译教程》里的词汇超纲率高达%。虽然只用一本教材难以全面证明,但也突出了教学和教材国别化的重要性和必要性。
为了深入了解超纲的词语,笔者把超纲词语进行分类并对超纲词语的语域分布做出分析:
从表中可以看到,超纲词语跟泰国国情密切相关,这些特有词语是能够反映该国社会文化的词语,是真正意义上的“国别化”词语。虽然使用范围不一定仅限于泰国,但这些词语是泰国社会文化的缩影,与泰国人的生活息息相关。不同的文化模式,对民族的语言发展,在某种程度、某个侧面、某个层次上起着制约作用。如在泰国,国王及王室有着崇高的地位,泰国华语反映国王及王室成员的词语十分活跃,如“陛下、公主、王子”等;又如:泰国素有“千佛之国”的美称,全国90%以上的人信奉佛教,这就使得反映佛教及相关事物行为的词语,在泰国华语词汇中非常丰富。
从以上分析可以看出一条规律,《等级划分》表内的词多具有各民族通用性,而超纲词则多是表达泰国特有事物的词语(%)。这些词尽管超出了《等级划分》这个大纲,但是在泰国的日常生活中却是常用词,并没有超出泰国社会日常生活这个实际的“纲”,由此可见,要解决汉语国际教育,就必须走国别化之路。
四、《等级划分》在国别化汉语教学中的作用及局限
(一)“国别化”理念的提出
“国别化”(country-specific)汉语教学的观念早己有之。2004年,陆俭明教授针对当时对外汉语教学的发展情况,认为迫切需要开展一些基础性研究,包括根据不同母语语区的特点,制定不同的汉语教学用的字表、词表、成语表、语法要点表等。陆教授在2007年又进一步加以强调,在基础性应用研究领域进一步提出了“对外国学生的汉语词汇教学,还得注意国别化的问题。”(陆剑明,2007)
第一次把这一观点升化为理论提出来的是甘瑞媛博士。她从认知科学、“中介语”理论、教育学、外语教学、语料库语言学等多个角度,对“国别化”的理论基础、“国别化”汉语教学等问题进行了阐释和论述。甘瑞瑗认为:“所谓国别化的对外汉语教学,简单地说,就是基于不同国家的不同情况而进行的汉语教学”;唯有这样,“才能真正满足对外汉语教学的针对性原则”,“才能提高教学的质量和成功率。”(甘瑞瑗,2005)
对外汉语教学既然把培养学习者运用汉语进行交际、解决实际问题的能力作为根本目标,就应避免出现教材内容与学生现实生活脱节的现象,以免学生在课堂上学到的语言,到了生活中根本用不上。世界上不同国家和地区,都有自己特有的文化传统、地理环境、风俗习惯等,泰国汉语学习者学了汉语之后也多是在其母语国生活、工作,或者是从事与中国人打交道的工作,唯有开展“国别化”汉语教学才能满足学习对象以及学习目标的多元化需求。
在语言系统中,从大的方面讲,语音、语法、词汇等都会因学习者的文化背景、社会环境、认知模式等因素的差异给教学带来一定的影响,开展对外汉语教学,在语音、词汇、语法等方面都需要加强“国别化”研究。鉴于词汇在汉语学习与教学中的重要性,以及社会生活的差异最先在词汇层面上表现出来,本文以“国别化”词汇教学为研究对象。
(二)对外汉语“国别化”教学的重要性及必要性
中国国家汉办在制定21世纪初对外汉语教学研究规划时,根据未来发展需要并围绕对外汉语教学作为专门学科的不可替代性特点,确立了6项研究重点,其中有两项涉及“国别化”思想:“对外汉语教学需要的汉语言学、应用语言学、对比语言学研究”“对不同母语者的汉语研究”。从这些方面足见国家对“国别化”汉语教学的重视以及所作的努力,这也对汉语工作者提出了更高的要求。
为了更好地使对外汉语教学朝着科学化、实用化的方向发展,开展国别研究、实施国别化教学将是一条必经之路。将研究成果应用于教材编写、教学评估、成绩测试等,拓展对外汉语教学应用研究领域,应当真正为工作在第一线的汉语教师以及汉语学习者服务。
(三)《等级划分》在国别化汉语教学中的作用和局限
作用:为各国汉语教学提供最基本的、最通用的词汇,这部分词汇应当作为教学的重点和核心。
局限:不同区域、不同民族都有自己特殊的物态文化、观念文化和制度文化,反映在词汇上,都有一些特殊的常用词语为其他语言所没有或不常用,这些词语不可能全部收录到通用词表中。因此,通用词表对不同区域、不同民族的汉语学习者来说都有一定的不适切性,不能满足用汉语表达本民族特殊事物和思想的需要。《实用泰汉翻译教程》这一真实反映泰国本土文化的教材中,%的词语在《等级划分》中未予收录,就充分地说明了这一点。
因此,《等级划分》这类通用词表只能为国别化汉语教学提供重要参考,但不应以此限制国别化汉语教学中词语的选择。应当针对不同学习群体制定国别化的汉语词表,在这项工作中,《实用泰汉翻译教程》这类具有鲜明的本土文化特征的精品教材无疑是非常有价值的参考依据。
五、汉语教学和教材国别化的几点建议
(一)推出本国的《词汇等级大纲》
每个国家为了提高本国的汉语教学效率,应该推出自己的《词汇等级划分》表,《词汇等级划分》里应该收录和本国国情有关的专有词汇,包括专有名词的对译方法。比如:人名、地名的对译,文化习俗、宗教、旅游、饮食、熟语等领域的词汇。
(二)规定专有名词的对译标准
在泰国,目前汉语国别化教学的混乱原因就是缺乏标准。泰语人名、地名的对译有的用潮州话语音对译,有的用普通话语音对译,甚至泰国的六家华文报所用的专有名词如人名和地名都不一样。推出泰语人名、地方名的标准汉语对译,是国家教育部应该承担的任务,也是本国从事华文教育人士应该推动的工作。
(三)重视对特有文化习俗的对译和解释
不同的国家有不同的文化习俗、、饮食文化,这些特有的东西需要特殊的词汇来表达,表达方式要能够充分让学习者了解它的背景含义以及跨文化的差异,所以有时简单的直译和意译方式还不够,还要加以注释或用附加课文来补充说明。
六、结语
本文为了研究2010年国家汉办推出研制的《等级划分》是否能够满足汉语国际教育可依据的国家标准,采用一本中泰专家合作编写具有国别化性质的教材《实用泰汉翻译教程》里的词汇来做对比分析。分析结果发现,《实用泰汉翻译教程》里的超纲词语超过70%。超纲词语出现在有关泰国国情的各种领域内,如人名、地名、文化习俗、宗教、旅游、饮食、熟语等领域。通过超纲词语的注释举例,证明汉语词汇教学国别化包括教材国别化,不但非常重要而且非常必要。
《等级划分》的作用是为各国汉语教学提供最为基本、通用的词汇,这部分词汇应当作为教学的重点和核心。它的局限是不能满足用汉语表达本民族特殊事物和思想的需要。
国家有关部门应当承担汉语教学教材国别化的任务,从事汉语教育的人士也应该积极推动这项工作。推出适合本国国情的《词汇等级大纲》,规定专有名词和特有文化习俗的翻译标准,收集各种有关本国国情的特有词汇作为本国汉语教育总体设计、教材编写、课堂教学、课程测试、工具书编写和音节库、字库、词库建设的参考。
参考文献:
[1]陈灼等。桥梁·实用汉语中级教程[M].北京:北京语言学院出版
社,1996.
[2]戴桂芙等。初级汉语口语[M].北京:北京大学出版社,1997.
[3]符淮青。现代汉语词汇[M].北京:北京大学出版社,2004.
[4]甘瑞瑗。国别化“对外汉语教学用词表”制定的研究:以韩国为
例[J].语言文字应用,2005,(2).
[5]高名凯,刘正埮。现代汉语外来词研究[M].北京:文字改革出版
社,1958.
[6]高彦德,李志雄。实用泰汉翻译教程[M].北京:北京语言大学出
版社,2010.
[7]国家汉办。汉语水平词汇与汉字等级大纲[Z].北京:北京语言学
院出版社,1992.
[8]郭志良等。速成汉语初级教程·综合课本[M].北京:北京语言文
化大学出版社,1996.
[9]李领军。议英汉习语的文化差异及其翻译方法[J].和田师范专科
学校学报,2010,(3).
[10]李清华。《汉语水平词汇与汉字等级大纲》的词汇量问题[J].
语言教学与研究,1999,(1).
[11]李如龙。汉语应用研究[M].北京:中国传媒大学出版社,2004.
[12]刘德联等。中级汉语口语[M].北京:北京大学出版社,1996.
[13]卢晓等。对外汉语教学的国别化思考——以对泰汉语教学为例
[J].中国电力教育,2011,(32).
[14]裴晓睿。汉泰词典[Z].泰国理论出版社,2006.
[15]孙红。面向泰国汉语教学“国别化”词表研制[D].暨南大学硕
士学位论文,2009.
[16]王明东。两套泰国国别化汉语教材的对比分析[D].暨南大学硕
士学位论文,2011.
[17]武占坤,王勤。现代汉语词汇概要[M].呼和浩特:内蒙古人民
出版社,1983.
[18]杨德峰。试论对外汉语教材的规范化[J].语言教学与研究,1997,
(3).
[19]张和生。对外汉语词汇教学研究——义类与形类[M].北京:北
京大学出版社,2010.
[20]张凯。汉语构词基本字的统计分析[J].语言教学与研究,1997,
(1).
[21]张培基。英汉翻译教程[M].上海:上海外语教育出版社,1983.
[22]张伟华。浅议外来词的翻译[J].大学英语,2005,(34).
[23]张晓丽。从翻译选材、翻译方法和译文评价看社会文化对翻译
的制约[J].宜春学院学报,2009,(12).
[24]郑通涛。对外汉语国别化教材开发的启示[D].厦门大学硕士学位
论文,2011.
[25]周凤玲。谈对外汉语词汇教学[J].河北广播电视大学学报,2008,
语言文字工作汇报材料2
[关键词] 数字出版 外文原著 自然语言处理 云平台 词汇提取 难句抽取
[中图分类号] G237 [文献标识码] A [文章编号] 1009-5853 (2014) 01-0079-05
1 引 言
随着电子计算机和互联网技术的发展, 以电子书(electronic book,ebook)为代表的数字出版物已经广泛兴起和发展起来,并由此形成了数字出版产业。数字出版平台和电子读物自身的数字化特点,使利用各种现代技术为读者提供包括娱乐和辅助学习功能在内的各种新型有效服务成为可能。多媒体技术与人工智能研究领域成果如自然语言处理等的应用,将使数字出版不仅带来信息载体、读物来源和阅读方式方面的变化,而且会使阅读过程中的学习方式、学习效果等都发生很多变化[1]。
与此同时,人类进入信息时代后,国际间的科学文化交流日益增多,了解学习不同国家的文化习俗、掌握世界新的科学技术发展动态成为个人与国家发展的前提。因此,外语的学习和使用比以往任何时代更显重要。现代社会很多人都需要阅读外文原版文学读物、学术专著和教材。但外文原版读物阅读的难点是刚开始时生词较多,有些句子不容易理解,容易产生阅读挫折,当所选读物的阅读难度和内容不合适时就更明显。对于专业文献,除了一般词汇问题外,由于强调语言的缜密性、准确性,经常会使用长句和大量专业术语,所以较一般文学读物更不容易理解。能否解决阅读中的词汇和难句障碍,是能否克服外文原版读物阅读初期的困难,进入熟练阅读过程的关键。虽然我国在外语教学方面投入很大,但效果并不理想,原因之一是许多读者没能真正进入外文原版文献的熟练阅读状态,未形成外语学习和使用实践相互促进、紧密结合的良性循环过程。缺乏应用实践,过多停留在应试和学习过程本身的外语学习严重影响了外语继续学习和终身学习,以及在实践中应用外语的动力。外文文献对扩大科研人员的研究视野、确定研究策略和方向、提高科研水平等发挥着非常重要的作用,但我国花费大量经费购买的外文文献数据库利用率较低,主要原因就是语言障碍。
目前数字出版技术、自然语言处理技术和云技术的发展,为人们改进或解决上述问题带来了可能。本文首先介绍在数字出版中应用自然语言处理技术,通过词汇抽取服务辅助外文阅读的问题,同时进一步提出在数字出版中提供难句抽取服务的建议,并对可行性进行分析及给出可供参考的抽取策略。
2 数字出版中的词汇抽取服务
在数字出版中提供词汇提取服务是把外文原著中读者可能不认识的生词提前抽取出来,给出解释,生成按词频分段,能按照页码和章节进行筛选的词汇表放到出版平台上供下载;对于专业外文书籍,不仅提供常规词汇表,还包括专业词汇表。在数字出版提供词汇抽取的最初理念由本文作者在2012年美国《出版研究季刊》中第一次提到[2],下面在介绍原理念的基础上,总结扩展分析如下。
提供词汇抽取服务有助于提高外文阅读效率
阅读外文原著一直被认为是学习外语的有效方法。认知语言学的研究表明,语言是在具体的社会环境中、在真实互动中学会的,因此强调学习者的自身参与,对于常用的表达要设法引起学习者的充分注意,让他们结合语境多加练习[3]。而文学原著阅读为学习者提供了语言习得的真实语境,可以与单词大量、密切接触,而且读上手之后不会令人心烦,因此在读者了解和学习文化知识、开发智力的同时,实现了学习单词、强化语言学习的目的。通过把词汇表下载到不同设备上显示,如电脑显示器、手机,或打印、抄写等,可以使读者在阅读过程中方便快捷地查找生词解释,如果能先以页码或章节为单位抄写生词,强化记忆,然后再阅读对应的页或章节原文,不仅容易理解原著内容,享受阅读乐趣,而且这个过程本身就是一种有效的外语学习途径。因为语言学者已经验证,要想在短时间内大幅度提高词汇量,有计划地利用单词表来学习并记忆新单词是较好的、也是最直接的办法[4-5]。外文原著的阅读有两种形式——纸质书阅读和电子书阅读,而词汇抽取服务可以使电子书和纸质书读者获得同样的帮助。
提供词汇抽取的技术基础
数字出版提供词汇抽取服务的主要技术基础是自然语言处理、云计算和数字出版。
首先,自然语言处理(Natural Language Processing,NLP)技术是用计算机来研究和处理自然语言的技术,始于20世纪40年代末50年代初,已成为当代计算机科学中一门重要的新型学科。词汇抽取和各种词典建设是自然语言处理技术的基础,属于成熟的技术。英语的自然语言处理水平处于世界先进水平,对英语实现词汇抽取服务很容易实现。对于汉语这样的表意文字,计算机自动分词的准确率还不能令人满意(大约90%)[6],影响了各种电子词典的建设速度,目前大规模地实现词汇抽取服务还有困难;但是,依靠在汉语自然语言处理技术方面几十年的研究成果和建设的各种资源,在一定范围内实施词汇抽取还是可以的。
其次,云计算是一种运算模式,能实现无处不在、便捷按需的网络访问,信息处理和存储在云数据中心完成。由于数字出版技术更新和管理费用等问题,数字出版采用云技术成为一种必然趋势[7]。数字出版提供词汇抽取服务需要云计算技术的原因在于词典建设是庞大和困难的工作。现代社会发展迅速,新词不断出现,词典的更新维护是一个重要课题,也是单个出版社无法承担的;由云平成词典建设、更新维护及词汇抽取软件的建设,以资源共享的形式提供给各出版社使用,则能够保证其有效管理和经济可行性。
再次,数字出版决定了著作原稿在各个阶段都是以电子文档形式存在的,对于任何一本原著,只需在编辑完成后把对应电子文档的格式转换成纯文本,然后利用基于自然语言处理技术设计的词汇抽取软件和电子词典即可完成词汇抽取工作。
词汇抽取策略
外文原著中的词汇量很大,专业著作或原版教材则不仅包括普通词汇,而且包含很多只能在专业词典中查到的专业术语。每个读者的外语水平也不同,遇到的生词差异很大,所以要有效地抽取符合个人情况的生词,并以方便学习的形式显示,需考虑采用合适的抽取策略。
普通词汇抽取
提供词汇抽取服务主要基于这样一个统计事实,即一本书包含很多词汇,但常用单词占了绝大部分。据弗兰西斯(Francis)和库切拉(Kucera)(1982)统计,在一百多万词的Brown语料库中,频率居前的1000单词就可以覆盖72%的语料库;频率居前的2000单词可以覆盖%;频率居前的5000单词可以覆盖%;频率居前的6000单词可以覆盖%;而频率居前的15851个单词才覆盖%[8]。教育心理学家、心理测量专家、语言学家和其他研究人员多年来一直使用文本样本中的单词频率统计作为估算单词难度的方法,其基本假设是文本中出现频率低的单词是难度大的单词[9]。一个读者的外语水平越高,所认识的难词、或者说低频词就越多。如果把一种语言的词汇按词频分段,语言水平高的读者生词少且趋于低频词段;外语水平较低的读者生词较多,词频段跨度较大。因此,数字出版平台可以通过采用不同的抽取策略提供不同频段的词汇表来满足不同外语水平读者的需要[10]。
专业术语抽取
专业外文文献中有很多专业术语,即某一学科领域所特有或专用的语汇,其词义常不为专业外读者所明白。尽管术语只占全文的 5%—10%,但它们却构成科技英语翻译与其他文体翻译的根本区别[11],需要通过专业词典解决专业术语的抽取问题。对于只涉及某一个专业的外文专著,可通过软件工具在原稿编辑完成后转换成纯文本格式,进入对应的专业词典,抽取出其中的专业术语,形成专业词汇表供读者下载。由于专业词汇也可分为常用高频词汇、核心专业词汇和低频词汇,所以,专业术语抽取时也可参考常规词汇按词频分段的方法,列出不同频段的专业词汇,读者可考虑先记住高频词汇,减少阅读困难。为了与常规词汇表相区别,每个专业术语后应添加专业标记[12]。
如果是涉及多门专业知识的综合类专著,则需要分别进入不同的专业词典进行专业术语抽取。由于专业词典一般存在一词多域多义和一词多域同义的现象,即同一词汇可能会出现在不同的专业词典中,在不同专业领域有不同的意义,也可能具有相同的意义[13]。所以,必要时需对从不同的专业词典中抽取出来的词汇进行合并,减少数据冗余,方便读者学习。
目前,对于数字出版中提供词汇抽取的探讨,还只限于文学原著或专业文献。实际上,通过考虑不同类型读物的特点,通过采取合适的抽取策略,各种类型的外文读物,包括报纸、杂志等都可以实现词汇提取,为提高外语学习效率发挥积极作用。
3 数字出版中的难句抽取服务
前面介绍了数字出版中提供词汇抽取服务的问题,实际上,还可以进一步深化这种服务,在提供词汇抽取服务的同时,提供难句抽取服务。
提供难句抽取服务的意义
外文阅读中最主要的困难是词汇问题,而句式结构复杂、成分关系多样、具有高度逻辑性的长难句是另一障碍,能否解决长难句的理解是提高阅读能力的另一个关键。对语篇整体结构、深层含义、作者态度等信息的理解非常重要,提高学生对于阅读材料的宏观把握能力已成为语言学家及语言教师们研究的重要课题之一,但是词汇和句子理解仍然是外语学习的基础。特别在学习一门外语的早期,如初、高中及至大学阶段,长难句理解都是学习中常见的困难[14-15]。如果长难句的理解能力提高,则外文阅读速度和质量将会得到极大提高。如果在读者阅读外文原著时,不仅限于生词,同时也能提前把读者不容易理解的难句抽取出来,给出解释和分析,生成能按页码、章节和字母顺序自由排序和筛选的难句表放到出版平台上供下载,则能帮助读者更好地理解这些难句。按页码、章节自由筛选,能迅速恢复其上下文语境,不仅对语言学习本身有利,同时有助于更好地理解原著。读者可以选择喜爱的章节里的生词和难句,经过有意识分析和学习,然后对那部分更好地阅读理解。
此外,在各种类别的外语日常阅读训练中,如果能集中选择一些学习者熟悉内容且感兴趣的、具有代表性的长难句,如选择一些影响较大的文学名著中的长难句进行分析和强化翻译训练,掌握规律就可以事半功倍。所以外文数字出版中提供难句抽取服务具有积极的意义。
提供难句抽取服务的可行性分析
虽然外文出版中的难句抽取服务对外语学习有积极的意义,但目前技术条件下还存在一些具体困难,需要通过某些特殊方法,采取合适策略来解决。
自动化难句抽取中的困难
在数字出版中实现外文难句抽取的完全自动化,从理论上说,需要涉及语篇的预处理、难句识别及抽取算法和机器翻译。这些在目前都还存在一些困难。
首先,要在外文数字出版中把难句抽取出来并通过机器翻译自动给出翻译结果,不仅涉及词长、词频和句长的计算,还需要对句子结构等进行多方面的识别和判定,因此,需要对生语料(完成编辑后的书籍原稿文档)进行预处理,即进行词汇、句法、语义等的分析,添加相应标注,把生语料变成熟语料。虽然语料库的自动标注技术已经研究多年,有一些效果较好的语料库自动标注工具软件,但该过程一般仍然需要人工干预校正。语料库标注是一项代价昂贵的工作[16],需要大量人力、物力和资金,所以在目前的技术条件下,对出版的外文读物生语料库进行标注还是不现实的。
其次, 除了语料的标注,难句抽取还需要根据高效准确的难句识别和抽取算法,开发相应的难句抽取软件工具。目前为止,对语篇难度(文本难度)进行的研究很多,但多数都是基于文本难度的宏观度量,对微观的诸如语篇的基本组成部分——句子难度度量研究的较少[17],缺乏精确高效的难句抽取算法[18]。
第三,对于抽取出来的难句,需要用机器翻译方法给出翻译,而目前的机器翻译水平无法保证难句翻译的准确性。
参考传统文本难度算法及通过人工干预实现难句提取
首先,为了解决语篇预处理和缺乏准确高效的难句识别和抽取算法等问题,可以考虑在参考传统的确定文本难度算法的基础上,在纯文本格式文件中实现自动难句提取,这样就可以避开语篇预处理问题。文本难度(也称为易读性),是指文本易于阅读和理解的程度和性质。易读性依赖于多种因素, 主要包括文章的句子平均长度、生词数和语法复杂度。英文易读性的研究始于1920年代,研究者通过不懈的努力开发出了上百个易读性公式[19]。通常易读性公式使用文本的词汇难度和句法难度来判定文本难度,词汇难度以词频和词长来衡量,句子难度以句子的长度来衡量。此外,近年来统计语言模型被引入易读性研究中[20],但是在对语料库进行预处理的基础上进行的,这里无法采用。而传统的文本难度计算中的词汇难度、词频和词长计算都可以在纯文本格式文件中完成。由云平台提供基于传统文本难度算法的难句抽取软件工具比较容易,虽然不能达到完全的抽取率,但大部分难句可提取出来。
其次,在基于传统文本难度算法进行难句提取时,应该注意成语和俗语问题。难句一般比较长,但长句不一定是难句;而含有成语和俗语的句子,有时虽然短,却难以理解。因此,可从两个方面考虑:首先是句长和句子中的词频因素。句子越长、其中词汇难度越大(词长、词频低),则句子是难句的可能性越大。其次是句中是否包含成语和俗语因素。在文学类读物中,成语和俗语较多;在专业读物中,也可能用到成语和俗语,但非常少。随着自然语言处理技术和语料库技术的发展,成语或俗语电子词典的建立日趋完善,鉴于成语和俗语对读者带来的不便,在对文学读物原著进行难句抽取时,可增加对成语和俗语因素的考虑。目前,英语是国际通用语言,对文本难度研究最成熟的也是英语,因而可尝试首先在英文读物中实现难句的自动提取。
第三,对于通过文本难度算法提取出来的难句,由于不能通过机器翻译方法给出准确的翻译结果和句子分析,可根据读物特点,从减少人力、物力需求的角度选择不同的人工翻译策略。对于文学作品中抽取出来的难句,可通过读者论坛等方法讨论解决;原版教材中的难句可由授课教师或教材引进部门组织专家翻译放到服务器上提供给学生,同时可参考通过双语平行语料库的信息服务平台等辅助完成翻译[21]。
第四,从语言水平级别划分,外文读物有很多种类,难句抽取应注意从读物本身的文本难度出发来设计难句抽取算法,以满足不同语言水平读者群的需求。
4 结 语
人类已经进入数字出版时代,自然语言处理技术在云平台的支持下将能为人们的语言学习提供多种服务。本文仅介绍和探讨了最基础的词汇和难句抽取服务,且主要是从理念上加以讨论,具体实施还需要出版社、语言学家和软件技术人员的共同努力,并在实践中持续改善。需要注意的是,虽然词汇和难句提取能对读者的阅读提供帮助,但内容和文本难度仍然是外文原著阅读能否成功的重要因素,出版社平台应提供外文书籍的内容和阅读难度分级信息。实践证明,外文原著阅读可以全方位地提高阅读者的外语水平,教师许连赞 2001年通过让学生阅读原著的方法使学生的口语能力受到了外交官的好评[22],所以,我国数字出版如能提供外文原著的词汇和难句抽取服务,将会对我国外语水平的整体提高产生积极影响。
注 释
[1][2][10]Jilan Sun. Popularizing vocabulary extraction service on digital publishing platforms[J]. Publishing Research Quarterly, 2012,28:65-72. DOI /s12109-012-9255-6
[3]蔡金亭,朱立霞。 认知语言学角度的二语习得研究:观点、现状与展望[J]. 外语研究,2010(1):1-7
[4]李庆燊。 论英语词汇教学中的误区[J]. 教育与职业,2010(2): 176-177
[5]王淼。 中初水平学习者在外语学习环境下的偶遇词汇学习[D]. 上海:上海外国语大学,2004
[6]李兴珊,刘萍萍,马国杰。 中文阅读中词切分的认知机理述评[J]. 心理学进展,2011,19(4):459-470
[7]Ted Hill. The Inevitable Shift to Cloud-Based Book Publishing: The Next Step in the Digital Transformation of Book Publishing May be Closer than You Think[J].Publishing Research Quarterly,2012,28: /s12109-011-9249-9
[8]Francis WN,Kucera H. Frequency analysis of English usage: Lex-icon and grammar[M]. Boston: Houghton Mifflin,1982
[9]Breland,H. M. word frequency and word difficulty: A comparison of counts on four corpora[J]. Psychological Science,1996(2):96-99
[11]蔡子亮。 术语标准化与信息技术[J]. 英语科技术语的翻译,2005(2):31-32
[12]孙继兰。 外文原版教材出版提供词汇抽取服务可行性分析[J]. 科技与出版,2013(4):54-57
[13]黄河燕,张克亮,张孝飞。 基于本体的专业机器翻译术语词典研究[J].中文信息学报,2007,21(1): 17-22
[14]刘婷婷。 云南省高职高专非英语专业学生英语阅读理解长难句的障碍研究及解决方法[J].赤峰学院学报(自然科学版),2013,29(1,上):251-253
[15]何正胤。 高中英语阅读教学策略探析[J]. 湘潭师范学院学报(社会科学版),2006,28(2):179-180
[16]常宝宝,俞士汶。 语料库技术及其应用[J]. 外语研究,2009(5):43-51
[17]江少敏。 句子难度度量研究[D]. 厦门:厦门大学,2009
[18]Kim,Young-Bum; Kim,Youngjo; Kim,Yu-Seop. Sentence difficulty analysis with local feature space and global distributional difference. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)[C].v 7425 LNCS,p 716-722,2012,Convergence and Hybrid Information Technology - 6th International Conference,ICHIT 2012,Proceedings.
[19]章辞。 英文易读性研究: 回顾与反思[J]. 湖南工程学院学报,2010,20(3):47-51
[20]邢富坤,程东元。 基于统计语言模型的英语易读性研究[J]. 外国语学院学报,2010,33 (6): 19-24
[21]王传英。 基于双语平行语料库的信息服务平台建设[J]. 图书馆工作与研究,2010(12):79-82
语言文字工作汇报材料3
搞清楚主要意图。上级听取下级的工作汇报一般带有很强的目的性,对汇报内容、范围、时间、形式等都会有明确要求,这就需要我们必须准确掌握上级最重视什么、最想听哪方面的内容,做到有的放矢。
把握好领导特点。不同的上级领导,由于职能分工、工作经历、思维方式、语言风格等有所不同,对工作汇报的要求也会有所不同。
基础:情况掌握要到位
吃透上情。上级对相关工作的决策与部署,具有全局性、战略性和指导性,是汇报材料写作的重要理论依据,因此,必须把这些大政方针和决策部署学深悟透。
摸清下情。汇报材料需要大量实实在在的内容做支撑。要对基层工作开展情况、取得成效、经验做法和有关数据等了然于胸。
把准“内情”。从本级工作实际出发,进行认真分析与梳理,总结经验与教训,准确找出存在的问题和不足,明确未来的工作思路和发展方向。
关键:谋篇布局要到位
结构要合理。按照“层次清晰、段落完整,纲目清楚、思路贯通,衔接顺畅、逻辑缜密”的要求,把基本情况、主要做法、存在问题、下步打算等内容进行合理编排,使汇报材料错落有致、张弛有度。
详略要得当。汇报材料的写作要正确处理好点与面、一般与特殊的关系,做到既有“点”的铺陈,又有“面”的浓缩。
语言要精练。汇报材料在语言表达上切忌冗长繁琐、拖泥带水、废话连篇,要做到通俗易懂、自然流畅、言简意赅。
核心:内容安排要到位
重点要突出。要分清主次轻重,把更多的笔墨用在有话可说、有思想可挖、有经验可总结的内容上。
观点要鲜明。注重从以往工作中提炼出鲜明的思想、见解和观点,使汇报材料给人启迪、耐人寻味,让上级留下深刻的印象。
要彰显特色。就是要把“人无我有、人有我优、人优我精”的特色做法写充分、把最具个性的措施写出彩、把最鲜活的经验写到位。
材料要真实。汇报材料最大的特点就是用事实说话。要实事求是,说实话、报实情,对所汇报的有关情况和涉及的数据内容,进行反复核实、科学论证,确保准确无误。
保证:推敲修改要到位
进一步审视内容。主要看思想是否有问题、观点是否正确、内容是否突出、材料是否真实,要反复查看是否还有需要调整或变通的地方。
下一篇:语文月考总结与反思精编5篇