传统文化节目热播思考(精选5篇)

发布时间:

在日常学习、工作或生活中,说到作文,大家肯定都不陌生吧,作文是人们把记忆中所存储的有关知识、经验和思想用书面形式表达出来的记叙方式。相信许多人会觉得作文很难写吧,如下是勤劳的小编给家人们分享的传统文化节目热播思考(精选5篇),欢迎参考。

经典的传统文化 篇1

一、选材不广泛,只注重儒家

中国文化有五千多年的历史,涌现出了老子、庄子、孔子、荀子、墨子、韩非子等众多思想家。和以《梦溪笔谈》《天工开物》等为代表的科学文化以及以诗词、书法、戏曲等为代表的艺术文化,这些都是中国传统的国学经典。目前,国学经典阅读都是以儒家为主,不利于中国文化多样性的发展。让学生认为中国传统文化只有儒家文化一种,不利于学生思想多样性的形成和发展。

读书先治史。我们的经典阅读应先从讲“文化史”开始,通过浅显生动的故事化的讲读,让小学生知道传统文化发展的脉络,知道诸子百家,知道他们的主张和思想。

在阅读的选材上,要注重文化思想的多样性。儒家、墨家、法家,传统的科学文化、艺术文化都要有适当的比例。

二、重背轻讲,割裂与当前课程教学的联系

小学生如何进行国学经典的学习,是否让学生背会《三字经》《弟子规》《唐诗宋词》,就算完成了经典的阅读教学?自汉朝以来,私塾的教学过程主要是识字―教书―背书―理书―讲书―读书―习字―作对―学问。这套教学过程并不适应今天的经典阅读教学。

由于小学生年龄小,传统经典内容过深,文意上的差异,即使教师讲解,学生也不能领会。对国学经典的讲读应该从内容入手,把经典中的内容变成我们生活中的故事,从讲故事入手,让学生对学习国学经典产生兴趣。

同时,传统的儒家经典是为封建统治阶级服务的,它的一些内容并不符合当前社会发展的要求,甚至对学生的一些思想产生了负面的作用,我们要把它从经典阅读学习中有选择地去除。

在我们的小学课程中,有许多传统文化的经典教学内容。在我们的经典阅读教学中,我们应强化阅读教学,为课程教学服务,阅读教学是课程教学的拓展,而不应割裂它们之间的联系。

三、不能将中国传统文化和当前的社会发展有机联系起来

传统文化是现代文化的根脉,它必须和社会的发展联系起来。在我们的国学经典阅读教学中存在着简单化的问题,只是把传统文化教下去,没有把传统文化用社会发展的线索和现代文化有机地结合起来,也就谈不上对传统文化的继承与创新。

文化传统与传统文化 篇2

关键词:新农村文化建设传统

新农村建设是当前我国一项重大决策与重要任务,文化建设又是整个新农村建设中的重要组成部分。而传统文化对于新农村文化建设,具有极为重要的意义与作用。

一、传统精神与文化方向

新农村文化建设,自始至终都要牢牢把握先进文化的前进方向。而传统文化中的传统精神,就是文化发展的历史基础,这种传统精神的神髓,就是民族精神。弘扬传统的民族精神,必须纳入新农村文化建设的全过程。

让传统的民族精神成为新农村文化建设的方向,具体要做到以下几点:

1.以爱国主义为核心。爱国主义是我国传统文化中民族精神的灵魂与核心,从“位卑未敢忘忧国”“天下兴亡,匹夫有责”的理念传承,到戚继光、林则徐等民族英雄,莫不体现出这一点。要使爱国主义思想教育上升到一个新的层次,必须落实到看得见、摸得着、心中思、手头干的实处。

2.以团结一心为要点。讲合力、重团结,也是我国传统文化中民族精神的重要因素。“三人一心,黄土变金”“三个臭皮匠,顶个诸葛亮”“团结就是力量”所有这一切,都成为历史经验的总结和指导行动的座右铭。为此,要以新农村文化建设为契机,形成磁力场和凝聚力,使广大农民群众发扬团结统一的精神,携手并进、共同致富。

3.弘扬自强不息的精神。中华民族自古以来就不甘落后、立志争先。当前,要弘扬广大农民群众的自尊、自爱、自重、自强的文化精神,要奋发图强,为做新一代农民感到自豪,为社会主义新农村建设做出自己的贡献,进而真正解决“三农”(农业、农村、农民)问题。

二、传统道德与文化品格

新农村文化建设,也要注重文化品格。我们要倡导科学、文明,克服封建迷信、愚昧落后,以促进农村物质文明、精神文明协调发展,为构建和谐社会提供保障。

著名艺术教育专家彭吉象说:“道德作为一种社会文化现象,又与其他精神文化有着紧密的联系”而传统道德中有许多文化精华值得弘扬,并对新农村文化建设具有重要作用。当前,在继承弘扬传统道德文化以加强新农村文化建设方面,重点要做好以下三项工作:

1.遵守社会公德。道德具有社会性,它是具有社会性的人在社会活动中的行为规范和准则。因此首先要使广大农民群众在从事各种社会活动中,遵守社会公德,认真贯彻《公民道德建设实施纲要》和总书记提出的“八荣八耻”,从而使传统道德与社会主义思想道德体系相承接。

2.恪守职业道德。要使广大农民群众种好地、生产放心产品,不投机取巧,要靠智慧致富。

3.信守家庭美德。家庭是社会的细胞,家庭和睦是社会和谐的基础。要使广大农民群众信守家庭美德:孝敬长辈、尊重同辈、关心晚辈。要严于律己,不偷不赌,不搞邪门歪道,不酗酒闹事等等。

三、传统艺术与文化娱乐

新农村文化建设,不能是干巴巴的标语口号,必须寓教于乐,使广大农民群众在文化娱乐中接受文化教育和文化熏陶,从而提升文化素质。

传统文化中的传统艺术,就承担着这方面的重任。当前,弘扬传统艺术并使之在文化娱乐中充分发挥教育功能,重点也应做好以下三项工作:新晨

1.开展广泛的群众性艺术娱乐活动。镇(街、区)文化站(所)要大力组织、精心开展各种群众性艺术活动。就如中共中央办公厅、国务院办公厅《关于进一步加强农村文化建设的意见》指出的那样:“农村文化活动要贴近群众生产生活实际,坚持业余自愿、形式多样、健康有益、便捷长效原则,丰富和活跃农民群众精神文化生活。”

2.开展送文艺下乡活动。这种活动可以大大促进农村文化建设。2004年,我们到石桥头村举行专场文艺演出,并组织古山镇“首届方山柿文化旅游节开幕式”演出与文艺踩街活动;2005年,我馆参加了“象珠镇首届文化艺术节开幕式”演出和“‘华溪春潮’走进前仓”大型文艺演出等。这些活动都促进了新农村文化建设,获得一致好评。

传统文化的基本特征 篇3

关键词:平面设计 传统文化 运用

一、引言

传统文化是社会的灵魂,伴随着现代社会的发展,中国现代设计的发展应建立在对传统文化继承基础上,必须找到赖以生存的根基,这个根基就是传统文化。中国传统文化具有独特的韵味使创作的自由空间拓展开来。中国平面设计应对传统文化作深人而系统的研究,重视对传统文化的开发,创造有深厚传统文化底蕴的作品。本文着手于传统文化,整合传统文化与平面设计的关系,探讨传统文化与平面设计的应用问题。

二、传统文化是现代平面设计发展的根基

全球化的进程影响了当今的文化,搞笑的肥皂剧、滑稽动画片、麦当劳等进人到人们的生活,成为一种充满洋味的社会文化。新的生活方式打破了原有的社会结构,人们有了新的价值观与审美观,设计中没有了传统文化,失去了发展的根基,作为中国的平面设计,这种没有意味的作品不会被世界所认同。因此,伴随着现代社会的发展,在平面设计的过程中,对传统文化的学习是必要的。

中国传统文化优秀营养成分只要花更多的时间来挖掘,它的意义是深远的。平面设计的发展必然建立在对传统文化继承与发展基础之上,必须找到赖以生存的根基,这个根基就是传统文化。中国虽没经历西方的工业革命与现代设计运动,并不等同于失去发展本国设计的能力。中国传统文化具有独特的韵味,较西方文化表现的直观感性,多了些理性的浪漫理想,中国平面设计应对传统文化作深入而系统的研究,重视对传统文化的开发,运用有意味的元素,创造有深厚文化底蕴的平面设计作品。

三、文化与现代平面设计的整合与应用

现代平面设计有必要以发展传统文化为己任,经济发展,现代技术的提高,把探讨当代设计的着眼点放在传统的文化中进行分析尤为必要。平面设计中具有诸多影响因素,诸如文化等,在西方艺术思潮融人中国平面设计的时候,我们对于中国传统文化重新从另一个角度思考,这吸引了很多目光。中国的现代平面设计离不开传统文化,也离不开当前的设计观念更新,现代平面设计理念必须植根于传统文化基础之上,建立在中国人审美情趣基础之上,现代平面设计的理念不但是融合现代设计观念和设计思维,也丰富了传统文化的内涵,创造符合当今时代特征的社会主义新作品。

在当今的现代平面设计中融人传统文化的一些特征、符号,也成为现代平面设计探索中国传统文化潜质的一种趋势。比如建筑大师贝聿铭先生设计的中国香山饭店就是运用江南水乡青砖灰瓦色调,使现代建筑加上中国传统文化情怀,形成了一种文化上的共鸣。这里需要明白的是,在传统文化与现代平面设计的融合的过程之中是彼此吸收精华的过程,借鉴传统特征和符号,有目的地选择作为文化载体的中国传统文化,将传统文化中精华融进现代平面设计中去。此,我们应该倡导使中国的传统文化艺术在现代设计中得以延伸发展,在理解的基础上取其“形”、延其“意”、从而传其“神”,用中国传统文化精粹,以现代化国际化语言来表达,把中国传统文化的精神元素融人现代平面设计之中,使民族的文化精神和世界的设计语言,共同融汇成现代设计艺术的主流,必定会使现代平面设计更具文化性与社会性,使传统文化得到再生,并焕发新的生机。

著名平面设计师靳埭强先生为日本“自在”纸坊创作的一种具有中国文化特色的海报设计,在纸纹上运用了传统手造纸的毛边,宣纸竹纹变化,构成中国山水自然绘画意境的疏散意象,表现了中国人文性情无束,悠然自得的生活态度。整幅海报制作结合中国传统图案艺术表现手法,把作品风格淋漓尽致突显。

奥运会标志的成功就是最好的范例:五星,五环,象形的“中国结”传统图案,以及与中国传统文化精髓——太极拳结合,使得标志如行云流水般生动和谐。作品在体现现代设计观念的同时,也折射出了本民族的审美价值取向和历史文化特征。充分展示了传统文化理念与现代标志设计紧密结合的艺术魅力。该标志整体结构也是取自传统吉祥装饰图案“盘长”,但可贵的是它没有对这一传统造型直接借用,而是运用了中国书法中所特有的笔不到而意到的写意手法,恰到好处地传递出“中国结”和“运动员”两个动势与意象,并借以表达标志主题和传达人民的祝愿。

香港凤凰卫视的台徽,借鉴了中国传统艺术中“喜相逢”图案,反映出一种厚实的带有民族文化底蕴的特征,而且凤乌两两相对,旋转的翅膀极富动感,体现了圆满、吉祥、欣欣向荣的美好寓意,这种对未来的美好希冀与向往的装饰图案展示了中国传统艺术表现的特色手法。“上海老酒”包装的创意设计就采用了传统纹样和老上海建筑的特征,将传统图案和地域特征结合当代人的欣赏习惯,表现了老上海的传统文化,给人以古朴、回归的感觉,设计出了喜闻乐见的现代酒包装。

《迎接新世纪》海报赵萌在设计中运用了中国龙作为主题图案,把中国人民龙的情结与现代设计艺术结合一起,既有新意又不拘泥形式,在传统表现形式上强调新的创意、赋于新的内容,表现新的理念。其视觉语言简洁明快,一目了然。

中国定向运动协会的标志设计以体现人们回归自然、体验健康的愉悦精神内核作为创意原点。标志借用司南椭圆的外观造型与国际通用的定向运动标志相结合,取意天圆地方、天地合一之意,整个标志给人以宁静、悠远又不失动感,体现了中国定向运动协会“回归自然,体验健康,珍爱生命”的运动宗旨和“在休闲中锻炼,在锻炼中休闲”的理念。司南作为中国最早的指南针,四大发明之一,是中国古代人民智慧的结晶。司南的运用代表着中国传统文化的延续和升华,让人联想到定向运动的特点,更寓意着这项运动与中国的历史渊源。

在现代平面设计中,如何能把握传统装饰图案关系及运用,我们不仅需要掌握图案色彩的对比、统一及变化等基本规律。还要注意汲取中国传统民族图案艺术中的色彩精华并加以创造性地发挥与运用,才能更好地体现出的中国平面设计民族风格。

中华传统文化知识 篇4

关键词:传统文化;文化常识;教学实践

《完善中华优秀传统文化教育指导纲要》中明确指出:要分学段有序推进中华优秀传统文化教育,高中阶段要以增强学生对中华优秀传统文化的理性认识为重点,引导学生感悟中华优秀传统文化的精神内涵,增强学生对中华优秀传统文化的自信心。在“大语文”教学的背景下,语文教育目标的实现一大重要根基就是对文化常识的积累和掌握。笔者针对文化常识在高中语文教学中具有的重要地位,对“文化常识”题的备考提供一些建议,以请教于方家。

一、文化常识的社会学内涵与概念范畴

“文化”是“人文化成”一语的缩写,出自《易经》贲卦:“刚柔交错,天文也;文明以止,人文也。观乎天文,以察时变,观乎人文,以化成天下。”所以,我们可以把“文化”理解为能被传承的国家历史地理知识、民族风土人情、传统生活习俗方式、文学艺术、行为规范、思维方式与价值观念。文化常识就成为传承中华民族传统价值观的载体,可以陶冶、教化学生,影响学生的思维习惯与行为方式,帮助他们成长为有知识修养和道德信仰的“文化人”。

二、对高考语文“文化常识”考查的梳理

1981年,高考语文试卷中首次出现“文学常识”题;1983年将“文学常识题”改为“语文常识题”,除“古代文化常识”外,还包括默写、文体知识、作家作品常识、汉字构字知识等。1984年以后历年高考都有文化常识题,逐渐涉及历史知识(1986年)、历史典故、传统故事、对联(1987年)、史地知识和古代文献知识(1989年)、古诗中描写到的传统节令(1993年)、传统礼貌称谓(1994年)、古代人物称谓(1995年)等中国传统文化常识。①

从近三年高考试卷来看,2014年大纲卷考查“解褐”、“南面”、“故事”、《春秋》。

2015年新课标卷Ⅰ考查“登进士第”“兵部”“庙号”“太子”;新课标卷Ⅱ考查“男子名、字”“谥号”“嗣位”“阙”。

2016年全国卷Ⅰ考查“首相”“建储”“有司”“契丹”;全国Ⅱ卷考查“中宫”“陛下”“吏部”“移疾”;全国Ⅲ卷考查“礼部”“教坊司”“致仕”“两京”。

可以看出,全国大纲、课标卷侧重对古代传统文化常识中“官职称谓、继承制度、科举司法、古籍常识、历史地理、风俗节日”的考查,内容广泛,范围不定,考查内容不具规律性,内容零散细碎,对考生的知识储备量和识记准确性的要求很高。

三、文化常识积累在高中语文教学中的现状

一直以来,文化常识因在高考内容中占比有限、内容庞杂不易总结规律而在教学中被忽视,只有个别内容会因高考涉及而被从教材中截取出来进行割裂语境的识记掌握。由于各个知识点内容孤立,且不定时出现在各篇章中,教师教起来蜻蜓点水,学生记起来费时费力,且成效不大。

四、文化常识积累在教学实践中的方向和思考

《普通高中语文课程标准》明确规定:“高中语文教学应让学生阅读中国古代优秀作品,体会其中蕴含的中华民族精神,为形成一定的传统文化底蕴奠定基础。”因此,在教学实践中,在必修的五册教材及选修教材《中国古代诗歌散文欣赏》的古诗文教授中,应注意挖掘古代文化知识,注意激发学生学习兴趣,并适度讲读其与现实相关的深刻内涵。

高中阶段涉及的文化常识可作如下细致划分:

(1)制度与职官:宗法制、分封制、禅让制、客卿制度、古代官员的俸禄、退休、三省六部制、九品官人法、三公九卿等。

(2)教育科举:察举、征辟、孝廉、院试、童试、乡试、会试、殿试、进士、举人、秀才、连中三元等。

(3)经济制度:井田制、屯田制、占田法、均田制、均输、平准。

(4)古籍常识:纪传体、编年体、起居注、方志、类书、善本、十三经、二十四史、《四库全书》与七阁。

(5)历史地理:“华夏”“中国”“九州”由来,四大名镇、洛阳史话等。

(6)古代礼仪:封禅、宗庙、丧葬习俗、五服、夺情、冠礼、笄礼等。

(7)风俗节日:元旦、人日、元宵节、花朝节、上巳节、社日、寒食、清明、端午等。

对于以上这些细致分类的文化常识,教师应该对其进行纵向分析和横向比较,梳理出各概念之间内在的关联性,努力探索学习积累文化常识的方法并总结有益经验,教会学生积极主动探索发现其内在深刻文化意蕴,了解感悟其时代意义,摒弃死记硬背,采用灵活记忆、分类识记,条理清晰,提高效率。希望通过本篇文章的探讨,对高中语文教学中文化常识的积累提供一些可行性建议,为大语文教育目标的实现贡献一丝微薄之力。

注释:

①⒅一。文化常识:社会主流价值观念的载体[J].社会科学论坛,2009(12下).

参考文献:

1.沈霞。在古诗文教学中渗透文化常识的实践与思考[J].文学教育,2010(7).

2.任浩之。国学常识全知道[M].中国友谊出版公司,2010(9).

传统文化的基本特征 篇5

关键词:文本挖掘;文本特征表示;特征提取;模式识别

文本挖掘主要完成从大量的文档中发现隐含知识和模式的任务,一般处理的对象都是海量、异构、分布的文档。传统数据挖掘所处理的数据是结构化存储于数据库当中,而文档都是半结构或无结构的。所以,文本挖掘面临的首要问题是如何在计算机中表示文本,使之包含足够的信息反映文本的特征。目前的网络信息中80%是以文本的形式存放,Web文本挖掘是Web内容挖掘的重要内容。

文本的表示与特征提取是文本挖掘领域中的基本问题。目前通常采用向量空间模型生成文本向量来表示非结构化的文本数据。但直接通过分词与词频统计得到的高维度文本向量作为文本表示,不仅给文本理解等后续任务,比如:文本分类、聚类等,带来巨大的计算开销,且精确也会受到影响。因此,研究有效的文本特征选择与压缩方法来进行降维处理,是十分必要的。

目前有P文本表示的研究主要集中在文本表示模型方法与特征选择算法方面。用于表示文本的基本单位通常称为文本的特征或特征项。在中文文本中,采用字、词或短语作为表示文本的特征项。目前大多数中文文本分类系统都采用词作为特征项。(但考虑到文本挖掘的不同具体任务,有时也会将字或者短语作为特征项。)如果把所有的词都作为特征项,那么其特征向量的维数将非常高,要高性能地完成文本分类、聚类等文本理解任务将非常困难。特征提取与压缩主要是为了保持文本核心信息表达的同时,尽量降低特征向量的维度,从而提高文本处理的效率。

特征提取主要有如下四种思路:一是用映射或变换的方法把原始特征变换为较少的新特征;二是从原始特征中选取一些最具代表性的特征;三是根据专家知识选取最有影响的特征;四是用统计方法找出最具分类信息的特征,这种方法适合于文本分类任务。下面将从文本特征评估方法、文本特征选择方法、以及基于领域语义理解的文本特征提取方法等方面,对文本表示与特征提取研究领域现有的研究成果进行综述,然后再展望未来文本特征表示与提取技术可能的研究热点。

1 主流基于统计的文本特征评估方法

1.1 词频(TF: Term Frequency)、文档频度(DF: Document Frequency)与TFIDF

(1)词频(TF: Term Frequency):即一个词在文档中出现的次数。将词频小于某一阈值的词删除,从而降低特征空间的维数,完成特征选择。该方法是基于出现频率小的词对文本表达的贡献也小这一假设。但有时在信息检索方面,频率小的词可能含有更多信息。因此,不宜简单地根据词频来选择特征词。

(2)文档频度(DF: Document Frequency):即统计在整个数据集中有多少个文档包含该词。在训练文本集中对每个特征词计算其文档频度,并且根据预设阈值去除那些文档频度超高或超低的特征词。文档频度的计算复杂度较低,适用于任何语料,常用于语特征降维。

考虑到文档频度超高或超低的特征词分别代表了“代表性弱”或“区分度低”这两种极端情况,故而需要删除。DF 的缺陷是有些稀有词可能在某一类文本中并不稀有,即可能包含着重要的类别信息,如果舍弃将可能影响分类精度。

(3)TFIDF:它是由Salton在1988 年提出的。其中IDF称为反文档频率,用于计算该词区分文档的能力。TF*IDF 的基本假设是在一个文本中出现很多次的单词,在另一个同类文本中出现次数也会很多,反之亦然;同时考虑单词含有的类别区分能力,即:认为一个单词出现的文档频率越小,其类别区分能力越大。

TFIDF算法用于特征词权值估计就是为了突出重要单词,抑制次要单词。但IDF的假设认为文本频数小的单词就越重要,文本频数大的单词就越无用,并不能有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能,导致TFIDF算法法的精度并不是很高。特别是,TFIDF算法中没有体现出单词的位置信息对其重要性的影响,对于Web文档而言,权重的计算方法应该体现出HTML的结构特征。特征词在不同的标记符中对文章内容的反映程度不同,其权重的计算方法也应不同。因此如何对于在网页不同位置的特征词分别赋予不同的系数,然后乘以特征词的词频,以提高文本表示的效果,成为了研究者关注的热点。

1.2 统计词与类别信息相关度的文本特征评估方法

互信息:互信息用于衡量某个词和某个类别之间的统计独立关系。

互信息作为计算语言学模型常用分析方法,原是信息论中的概念,用于表示信息之间的关系,即两个随机变量统计相关性测度。它被用于特征提取是基于如下假设:在某个特定类别出现频率高,但在其它类别出现频率比较低的词条与该类的互信息比较大。考虑到无需对特征词和类别之间关系的性质作任何假设,非常适合于文本分类的特征和类别匹配工作。

特征词和类别的互信息体现了特征词与类别的相关程度,被广泛用于建立词关联统计模型。它与期望交叉熵不同,它没有考虑特征词出现的频率,使得互信息评估函数更倾向于选择稀有词而非有效高频词作为文本的最佳特征。以互信息作为提取特征值的评估方法时,最终会选取互信息最大的若干特征词构成文本向量。互信息计算的时间复杂度平均值等同于信息增益,它不足之处在于权重受词条边缘概率影响较大。当训练语料库没有达到一定规模的时候,特征空间中必然会存在大量的出现文档频率很低(比如低于3 次)的词条,而较低的文档频率必然导致它们只属于少数类别。但是从实验数据中发现,这些抽取出来的特征词往往为生僻词,很少一部分带有较强的类别信息,多数词携带少量的类别信息,甚至是噪音词。

二次信息熵:将二次熵函数取代互信息中的Shannon熵,形成基于二次熵的互信息评估函数。它克服了互信息的随机性。作为信息的整体测度,比互信息最大化的计算复杂度要小,可提高分类任务征选取的效率。

期望交叉熵:也称KL距离。反映的是文本某一类的概率分布与在某特征词的条件下该类的概率分布之间距离,特征词w的交叉熵越大,对文本类的分布影响也越大。它与信息增益不同,它没有考虑单词未发生的情况,只计算出现在文本中的特征项。如果特征项和类别强相关,即:P ( Ci | w )就大,而P( Ci) 又很小,则说明该特征词对分类的影响大。交叉熵的特征选择效果都要优于信息增益。

信息增益方法:用于度量已知一个特征词在某类别的文本中是否出现对该类别预测的影响程度。信息增益是一种基于熵的评估方法,用于评估某特征词为整个分类所能提供的信息量,即:不考虑任何特征词的熵与考虑该特征后的熵的差值。根据训练数据,计算出各个特征词的信息增益,删除信息增益很小的,其余的按照信息增益从大到小排序。某个特征项的信息增益值越大,对分类也越重要。

信息增益最大的问题是:它只能考察特征词对整个分类系统的贡献,而不能具体到某个类别上,这就使得它只适合用来做所谓“全局”的特征选择(指所有的类都使用相同的特征集合),而无法做“本地”的特征选择(每个类别有自己的特征集合,因为有的词,对这个类别很有区分度,对另一个类别则无足轻重)。

其它的文本特征评估方法:比如卡方统计量方法、文本证据权、优势率等,这些方法也都是用于评估特征词与文本类别的相关性。其中,在卡方统计和互信息的不同在于, 卡方统计其评估权重只对在同类文本中的词是可比的, 另外,它对低频词评估实用性不高。

2 主流的文本特征选择方法

2.1 N-Gram算法

其基本思想是将文本内容按字节流进行大小为N的滑动窗口分段,形成长度为N的字节片段序列。每个字节片段称为一个N-Gram单元,对全部N-Gram单元的出现频度进行统计,并按照事先设定的阈值进行过滤,形成关键N-Gram列表,作为该文本的特征向量空间。由于N-Gram算法可避免中文分词错误的影响,适用于中文文本处理。中文文本处理大多采用双字节进行分解,即:bigram。但是bigram切分方法在处理20%左右的中文多字~时,会产生语义和语序方面的偏差。而对于专业领域文本数据,多字词常常是文本的核心特征,处理错误将导致负面影响。于是有研究者提出改进的基于N-Gram文本特征提取算法,即:在进行bigram切分时,不仅统计bigram的出现频度,还统计某个bigram与其前邻bigram的共现情况。当共现频率大于预设阈值时,将其合并成为多字特征词。该算法,较好地弥补N-Gram算法在处理多字词方面的缺陷。

2.2主成分分析算法

该算法通过搜索最能代表原数据的正交向量,建立一个替换的、较小的特征集合,将原数据投影到这个较小的集合。主成分分析(PCA)按其处理方式的不同,又分为数据方法和矩阵方法。矩阵方法中,所有数据通过计算方差-协方差结构在矩阵中表示出来,矩阵的实现目标是确定协方差矩阵的特征向量,它们和原始数据的主要成分相对应。考虑到矩阵方法的计算复杂度随着数据维度n的增加,以n的二次方增长,有研究者提出了使用Hebbian学习规则的PCA神经网络方法。

2.3遗传算法与模拟退火算法

(1)遗传算法(Genetic Algorithm, GA):是一种通用型的优化搜索方法,它利用结构化的随机信息交换技术组合群体中各个结构中最好的生存因素,复制出最佳代码串,并使之一代一代地进化,最终获得满意的优化结果。如果将文本看作是由若干个特征词构成的多维空间,那么将文本特征提取问题就转化为了文本空间的寻优过程。有研究者已经将遗传算法应用于这个寻优过程中。首先对文本空间进行编码,以文本向量构成染色体,通过选择、交叉、变异等遗传操作,不断搜索问题域空间,使其不断得到进化,逐步得到文本的最优特征向量。

基于协同演化的遗传算法使用其它的个体来评价某一特定个体。个体优劣的标准是由在同一生存竞争环境中的其它个体决定。这种协同演化的思想与处理同类文本的特征提取问题相吻合。同一类别文本相互之间存在着相关性,各自所代表的那组个体在进化过程中存在着同类之间的相互评价和竞争。因此,每个文本的特征向量(个体)在不断的进化过程中,不仅受到其母体(文本)的评价和制约,而且还受到其它同类个体的指导。基于协同演化的遗传算法不仅能反映其母体的特征,还能反映其它同类文本的共性,从而有效地解决同一类别的多个文本的集体特征向量的提取问题,获得反映整个文本集合最佳特征向量。

(2)模拟退火算法:将特征选取看作组合优化的问题,因而可以使用解决优化问题的方法来解决特征选取的问题。模拟退火算法(Simulating Anneal,SA)就是其中一种方法。将模拟退火算法运用到特征选取中,理论上可以找到全局最优解,但在初始温度的选取和邻域的选取时,需要找到有效的策略来综合考虑解的性能和算法的速度。

3 词向量(word embedding)

深度学习(Deep Learning)中一般用到的词向量是用词向量(Word Embedding)或分布式表达方法( Distributed Representation)所表示的一种低维实数向量。维度以 50 维和 100 维比较常见。这种向量的表示不是唯一的。词向量的提出,为的是将相关或者相似的词,在距离上更接近。向量的距离可以用最传统的欧氏距离来衡量,也可以用 cos 夹角来衡量。比如:用这种方式表示的向量,“麦克”和“话筒”的距离会远远小于“麦克”和“天气”。可能理想情况下“麦克”和“话筒”的表示应该是完全一样的,但是由于有人会把英文名“迈克”也写成“麦克”,导致“麦克”一词带上了一些人名的语义,因此不会和“话筒”完全一致。该方法很好地解决了传统的文本特征向量用于文本挖掘任务时可能出现的维数灾难问题,因而被很多研究者广泛地用于各类文本挖掘的任务当中。

4 基于领域语义理解的文本特征提取方法

4.1基于语境框架的文本特征提取方法

有研究者发现,单单依靠统计无法完成语义分析。没有考虑句子的语义以及句子间的关系的情况下,无法提取准确的文本特征向量来表达文本语义。因此,研究者提出将语义分析与统计算法相结合的语境框架算法,并获得了丰富的研究成果。可以将语境框架看作是一个三维的语义描述框架,即:把文本内容抽象为领域(静态范畴)、情景(动态描述)、背景(褒贬、参照等)三个模块。在语境框架的基础上,从语义分析入手,实现了四元组表示的领域提取算法、以领域句类为核心的情景提取算法、以对象语义立场网络图为基础的褒贬判断算法。该算法可以有效地处理语言中的褒贬倾向、同义、多义等现象,表现出较好的特征提取能力。

4.2基于本体论的文本特征提取方法

有研究者提出了应用本体论(Ontology)模型,有效地解决特定领域知识的描述问题。比如:针对数字图像领域的文本特征提取问题,可以通过构建文本结构树,给出特征权值的计算公式。算法充分考虑特征词的位置以及相互之间关系的分析,利用特征词统领长度的概念和计算方法, 能够更准确地进行特征词权值的计算和文本特征的提取。

4.3基于Z义网络的概念特征提取方法

文本挖掘,特别是中文文本挖掘,处理的对象主要有字、词、短语等特征项。但字、词、短语更多体现的是文档的词汇信息,而非语义信息,因而无法准确表达文档的内容。目前的大多数关于文本特征提取的研究方法只注重考虑特征发生的概率和所处的位置,缺乏语义方面的分析。向量空间模型(VSM)最基本的假设是各个分量相互正交,但事实上,作为分量的特征词间存在很大的相关性,无法满足模型的假设。基于概念的特征提取方法是在VSM的基础上,对文本进行部分语义分析,利用英文的WordNet或中文的知网等语义网络获取词汇的语义信息,将语义相同的词汇映射到同一概念,进行概念聚类。用概念作为文档向量的特征项, 这样就能够比一般词汇更加准确地表达文档内容,减少特征之间的相关性和同义现象,从而有效降低文档向量的维数,减少文档处理计算量,提高特征提取的精度和效率。

5 总结与展望

本文对近年来文本特征提取研究领域所取得的研究成果进行了全面的综述。随着人工智能深度学习技术的发展,在未来几年中,将可能从以下几个方面取得突破:(1)文本特征提取及文本挖掘在专业领域,比如:金融领域、军事领域等的应用研究。(2)新的文本特征表示模型,比如考虑使用层次结构的向量对文本进行建模,关键词向量能快速定位用户的兴趣领域,而扩展词向量能准确反映用户在该领域上的兴趣偏好。结合领域知识,采用概念词、同义词或本体来代替具体的关键词成为特征词,体现语义层面的需求和分析。(3)改进分词算法。比如针对特征提取的需要,应用深度学习算法框架,建构高性能的分词系统。(4)改进特征评价函数。比如考虑将表达文本结构的特征提取与表达文本语义的特征提取进行交叉解码,即对特征词的权重从表达文本结构与文本语义两个层面进行评价。

责编/魏晓文

参考文献

[1] Bengio Y, Schwenk H, Senécal J, et al. Neural Probabilistic Language Models[J]. Journal of Machine Learning Research, 2003, 3(6):1137-1155.

[2] Salton G, Buckley C. Buckley, C.: Term-Weighting Approaches in Automatic Text Retrieval. Information Processing & Management 24(5), 513-523[J]. Information Processing & Management, 1988, 24(5):513-523.

[3] 刘健, 张维明。 基于互信息的文本特征选择方法研究与改进[J]. 计算机工程与应用, 2008, 44(10):135-137.

[4] 成卫青, 唐旋。 一种基于改进互信息和信息熵的文本特征选择方法[J]. 南京邮电大学学报(自然科学版), 2013, 33(5):63-68.

[5] Cavnar W B, Trenkle J M. N-Gram-Based Text Categorization[C]// In Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval. Las Vegas, US. 1994:161--175.

[6] 陈素芬, 曾雪强。 中心修正增量主成分分析及其在文本分类中的应用[J]. 中文信息学报, 2016, 30(1):108-114..

[7] 郝占刚, 王正欧。 基于潜在语义索引和遗传算法的文本特征提取方法[J]. 情报科学, 2006, 24(1):104-107.

[8] 晋耀红, 苗传江。 一个基于语境框架的文本特征提取算法[J]. 计算机研究与发展, 2004, 41(4):582-586.