你的位置:首页 > 信息动态 > 新闻中心
信息动态
联系我们

自然语言和形式语言

2021/12/24 2:44:14

目录

一,自然语言

1,自然语言的范畴

2,最小单元

(1)音节、读音

(2)单字、单词

(3)语素

(4)词

3,语法、词法、句法

(1)抽象性

(2)生成性

(3)系统性

(4)层次性

(5)递归性

4,语义

二,形式语言


一,自然语言

1,自然语言的范畴

自然语言的范畴,主要包括读音、字形、含义三大类。

读音是耳朵相关,字形是眼睛相关,含义是大脑相关,这三者都互相相关,并不独立。

读音方面,主要是音节和音调。

字形方面,主要是字母或者偏旁部首怎么组成单词。

含义方面,主要是包括语法、语义。

2,最小单元

简单的理解,英语最小单元是字母,大一点是词,再大一点是词组,再大一点是句子,汉语最小单元是字,大一点是词,再大一点是词组,再大一点是句子。

看起来还挺统一的,但从字形上,汉字还可以拆分,从发音上,一个汉字是一个独立的发声单元,而英语中字母却不是独立的发声单元,从含义上,单英文字母是没有含义的,汉字是有含义的,很多英语单词可以和汉字的含义对应,比如good好,look看。

(1)音节、读音

音节(Syllable)是语言中单个元音音素和辅音音素组合发音的最小语音单位,单个元音音素也可自成音节。
汉语的音节是由声母和韵母相拼组成的语音单位,单个韵母也可自成音节。
对英语西语俄语等非声调语言来说,其发音主体是音节。对汉语、泰语等声调语言来说,其语音除了音节还有声调,音节加上声调就是读音。

(2)单字、单词

汉语的单词即汉字,一个汉字就是一个音节,汉字的字形由偏旁部首构成。

英语的单词就是单词,有单音节单词,也有多音节单词,单词由英文字母构成。

(3)语素

语素是指语言中最小的音义结合体。

对于单音节语,如汉语、越南语、泰语等,语素大部分都是单音节的。

对于其他语言,语素由一到多个音节组成。

  • 汉语的单音节语素:天、地、人、跑、跳、唱、红、白
  • 汉语的双音节语素:琵琶、乒乓、澎湃,其中单个的字没有含义
  • 汉语的多音节语素:喜马拉雅、珠穆朗玛,其中的马作为单个的字倒是有含义,但是并没有组成喜马拉雅这个词的含义。

(4)词

词是构成句子的最小单位。

语素和词的含义很接近,词是一到多个语素组合而成。

比如,“春来了吗?”,春是语素,也是词。“春天来了吗?”春是语素,天是语素,春天是词。

3,语法、词法、句法

语法是从众多的语法单位里抽象出其中共同的组合方式、类型及如何表达语义的规则。

语法包括词法和句法。语法也叫文法。

词法,就是词的分类、性质、作用。词法也叫字法。

句法是词如何构成句子,即句子的分类和构成规则等。

语法有如下主要特点:

(1)抽象性

语法从词和句的个别和具体的东西中抽象出来,把作为词的变化和用词造句的基础一般的东西拿来,并且以此构成语法规则、语法规律。

例如汉语里有“看看、说说、写写、学习学习、讨论讨论”这一词的重叠现象,这反映出一条词的变化规律:有些动词可以用重叠的方法来表示动作的某一语义类型,即表示少量或短时。

语法学的任务是描写,解释组成词、短语和句子的规则和格式。由此可见,语法具有抽象性、概括性。

(2)生成性

我们可以根据有限的语法规则造出无数合格的句子来,这就表现了语法的生成性。语法规则的生成性,集中的表现在两个方面:组合关系和聚合关系

组合关系指的是语序结构。比如我吃饭(S+V+O)。你看书。他写字。上述都是同一种组合关系。
聚合关系,你、我、他都是人称代词,是一种聚合关系。饭、书、字在上述例子中都做宾语(实体名词),也是一种聚合关系。

(3)系统性

语法是一个严密的立体的开放的系统网络。

所谓“严密”,是指系统的内部是相互制约的,要受到一定的规则的支配,不是可以随心所欲的。

所谓“立体”,是指语法系统包括了句法结构,语法意义,语言运用这三个交叉的不同平面。

所谓“开放”,是指语法系统是发展变化的,一直在不断地自我完善,旧的成份被逐渐淘汰,新的因素在不断产生。

语法系统内部又由若干个子系统构成,例如语素系统,词类系统,短语系统,句子系统,句群系统,每个子系统可能由若干个孙系统构成。词类系统内部可以分为实词系统和虚词系统。句子系统内部可以分为单句系统,复句系统等等,从而形成一个系统网络。

(4)层次性

语法从表面上看是线性排列的东西,但是语法结构却是有层次性的。

语法的层次性与语法的递归性密切相关。

(5)递归性

递归是说,各种语法结构的关系是有限的,但是在语言单位的组合过程中,可以反复无限地使用这些有限的规则,从而使句法结构复杂化。例如:我买书。/我买一本书。/我买一本有趣的书。

4,语义

关于知识的概念没有明确的定义,一般来说,知识为人类提供了一种能够理解的模式用来判断事物到底表示什么或者事情将会如何发展。从知识的陈述特性上来看,知识即指用来描述信息的概念、概念之间的关系,以及概念在陈述具体事实时所必须遵守的条件。从这一点看,对于信息的语义以及信息语义之间的关联关系的描述本身就是一种知识的表达,因此在许多研究中,往往将语义的描述等同于知识的描述。

二,形式语言

1,形式语言

形式语言是一个字母表上的某些有限长字符串的集合

数学家用的数字和运算符号、化学家用的分子式、程序员用的编程语言都是形式语言。

形式语言理论,只研究语言的语法而不致力于它的语义。

形式语言的语法,同样分为词法和句法

2,最小单位——Token

形式语言的最小单位是Token

Token的概念相当于自然语言中的单词和标点、数学式中的数和运算符、化学分子式中的元素名和数字。

关于Token的规则就是词法,Token如何形成形式语法就是句法。

3,形式文法

文法即语法,形式文法就是形式语言的语法。

形式文法包括词法和句法,而当我们只关心语法规则,不关心语义时,词法和句法有很多共同之处。所有,很多关于形式文法的研究,既可以指词法,也可以指句法。

(1)形式文法的组成

一个形式文法G由四个部分组成,可记作G={VN, VT, S , P }

(2)0型文法

(3)1型文法

(4)2型文法

(5)3型文法