www.teandq.com
晓安科普

科学网博客app(科学网博客liwei)真没想到

2023-09-04Aix XinLe

自然语言处理(NLP)各种新旧概念,社会热词概述;自然语言处理(NLP)及其应用的核心四个NLP系统体系结构的框架图;三位语义代表人物介绍;以及李维博士导师Paul纪念。文末打赏,可下载本24k字17页经典收藏版+周日新闻四则PDF文档。

科学网博客app(科学网博客liwei)真没想到

 

目录一、自然语言处理NLP概念联络图2二、NLP之自然语言系统架构简说4三、自然语言处理NLP领域中语义路线及其代表人物9四、纪念我的博士导师 Paul (王维博士)11五、自然语言处理会向机器学习发展、文本语义也可以训练吗?

14参考文献14Appx.附录(5195字)15内附. 2017年3月26日(星期日)农历丁酉年二月廿九新闻四则汇编(4855字)15附i. 早报,3月26日,星期日15附ii. 2017年3月26日周日读报!一切美好从“努力”开始!15

附iii. 2017年3月26日(丁酉鸡年二月二十九)周日/早读分享:15附iv. 2017年3月26日星期日读报16外附v. 数据简化DataSimp社区译文志愿者招募启事16【作者介绍】李维,Simon Fraser University博士,研究领域:信息科学。

自然语言处理(NLP)资深架构师,硅谷大数据舆情挖掘公司Netbase首席科学家,Cymfony前研发副总,荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个美国国防部信息抽取项目(PI for 17 SBIRs)。

其自然语言深度分析 (deep parsing) 最见功力,指挥团队研发了精准高效的18种语言的理解和应用系统特别是汉语和英语,具有世界一流的分析精度,并且做到鲁棒、线速,scale up to 大数据。

系统质量有第三方的评测认定大幅度领先竞争对手应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索、智能浏览、机器翻译等等(网络昵称:liweinlp立委博士)曾任红小兵,插队修地球,1991年去国离乡,不知行止。

(分类 NLP 架构来自于作者 liweinlp 文章,发布于 2016 年 6 月 28 日)

【摘要】自然语言处理(NLP)各种新旧概念,甚至是社会层面热潮新名词概述;自然语言处理(NLP)及其应用的核心是系统架构,李博士给出四个NLP系统体系结构的框架图,本文做简要解说;三位语义代表人物介绍,以及李维博士导师Paul纪念,本文来自李维科学网博客。

转载已获原作者李维博士授权,秦陇纪10汇编,文末参考文献均注明引文出处欢迎转载注明出处:秦陇纪10“数据简化DataSimp、科学Sciences”公众号、头条号汇译编,投稿邮箱QinDragon2010@qq.com。

一、自然语言处理NLP概念联络图【立委按】样板戏《智取威虎山》里面,杨子荣怀揣一张秘密联络图而成为土匪头子座山雕的座上客,因为在山头林立的江湖,谁掌握了联络图,谁就可以一统天下马克思好像说过人是社会关系的总和,。

专业领域又何尝不是如此在关系中定义和把握 NLP,可以说是了解一门学问及其技术的钟南山捷径[1]“NLP 不是魔术,但是,其结果有时几乎就是魔术一般神奇”(引自:http://www.confidencenow.com/nlp-seduction.htm。

)老马识途,责无旁贷,遂精雕细刻,作联络图四幅与同仁及网友分享此联络图系列可比林彪元帅手中的红宝书,急用先学,有立竿见影之奇效重要的是,学问虽然日新月异,永无止境,然而天下大势,在冥冥中自有其不变之理四图在手,了然于心,可以不变应万变,无论研究还是开发,必不致迷失革命大方向。

图2 自然语言处理词云(NLP Word Cloud, courtesy of ourselves who built the NLP engine to parse social media to generate this graph )

一个活跃的领域会不断产生新的概念,新的术语,没有一个合适的参照图,新人特别容易湮没其中新术语起初常常不规范,同一个概念不同的人可能使用不同的术语,而同一个术语不同的人也可能有不同的解读常常要经过一个混沌期

,研究共同体才逐渐达成规范化的共识无论是否已经达成共识,关键是要理解术语的背后含义 (包括广义、窄义、传统定义,以及可能的歧义)加强对于术语的敏感性,不断探究以求准确定位新概念/新术语在现有体系的位置,是为专业人员的基本功。

本文将围绕这四幅自制联络图(第二部分详述,本部分只说术语相关概念),对NLP相关的术语做一次地毯式梳理和解说本文提到的所有术语,中文一律加下划线,英文斜体(Italics),大多有中英文对照,有的术语还给出超链,以便读者进一步阅读探索。

在我们进入NLP 系列联络图内部探究其奥秘之前,有必要澄清自然语言处理(NLP)的一般概念及其上位概念,以及与NLP 平起平坐或可以相互替换的一些术语NLP  这个术语是根据“自然语言”这个问题领域而命名的宽泛概念。

顾名思义,自然语言处理就是以自然语言为对象的计算机处理无论为了什么目标,无论分析深浅,只要涉及电脑处理自然语言,都在NLP 之列所谓自然语言(Natural language)指的即是我们日常使用的语言,英语、俄语、日语、汉语等,它与。

人类语言(Human language)是同义词,主要为区别形式语言(Formal language),包括计算机语言(Computer language)自然语言是人类交流最自然最常见的形式,不仅仅是口语,书面语也在海量增长,尤其是移动互联网及其社交网络普及的今天。

比较形式语言,自然语言复杂得多,常有省略和歧义,具有相当的处理难度(hence 成就了 NLP 这个专业及其我们的饭碗)顺便一提,在自然语言灰色地带的还有那些人造语(Artificial language。

)方案,特别是广为流传的世界语(Esperanto),它们的形式与自然语言无异,也是为人类交流而设计,不过是起源上不太“自然”而已,其分析处理当然也属 NLP(笔者N多年前的机器翻译专业的硕士课题就是一个把。

世界语全自动翻译成英语和汉语的系统,也算填补了一项空白)与NLP  经常等价使用的术语是计算语言学(Computational Linguistics, or, CL)顾名思义,计算语言学是计算机科学(

Computer Science)与语言学(Linguistics)之间的交叉学科事实上,NLP和 CL是同一个行当的两面,NLP注重的是实践,CL则是一门学问(理论)可以说,CL是NLP的科学基础,NLP

是CL的应用过程由于CL 与数理等基础学科不同,属于面相应用的学问,所以CL 和NLP 二者差不多是同一回事儿其从业人员也可以从这两个侧面描述自己,譬如,笔者在业界可称为NLP工程师(NLP engineer。

),在学界则是计算语言学家(Computational linguist)当然,在大学和研究所的计算语言学家,虽然也要做NLP 系统和实验,但学问重点是以实验来支持理论和算法的研究在工业界的NLP工程师

们,则注重 real life 系统的实现和相关产品的开发,奉行的多是白猫黑猫论,较少理论的束缚另外一个经常与NLP平行使用的术语是机器学习(Machine Learning, or, ML)严格说起来,。

机器学习与NLP 是完全不同层次的概念,前者是方法,后者是问题领域然而,由于机器学习的万金油性质(谁说机器学习不万能,统计学家跟你急),加之 ML 已经成为NLP 领域(尤其在学界)的主流方法,很多人除了。

机器学习,忘记或者忽视了NLP 还有语言规则的方法,因此在他们眼中,NLP就是机器学习其实,机器学习并不局限于NLP 领域,那些用于语言处理的机器学习算法也大多可以用来做很多其他人工智能(Artificial Intelligence。

, or AI)的事儿,如股市预测(Stock market analysis)、信用卡欺诈监测(Detecting credit card fraud)、机器视觉(Computer vision)、DNA

测序分类(Classifying DNA sequences),甚至医疗诊断(Medical diagnosis)在NLP领域,与机器学习平行的传统方法还有语言学家(linguist)或知识工程师(knowledge engineer

)手工编制的语言规则(Linguistic rules, or hand-crafted rules),这些规则的集合称计算文法(Computational grammar),由计算文法支持(or 编译

)的系统叫做规则系统(Rule system)机器学习和规则系统这两种方法各有利弊,可以取长补短统而言之,机器学习擅长文件分类(Document classification),从宏观上粗线条(course-grained。

)把握语言现象,计算文法则擅长细致深入的语言学分析,从细节上捕捉语言现象如果把语言看成森林,语句看成林中形态各异的树木,总体而言,机器学习是见林不见木,计算文法则见木不见林(本来这是很自然的互补关系,但双方都有少数。

“原教旨主义极端派”不愿承认对方的长处,呵呵)从效果上看,机器学习常常以覆盖面胜出,业内的术语叫高查全率(High recall),而计算文法则长于分析的精度,即高查准率(High precision)。

由于自然语言任务比较复杂,一个实用系统(Real-life system)常常需要在在粗线条和细线条(fine-grained)以及查全与查准之间取得某种平衡,因此结合两种方法的NLP混合式系统(Hybrid system

)往往更加实惠好用一个简单有效的结合方式是把系统建立成一个后备式模型(back-off model),对每个主要任务,先让计算文法做高精度低覆盖面的处理,再行机器学习出来的统计模型(Statistical model。

),以便粗线条覆盖遗留问题值得一提的是,传统 AI 也倚重手工编制的规则系统,但是它与语言学家的计算文法有一个根本的区别:AI 规则系统远远不如计算文法现实可行AI 的规则系统不仅包括比较容易把握(tractable

)和形式化(formalized)的语言(学)规则,它们还试图涵盖包罗万象的常识(至少是其中的核心部分)以及其他知识,并通过精巧设计的逻辑推理系统把这些知识整合起来可以说,AI 旨在从本质上模拟人的智能过程,因雄心太大而受挫,以致多年来进展甚微。

过去的辉煌也只表现在极端狭窄的领域的玩具系统(后来也发展了一支比较实用的专家系统),当时统计模型还是没有睡醒的雄狮以ML为核心以大数据(Big data)为支撑的统计方法的兴起,让AI相形见绌有意思的是,虽然。

人工智能(台湾同胞称人工智能)听上去很响亮,可以唤起普罗大众心中的某种科学幻想奇迹(因此常常为电子产品的包装推销商所青睐),在科学共同体中却相当落寞:有不少统计学家甚至把AI 看成一个过气的笑话虽然这里难免有王婆卖瓜的偏见,但。

传统 AI的方法论及其好高骛远不现实也是一个因素也许在未来会有AI 的复兴,但是在可预见的将来,把人类智能当作联接输入输出的黑匣子的机器学习方法,显然已经占了上风由此看来,ML 与AI 的关系,颇似NLP

与CL 的关系,外延几乎重合,ML 重在AI 的应用(包括NLP),而AI 理应为ML 的理论指导可是,由于方法学上的南辕北辙,以知识表达(Knowledge representation)和逻辑推理(

Logical reasoning)为基础的传统AI越来越难担当实用智能系统(Intelligent systems)的理论指导,智能系统的地盘逐渐为以统计学和信息论为基础的机器学习所占领国宝熊猫般珍稀的坚持。

传统AI的逻辑学家(如cyc发明人Douglas Lenat 老先生)与擅长ML 的统计学家(多如恐龙)虽然问题领域几乎完全重合,解决方案却形如陌路,渐行渐远还有一个几乎与自然语言处理等价的术语,叫自然语言理解

(Natural Language Understanding, or NLU)从字面上,这个义为“机器理解语言”的术语 NLU 带有浓厚的人工智能的烂漫主义意味,不象“机器处理语言”那样直白而现实主义,但实际上,使用 。

NLP还是NLU,正如使用NLP 还是CL一样,往往是不同圈子人的不同习惯,所指基本相同说基本相同,是因为NLP也可以专指浅层的语言处理(譬如后文会提到的浅层分析 Shallow parsing),而深度分析

(Deep parsing)却是NLU 的题中应有之义,浅尝辄止的不能登NLU/AI的大雅之堂不妨这样看,带上AI的眼镜看,此物为NLU;而以ML 而观之,则此物只能是NLP此外,自然语言技术或语言技术。

(Natural language technology)也是 NLP的通俗化表达既然NLP的等价物CL有两个parents,计算机科学和语言学,NLP的上位概念也自然可以有两位:NLP既可以看作是计算机科学的一个应用分支,也可以看作是语言学的一个应用分支。

事实上,广义的应用语言学(Applied linguistics)是包含计算语言学和NLP的,不过由于计算语言学作为一个独立学科已经站住脚跟半个多世纪了(其主要学刊是《Computational Linguistics

》,学会是 ACL,顶级国际会议包括 ACL 年会和 COLING 等),(窄义的)应用语言学现在更多用来表示语言教学和翻译这样的实用领域,不再下辖计算语言学这个分支从功能上看,NLP与ML一样,同属于。

人工智能的范畴,特别是自然语言理解以及NLP的种种应用,如机器翻译所以,广义的人工智能既是机器学习的上位概念,也是自然语言处理的上位概念然而,如上所说,窄义或传统的人工智能强调知识处理包括常识推理(common-sense reasoning

),与现行的ML 和NLP  的数据制导(data-driven)现状颇有距离,因此有NLP学者刻意保持与传统AI的距离以示不屑为伍千头万绪,纲举目张,下文分四个层次、用四幅联络图来讲解 NLP per se。

四个层次分别是:1. 语言层(linguistic level);2. 抽取层(extraction level);3. 挖掘层(mining level);4. 应用层(app level)这四个层次的关系,基本就是自底而上的支持关系:。

1 ==》2 ==》 3 ==》4显然,NLP 的核心句法分析器(Parser)处于第一层,而《自动民调》、《问答系统》、《机器翻译》这样的系统则是第四层应用的例子需要说明的是,NLP 的对象自然语言有两种形式,。

语音(Speech)和文本(Text),因此NLP自然涵盖语音方面的两个重要方向:1. 教授电脑听懂人话的语音识别(Speech recognition);2. 教授电脑说人话的语音合成(Speech synthesis

)由于笔者对语音处理(Speech processing)比较外行,本系列专谈针对文本的NLP,视语音识别和语音合成为文本处理(Text processing)的前奏和后续事实上,在实际的语言系统中,语音处理

和文本处理的分工正是如此,譬如NLP 在手机上最新应用如苹果的 Siri 就是先行语音识别,输出文本结果,再行文本分析,然后根据分析理解的结果采取行动(根据主人指令去查天气预报、股票、播放某支音乐等等)。

(文中提到的四张图在第二部分~~~)本篇的英语译文见(the English translation of this piece is now available at my blog below):

OVERVIEW OF NATURAL LANGUAGE PROCESSING (1/5) by Wei Li【立委科普:NLP 白皮书 】(姐妹篇,in English)二、NLP之自然语言系统架构简说

对于自然语言处理(NLP)及其应用,系统架构是核心问题,我在博文《立委科普:NLP 联络图》里面给了四个NLP系统的体系结构的框架图,现在就一个一个做个简要的解说[2]我把 NLP 系统从核心引擎直到应用,分为四个阶段。

,对应四张框架图。最底层最核心的是 deep parsing,就是对自然语言的自底而上层层推进的自动分析器,这个工作最繁难,但是它是绝大多数NLP系统基础技术。

句法分析Parsing的目的是把非结构的语言结构化面对千变万化的语言表达,只有结构化了,patterns 才容易抓住,信息才好抽取,语义才好求解这个道理早在乔姆斯基 1957 年语言学革命后提出表层结构到深层结构转换的时候,就开始成为。

(计算)语言学的共识了结构树不仅是表达句法关系的枝干(arcs),还包括负载了各种信息的单词或短语的叶子(nodes)结构树虽然重要,但一般不能直接支持产品,它只是系统的内部表达,作为语言分析理解的载体和语义落地为应用的核心支持。

接下来的一层是抽取层(extraction),如上图所示它的输入是结构树,输出是填写了内容的 templates,类似于填表:就是对于应用所需要的情报,预先定义一个表格出来,让抽取系统去填空,把语句中相关的词或短语抓出来送进表中事先定义好的。

栏目(fields)去这一层已经从原先的领域独立的 parser 进入面对领域、针对应用和产品需求的任务了值得强调的是,抽取层是面向领域的语义聚焦的,而前面的分析层则是领域独立的因此,一个好的架构是把分析做得很深入很逻辑,以便减轻抽取的负担。

在深度分析的逻辑语义结构上做抽取,一条抽取规则等价于语言表层的千百条规则这就为领域转移创造了条件有两大类抽取,一类是传统的信息抽取(IE),抽取的是事实或客观情报:实体、实体之间的关系、涉及不同实体的事件等,可以回答

who dis what when and where (谁在何时何地做了什么)之类的问题这个客观情报的抽取就是如今火得不能再火的知识图谱(knowledge graph)的核心技术和基础,IE 完了以后再加上下一层挖掘里面的。

整合(IF:information fusion),就可以构建知识图谱另一类抽取是关于主观情报,舆情挖掘就是基于这一种抽取我过去五年着重做的也是这块,细线条的舆情抽取(不仅仅是褒贬分类,还要挖掘舆情背后的理由来为决策提供依据)。

这是 NLP 中最难的任务之一,比客观情报的 IE 要难得多抽取出来的信息通常是存到某种数据库去这就为下面的挖掘层提供了碎片情报很多人混淆了抽取(information extraction)和下一步的。

挖掘(text mining),但实际上这是两个层面的任务抽取面对的是一颗颗语言的树,从一个个句子里面去找所要的情报而挖掘面对的是一个 corpus,或数据源的整体,是从语言森林里面挖掘有统计价值的情报。

在信息时代,我们面对的最大挑战就是信息过载,我们没有办法穷尽信息海洋,因此,必须借助电脑来从信息海洋中挖掘出关键的情报来满足不同的应用因此挖掘天然地依赖统计,没有统计,抽取出来的信息仍然是杂乱无章的碎片,有很大的冗余,挖掘可以整合它们。

很多系统没有深入做挖掘,只是简单地把表达信息需求的 query 作为入口,实时(real time)去从抽取出来的相关的碎片化信息的数据库里,把 top n 结果简单合并,然后提供给产品和用户这实际上也是。

挖掘,不过是用检索的方式实现了简单的挖掘就直接支持应用了实际上,要想做好挖掘,这里有很多的工作可做,不仅可以整合提高已有情报的质量而且,做得深入的话,还可以挖掘出隐藏的情报,即不是元数据里显式表达出来的情报,譬如发现情报之间的因果关系,或其他的统计性趋势。

这种挖掘最早在传统的数据挖掘(data mining)里做,因为传统的挖掘针对的是交易记录这样的结构数据,容易挖掘出那些隐含的关联(如,买尿片的人常常也买啤酒,原来是新为人父的人的惯常行为,这类情报挖掘出来可以帮助优化商品摆放和销售)。

如今,自然语言也结构化为抽取的碎片情报在数据库了,当然也就可以做隐含关联的情报挖掘来提升情报的价值第四张架构图是NLP应用(apps)层在这一层,分析、抽取、挖掘出来的种种情报可以支持不同NLP产品和服务。

从问答系统到知识图谱的动态浏览(谷歌搜索中搜索明星已经可以看到这个应用),从自动民调到客户情报,从智能助理到自动文摘等等。

这算是我对NLP基本架构的一个总体解说根据的是近20年在工业界做NLP产品的经验18年前,我就是用一张NLP架构图忽悠来的第一笔风投,投资人自己跟我们说,这是 million dollar slide如今的解说就是从那张图延伸拓展而来。

天不变道亦不变。

以前在哪里提过这个 million-dollar slide 的故事说的是克林顿当政时期的 2000 前,美国来了一场互联网科技大跃进,史称 .com bubble,一时间热钱滚滚,各种互联网创业公司如雨后春笋。

就在这样的形势下,老板决定趁热去找风险投资,嘱我对我们实现的语言系统原型做一个介绍我于是画了下面这么一张三层的NLP体系架构图,最底层是parser,由浅入深,中层是建立在parsing基础上的信息抽取,最顶层是几类主要的应用,包括问答系统。

连接应用与下面两层语言处理的是数据库,用来存放信息抽取的结果,这些结果可以随时为应用提供情报这个体系架构自从我15年前提出以后,就一直没有大的变动,虽然细节和图示都已经改写了不下100遍了,本文的架构图示大约是前20版中的一版,此版只关核心引擎(后台),没有包括应用(前台)。

话说架构图一大早由我老板寄送给华尔街的天使投资人,到了中午就得到他的回复,表示很感兴趣不到两周,我们就得到了第一笔100万美金的天使投资支票投资人说,这张图太妙了,this is a million dollar slide,它既展示了技术的门槛,又显示了该技术的巨大潜力。

三、自然语言处理NLP领域中语义路线及其代表人物如所周知,统计型自然语言处理(Statistical NLP)作为主流盛行了20多年,此前盛行的是以语法分析为基础的规则系统即便如此,为了模拟人的语言理解过程以及力求语言处理的更高质量,追求以知识系统为支持的语义路线的尝试,从来没有停止过。

本篇笔记拟对此做一个简要回顾和比较,并记录自己的心得和不同意见[3]就NLP的机器翻译应用而言,在相当长的时期内,统计型机器翻译由于其数据多开发快,善于在浅层模拟人工翻译(特别是成语和习惯用法的翻译)会一直是主流。

即便是机器翻译的规则系统,也还是语法为主的路子比语义和知识为主的路子更加切实可行这不排除在未来,当统计机器翻译和语法为基础的规则机器翻译的改进余地越来越小的时候,人们会重新探索知识路线以求突破坚持语义和知识为基础的语言处理

路线,是一条繁难艰辛的道路。我感觉,语义是个大泥坑,我等凡夫俗子一旦陷进去大多出不来,而能够驾驭它的人均非等闲人物。

在计算语义界,有三位长期坚持超领域语义的顶天立地的大学者(如果要算第四位,也许应该包括英国的人工智能大师Wilks教授,他早年做过基于语义模板的纯语义机器翻译实验再往前追溯,人工智能领域早期也有不少先驱者,不过都是在极为狭窄的领域尝试一些玩具知识系统)。

这三位学者前辈是,坚持常识推理的cyc的Lenat教授,格语法(Case Grammar)和框网(FrameNet)的开创者Fillmore教授和《知网(HowNet)》发明人中国机器翻译前辈董振东教授

他们对自己思想和信念的坚持、执着、反潮流和勇于实践,令人景仰这些智者的成果都有某种超时代的特征,其意义需要时间去消化或重新认识可以预见,将来某个时候,当机器翻译和自然语言理解的应用项目穷尽了浅层可用的低枝果实之后,知识系统将会被进一步发掘、利用和欣赏。

但目前多数项目还没有到山穷水尽的时候,急功近利是绝大多数项目和产品的固有特征,而且多数主事者也往往缺乏远见绝大多数语言处理业者遇到语义和知识都是绕着走三位语义巨人中探索知识最深入和纯粹的是 Lenat 教授,他带领团队手工开发的

cyc 知识系统,试图从常识的形式化入手,利用常识推理帮助解决语言理解等人工智能核心问题可惜这套庞大的系统太过复杂和逻辑,在实际应用上有点像大炮打蚊子,使不上劲Fillmore 教授是享誉世界的语义学家,他的格语法理论影响了一代自然语言学者,包括中国和日本自然语言处理领域领军人物董振东教授和长尾真教授。

事实上,董教授语义思想的核心概念“逻辑语义”就来源于 Fillmore 的深层格 (Deep Case)然而,Fillmore 本人的语义发展与董教授的创新发展走上了语义颗粒度不同的两条道路,前者成果为 FrameNet,后者的结晶是“。

知网(HowNet)”可以从构建NLP应用系统的角度来看 FrameNet 和 HowNet 的不同语义层次,即,从分析器(parser)和应用(applications,包括机器翻译,信息抽取等)的分工合作的关系来看。

语言的分析无论多深入,都不是应用,只是(理论上)缩短了到达应用的距离就以机器翻译的应用为例,翻译转换可以发生在浅层(极端的例子是所谓词对词翻译系统)、在关键成分不到四个(主谓宾补)和附加成分不到一打(主要的定状语子类)的句法层、在《知网》的。

90个逻辑语义的层面或者在 FrameNet 的成百上千的 frames 的层面多数统计型机器翻译都是在浅层进行,通过海量双语训练集,记忆住千千万万大大小小的翻译单位(个体转换规则)这条路子可行是因为机器擅长记忆。

手工编制的翻译系统就很难在浅层进行,因为浅层转换的千变万化超出了人工编制和调控的可能但是,翻译系统应该深入分析到哪一步实施转换比较合适,是大可讨论的我个人觉得,FrameNet 过细(成千上万的 Frames 组成一个 hierarchy,即便只取上层的常用的 Frames, 也有几百个),不仅很难达到,而且实用上没有太多的好处。

FrameNet 的提出,是格语法框架的自然延伸、扩展和细化,语义理论上有其位置和意义但是在实用上,FrameNet 的地位很尴尬,他既不像句法层 argument structure 那样简洁和好把握,也不可能达到语用层的信息抽取模板(IE Template)那样可以直接支持应用(因为信息抽取是依赖领域的,而 FrameNet 原则上是不依赖领域的,或者最多是在语言学与领域之间起某种中介桥梁的作用)。

这样一来,从实用角度,与其分析到 FrameNet (这个太繁难了) 再行翻译转换或信息抽取,不如直接从 argument structure 进行(这个靠谱多了,very tractable),虽然理论上前者的转换或抽取应该更加简单直接一些,但是由于 FrameNet 分析工作难度太大,终归得不偿失。

换句话说,FrameNet 从使用角度看,语义做得过了(over-done),用起来不方便,没有多少实际利益 退一步回到句法为基础的 argument structure 如何呢?Argument structure 立足于句法结构,主要论元最多不超过三个(up to 3 arguments):逻辑主语,逻辑宾语,逻辑补语,加上谓词 governor,构成一个四元组,非常简洁,与各语言的词典句型信息 subcat 相呼应,易于掌握和实现。

再加上10来个带有逻辑语义分类的状语(时间、地点、条件、让步、结果等)和定语(颜色,材料,来源等)这样的中间表达作为语言分析(parsing)的目标,作为应用的基础,已经可以应对绝大多数应用场合Argument structure 中的逻辑宾语和逻辑主语有其独特的概括能力,对于利用句法关系的语义限制排歧多义词和做知识挖掘具有特别的价值。

HowNet 不满足于此,它的体系是对句法为主的 argument structure 进一步细化,譬如逻辑宾语细化到 “patient”、“content”、“target”、“PatientProduct”、“ContentProduct”和“possession” 等子类。

最终达到具有90多个逻辑语义角色的相对纯粹的语义表达HowNet 就是这样一个概念知识体系,逻辑语义是连接这些概念的主要工具从主谓宾定状补这样简练的句法关系,深入到逻辑语义的角色,再进一步把逻辑语义细化,常常的表现就是信息表达的浓缩和冗余。

HowNet 这样精细的逻辑语义,不仅反映了一个依存概念到主导概念的逻辑结构关系,而且反映了主导概念的子类信息(hence 冗余了)例如,对于宾语的细化 “patient”、“content”、“target”、“Patient Product”、“Content Product”,“possession” 等,显然是蕴涵了主导概念(谓词)的子类信息,而这些子类信息本来是已经附着在谓词上的。

譬如作为 possession 的宾语,其谓词只能是 have、possess、own 这个小子类信息表达的冗余意味着即便没有深入到细化的逻辑语义,系统并没有本质上的损伤,因为如果需要的话,细化信息依然可以通过句法关系节点的限制条件即时得到查询。

对于逻辑主语逻辑宾语等进一步细化的必要和利弊,我个人觉得是可以讨论的首先是任何细化都是有开发和处理的代价的更重要的是,其必要性究竟如何?从追求纯粹语义和逻辑、追求纯净的独立于具体自然语言的元语言表达的角度,我们总可以找到证据,证明细化是必要的。

但是,在应用现场,我们也可能发现,对于绝大多数应用,细化并无必要就拿机器翻译来说,同一语系之间的结构转换在逻辑主语宾语的 argument structure 的对应上有明显的一致性即便是不同语系,这种对应也是主流,而不对应的可以作为例外,由。

词驱动(word-driven)的个性转换来应对以上讨论,有很多例证,写得匆忙,暂时不例举了四、纪念我的博士导师 Paul (王维博士)我的博士导师 Paul 突然去世了震惊之余,觉得应该写点回忆悼念的文字。

[4]

图9 我的博士导师 Paul 突然去世了震惊之余,觉得应该写点回忆悼念的文字今年春节,我给导师电子邮件拜年,附件有我和女儿的近照:Hi Paul,Happy Chinese New Year to you! Time flies. Hair turned gray. Daughter is graduating,like bird flying away.。

Tanya is almost 18 and going to college in the fall. Best他的回复:Hi Wei. Good to hear from you. Yes, time does pass quickly, ever more quickly. At least you have hair. My body is starting to show signs that it is time to slow down. Great that you have a successful daughter.

Paul 祖籍爱尔兰,留着络腮胡子,眼光深邃,有点像青年马克思,是个智慧而不苟言笑的人Paul 改变了我人生的轨迹,是他的 RA 资助把我带到了加拿大温哥华,为此我们全家永远心存感激没有 Paul,我和领导不会移民加拿大,我们的女儿也不会在温哥华出生,我们全家的生活会是怎样的另一条道路,只有上帝知道。

如果我们对走过的道路和当下的生活状态总体满意,感恩就是自然的归宿

图15 我的两位导师,语言学导师 Paul 为主,电脑系的教授 Fred 为副五、自然语言处理会向机器学习发展、文本语义也可以训练吗?立委老师写的很好,自然语言、形式语言、人造语言、人类语言…概念间的比较、本质的不同。

概念厘清最开始源于西方哲学[5]参考文献略文末打赏后“阅读原文”可百度网盘下载完整版PDF文档Appx.附录(5195字)内附. 2017年3月26日(星期日)农历丁酉年二月廿九新闻四则汇编(4855字)。

附i. 早报,3月26日,星期日1、广州从化一发电厂发生坍塌事故 致9死2伤;2、韩国乐天集团会长辛东彬称中国是祖先的故土 韩国网民评论炸了锅;3、男子乘网约出租车遇车祸身亡 滴滴:不在赔偿范围;4、山东今夏起高考不再分一二本 少数民族加分取消

5、云南设立监理中心 旅游购物30天内可无理由退款;6、北京卫计委:医疗机构不得诱导患者买非零差率药品;7、美国议员:特朗普可能会在被弹劾之前自行辞职;8、英外长促网媒删除极端信息:挽救被极端组织洗脑者;

9、美国再因伊朗导弹问题制裁中国公司和个人;10、俄媒:俄武器在叙利亚战场表现不俗 目前已有100多个国家正在排队购买俄武器;11、美众议院共和党撤回新医改方案 美媒称为特朗普的失败;12、共享汽车来了!南京将新增千辆分时租赁汽车 网点达400个;

【微语】人活于世,要么有成就,要么有快乐,如果两样都没有,那就辜负了人生附ii. 2017年3月26日周日读报!一切美好从“努力”开始!1、25日上午8时许,位于广州从化鳌头潭口在建广州第七热力发电厂发生作业平台坍塌事故。

事故目前已造成9人死亡、2人受伤涉事相关人员已被控制,目前事故原因在进一步调查中2、内蒙古包头市土右旗一小区居民楼天然气管道爆炸经当地政府初步确认,已造成3人死亡4人重伤21人轻伤3、中国内地首条自主研发无人驾驶地铁线路——燕房线年内开通。

燕房线位于北京西南部,全长约16.6公里,共设有9座车站,预计列车最高运行速度可达100千米/小时,共4辆编组,最大载客量为1262人4、2016年中国便利店渗透率从32%,上升到了38%,比网购高出了3个百分点。

(58赶集CEO姚劲波:未来便利店的前端会变得更智慧、更高效可以在便利店里面租房子、找工作,买卖二手物品等等)5、辉山乳业董事长杨凯:公司总资产382.6亿,总负债418.82亿,实际上已资不抵债辉山将在4周内引入新的战略投资人,预计这次至少引入两个战略投资集团,先期到达的资金大约在150亿元左右,辉山将偿还大股东债并定向增发新股。

同意将自己对上市公司的控股权从75%稀释到51%,按照目前3港元左右的价格进行增发6、“刺死辱母者”案,法院一审以故意伤害罪判处于欢无期徒刑,引发网民热议(女企业家苏银霞向某老板借款135万元,月息10%。

支付本息184万和价值70万的房产后,仍无法还清11名催债人对其辱骂、抽耳光、鞋子捂嘴,长达一小时的凌辱后,当着她儿子于欢的面用极端手段污辱她赶来的民警未能阻止这场羞辱,情急之中,于欢用水果刀乱刺,致4人受伤,其中一人失血过多休克死亡。

)7、2017年世界U18冰球锦标赛在台举行中国男队以4比0战胜中华台北队,比赛中两队激烈身体碰撞,赛后更爆发冲突现场球迷也情绪失控,嘘声不断,还向场内投掷饮料、折叠椅等杂物(由于发现比赛现场出现了台教育部门徽章、标语,中国队向大会提起抗议:一个中国只有一个教育部。

但台湾方面表示拒不撤除)8、台媒:从去年“520”至今年3月,大陆游客来台已大减超过100万人次,并造成台湾500亿元新台币蒸发其中,旅馆住宿费损失95亿,交通费和餐费损失都超过60亿,团客较去年同期少6成。

9、亚投行行长金立群:亚投行有57个创始国和13个新加入的成员国,今年还有15个国家将会加入,加在一起是85个到90个成员国10、美国国务院发表声明称,已决定对违反禁令向伊朗、朝鲜和叙利亚出售大规模杀伤性武器相关设备与技术的 11个单位和个人实施制裁,其中包括6家中国公司和3名中国公民。

这是特朗普上任以来美国对中国公司和个人的第二轮制裁11、美国哈佛大学医学院研究发现,每周食用1~3次油炸食品,会使心衰的风险增加18%;而每周食用7次以上油炸食品,风险会增加到68%12、与其纠结为什么别人的人生总像开了挂,还不如付出持续的努力,踏踏实实地去争取属于自己的美丽明天。

所谓“好运气”,不过是机遇遇到了正在努力的你美好一天从“努力”开始!附iii. 2017年3月26日(丁酉鸡年二月二十九)周日/早读分享:1、【李克强访澳签巨额牛肉与基建大单】外媒报道,澳大利亚总理特恩布尔和中国总理李克强在24日的会晤期间达成协议,把冷冻肉类市场的准入对象从11家企业扩大到所有合格的澳大利亚出口商,这成为中澳自贸协定的延伸,澳大利亚对华牛肉出口已达每年3亿美元。

中国建筑与BBI集团合作在西澳大利亚州建设铁矿和铁路港口设施的一项价值46亿美元的工程也签署了协议2、【金立群:今年还有新成员加入亚投行】亚投行行长金立群在博鳌亚洲论坛2017年年会上表示,2017年还将有15个新成员加入。

届时,亚投行成员国将达到85-90个3、【哈尔滨农商行或出"窝案" 原董事长遭调查 多名中层被羁押】原董事长杨德彬涉嫌严重违纪于去年12月22日接受组织调查后,2017年春节期间,己牵连哈尔滨农村商业银行的机关中层干部及原哈尔滨城郊农村信用合作联社支行一百多名负责人被纪检部门问询调查,现已有多名分支机构负责人被司法羁押。

4、【樊纲:经济高增长并不意味着健康】央行货币政策委员会委员、国民经济研究所所长樊纲25日在博鳌亚洲论坛年会上表示,不能说经济高增长就是健康的在2004年到2007年,中国2007年增长率是14%,然后在危机之后有刺激政策,促进经济又回到了12%的增长。

但是这种增长是过热的,并不是健康的,以任何方式来评价都不是健康的5、【北京市"十三五"末 日均客运量将达到1850余万人次】《北京市"十三五"轨道交通建设计划》正式发布,到2020年将开通运营26条线路,形成"三环四横八纵十二放射"的网络运营格局;此外,日均客运量也将甴目前的1100万人次增加到1850万人次;轨道交通将成为公共交通出行的主要方式,占比达到58%以上。

6、【辉山乳业资金链断裂 股价暴跌】24日上午,港股辉山乳业在半个小时内下跌了90%,从2.8港元附近一路跌至0.25港元截止收盘,以0.42港元,跌85%收报公司董事长杨凯承认资金链断裂,但他宣称将出让股权引入战略投资者,通过重组在一个月内筹集资金150亿元。

辽宁省政府金融办也要术银行和其他金融机构对辉山乳业有信心而不要抽贷7、【辉山乳业仅仅是开始 浑水近日将做空另一家港股公司】辉山乳业24日在半小时内蒸发了近300亿港元,这让做空机构浑水(Muddy Waters Research)名声大震,而浑水创始人Carson BIock宣称,最快在未来几周内,就会发布对另一家港股公司的做空报告。

浑水公司主要发布三类报告:商业欺诈、会计舞弊和基本面问题市场上有影响的做空公司还有:匿名分析(Anonymous Analytics)、Emerson AnaIytics、Glaucus Research、Dupre Analyttics、还有国内的钟馗研究。

他们的运作模式一般是,自己通过公开数据研究、内幕爆料以及实地调查等方式发现上市公司的问题,并用报告的方式呈现出来,随后电邮给投资者,再经过媒体的报道达到进一步的传播而被做空的上市公司,会出现股价突然大跌的情况。

做空公司就是利用做空报告引发公司股价下跌,从而获利历史上被做空的上市公司大多数在做空机制完善的美股及港股巿场8、【IMF前副总裁:中美股市关联性达到85%】国际货币基金组织前副总裁、国家金融研究院院长朱民25日在博鳌亚洲论坛2017年年会上表示,现在中美股市之间的关联性达85%,而20年前只有15%。

9、【瑞银财富管理:退出人民币空头仓位 看好中国股市】报告称,人民币贬值压力与几个月前相比进一步得到遏制,美元/在岸人民币未来3个月目标价7.10,6个月目标价7.20,12个月目标价7.20看好中国股市,让为中国股市估值有吸引力;继续看好互联网行业,该行业对宏观风险敏感度较低,估值合理。

10、【仙言潮声】有两种事应该尽量少干:一是用自己的嘴巴干扰别人的人生;二是靠别人的脑子思考自己的人生美好的一天从不做损人利己的事情开始!附iv. 2017年3月26日星期日读报1、【樊纲:社会保障体系应强制覆盖自由职业者】 央行货币政策委员会委员樊纲在博鳌亚洲论坛表示,针对目前随互联网发展而产生的自由职业者,社会保障体制应强制覆盖;让他们和其他人享受一样的社会保障;从社会舆论概念上,要让大家认可这种就业形式。

(澎湃)2、【3月25日周六《新闻联播》要闻7条】 1.习近平向博鳌亚洲论坛2017年年会开幕式致贺信;2.张高丽出席博鳌亚洲论坛开幕式并发表主旨演说;3.李克强与澳大利亚总理共同出席中澳省州负责人论坛、中澳工商界首席执行官圆桌会;4.李克强出席中澳经贸合作论坛并发表演讲;5.张高丽会见萧万长一行;6.中蒙俄国际经济走廊多科学考察启动;7.公安部部署打击伪基站违法犯罪。

3、【马骏:2016年中国一跃成全球最大绿色债券发行国】 央行首席经济学家马骏表示,2016年中国境内外绿色债券市场达到2千万,一跃成为全球最大的绿色债券发行国但是绿色金融发展还面临四个障碍:一是整个全球都还缺乏强有力的绿色金融认识,二是绿色领域还需进一步政策支持,三是市场缺乏合适的绿色金融产品,四是信息不对称,信息披露制度还需再完善。

4、【贾康:中国高M2不代表系统风险 已适当收紧银根】 华夏新供给经济学研究院首席经济学家贾康今日在博鳌亚洲论坛2017年年会上表示,中国的高M2不代表系统风险,应该综合多个指标考虑,而PPI由负转正且高速增长后,决策层已表现出审慎态度,降低对强刺激的期待,适当收紧银根。

5、【中俄将新建两个百亿级投资基金 中国建筑、中国黄金参与】 远东发展基金CEO阿列克谢·切昆科夫在博鳌论坛期间表示,中国与俄罗斯将再建立两个投资基金,分别集中于基础设施建设和矿业两个行业,总规模将分别达到100亿美元。

基础设施建设基金将由中国建筑工程总公司、嘉浩控股和远东发展基金共同设立,矿业基金则由中国黄金集团、嘉浩控股和远东发展基金成立两个资金都计划在5年内达到百亿美元的总规模,在第一年内将各有10亿美元到位,这笔资金作为权益资金还有望吸引3倍的私人领域投资。

(财经)6、【多重利好叠加 “一带一路”战略加速落地】 “一带一路”国际合作高峰论坛将于2017年5月14日至15日在北京举行,这是我国首次以“一带一路”建设为主题举办的最高规格的国际论坛,国内和国际社会对此十分关注,市场预期论坛将带来大量海外订单及加速海外项目推进。

中金公司分析指出,“一带一路”沿线65国基础设施水平较低,65国年均基建投资规模约8501亿美元,相当于中国的75.3%(中国经营报)7、【“最严”调控后热点城市或迎供地潮】 近日,北京、天津、武汉、福州、珠海等地陆续推出土地,并将在4月形成实际供应。

与以往“前松后紧”的传统供地节奏不同,热点城市的供地热潮将可能在今年上半年出现分析人士指出,当前热点城市出台的限贷、限购等政策,主要目的是对需求端进行抑制土地供应加快,则是供给端发力的表现按照正常的开发周期,这些土地要到明年才能形成房屋供应,但对于缓解市场的紧张情绪则有明显作用。

(21)8、【新三板协议交易设涨跌限制 乌龙指将成历史】 今日,股转系统发布《关于对协议转让股票设置申报有效价格范围的通知》,通知宣布:采取协议转让方式的股票,申报价格应当于前收盘价的200%且不低于前收盘价的50%。

超出该有效价格范围的申报无效采取协议转让方式的股票,无前收盘价的,成交首日不设申报有效价格范围,自次一转让日起设置申报有效价格范围通知自2017年3月27日起实施9、【国内成品油价下周二或迎年内最大跌幅】 从多家社会监测机构了解到,在国际原油价格“跌不停”之下,3月28日(下周二)国内成品油零售限价或迎年内最大跌幅。

据专业机构测算,截至3月22日收盘国内油价调整参考的原油变化率为-6.04%,对应汽柴油下调260元/吨,折合成每升价格为92#汽油下跌0.2元/升,0#柴油下跌0.22元/升(央广网)10、【国产大型客机C919通过首飞技术评审】 C919从中国商飞公司了解到,国内63名院士和专家组成的评审委员会一致同意通过国产大型客机C919首飞技术评审,建议在完成电磁兼容等试验及滑行试验验证后可提请首飞放飞评审,这标志着C919向着首飞目标又迈出了坚实的一步。

11、【周小川:任何关税的安排应该是支持而不是阻碍贸易】 央行行长周小川今日在博鳌论坛表示,亚洲国家从自由贸易中受益全球化已经发生,必须正视现实任何关税的安排都应该是支持贸易而不是阻碍贸易希望7月G20德国汉堡峰会能看到关于自由贸易和全球化更清晰的表达。

外附v. 数据简化DataSimp社区译文志愿者招募启事“数据简化DataSimp”社区翻译组、媒体组缺少志愿者,①设计黑白静态和三彩色动态社区LOGO图标;②翻译美欧IT大数据、人工智能、编程开发技术

文章的至少投一篇高质量首译美欧数据科学技术论文,方可正式成为数据简化DataSimp社区贡献者非诚勿扰,季度无贡献者自动退出请扫下面的二维码,加入数据简化DataSimp社区(实名制微信群,拉人请修改昵称为:姓名。

-单位-职务)。

(实名制微信群,拉人请修改昵称为:姓名-单位-职务)DataSimplification and Sciences Wechat and Toutiao Public Account, QinDragon2010@qq.com,

 2017.02.26Sun, Xi’an, Shaanxi, China: LIFELife begins at the end of your comfort zone. -- Neale Donald Walsch 

THE DAYThe strength of purpose and the clarity of your vision,along with the tenacity to pursue it,is your underlying driver of success. 

-- Ragy Tomas 长按下面二维码“识别图中二维码”关注公众号:数据简化DataSimp(搜索此名称也行)。

文末打赏后“阅读原文”可下载此文完整PDF论文等资料压缩包(西安秦陇纪10数据简化DataSimp综合汇编,欢迎有志于数据简化之传媒、技术的实力伙伴加入全球“数据简化DataSimp”社区!欢迎转载注明出处:。

秦陇纪10数据简化DataSimp公众号、头条号“数据简化DataSimp、科学Sciences”汇译编,投稿邮箱QinDragon2010@qq.com)

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186

科学科学网博客app(科学网博客liwei)真没想到

2023-09-04Aix XinLe40

科学网博客app(科学网博客liwei)真没想到自然语言处理(NLP)各种新旧概念,社会热词概述;自然语言处理(NLP)及其应用的核心四个NLP系统体系结构的框架图;三位语义代表人物介绍;以及李维博士导师Paul纪念。文末打赏,可下载本24k字17页经典收藏版+周日新闻四则PDF文档。…

科普马云最新新消息(马云突然宣布大消息)奔走相告

2023-09-04Aix XinLe78

马云最新新消息(马云突然宣布大消息)奔走相告2020年对马云来说是一个分水岭,在这个节点之前,他被众人称为马爸爸,连续几年做到了首富的位置,马云本人意气风发,在各种场合发表着各种意见,阿里…

科学科学网博客app(科学网博客liwei)学到了

2023-09-04Aix XinLe165

科学网博客app(科学网博客liwei)学到了原文标题: Marketability of building energy efficiency systems based on behav…

探索探索发现45集纪录片免费观看(探索发现美食纪录片)一篇读懂

2023-09-04Aix XinLe165

探索发现45集纪录片免费观看(探索发现美食纪录片)一篇读懂湖南大山遍地是野菜,冬宝发现蕨菜宝地,轻松扯了三背篓,真过瘾在湖南的大山深处,有一片被自然遗留下来的宝地,那里遍地是野菜,其中以蕨菜最为丰盛。冬…

科学科学网博客app(科学网博客 官网)硬核推荐

2023-09-04Aix XinLe135

科学网博客app(科学网博客 官网)硬核推荐互联网上哪些信息对物理海洋学学子的学术成长有利?…