www.teandq.com
晓安科普

知识库管理流程(政务知识库管理)原创

2023-11-04Aix XinLe

如何将基于大数据的政府知识库去影响、改变政府的工作模式。

知识库管理流程(政务知识库管理)原创

 

[导读]本文整理自2017年6月27日,由清华-青岛数据科学研究院主办,清数大数据产业联盟承办和中国科学技术产业化促进会指导发起的清华大数据“应用·创新”系列讲座之政府政务大数据本期邀请的嘉宾是国双科技(GRIDSUM)政府政务业务咨询总监。

唐喆,他给我们分享的题目是政务知识库应用的探索与实践,本期报告将从政府政务数据应用层面分享两个真实的项目案例和一个综合解决方案,向大家展示如何将基于大数据的政府知识库,逐步从一个行业应用,扩展到领域应用,最终去影响、改变政府的工作模式。

以下是唐喆总监关于政务知识库应用的探索与实践的演讲内容精华后台回复关键词“清华大数据”,可下载《唐喆:政务知识库应用的探索与实践》、《王晓哲:人工智能技术在医学领域的应用与前景》及《行湘:大数据视觉智能实践及医学影像智能诊断探索》。

完整版PPT。

一、大数据价值核心=政务数据应用内动力IDC(互联网数据公司)曾给出一组数据,评估到2020年,全球的数据总量将达到40000EB(平均每个人拥有5200GB的数据),全球的数据增速为50%,相当于每两年会翻一番。

中国的数据约占全球的20%,有近80%的数据掌握在政府手中简单换算一下,中国政府约有全世界16%的数据量政府数据要复合“四个依法”,具有天然优势,被誉为新时代的“石油”,因此,开发这些“石油”必须依托大数据技术。

大数据应用的核心价值是什么?有人说是预测,有人说是发现新规律,唐喆认为,大数据应用的核心就是挖掘价值,这是一个从数据到信息,再到知识,最终到达智慧的过程,而这就是政务知识库应用的内在动力所以政务知识库一定是与业务需求密切相关的伴生性系统。

二、案例1:国家安监总局的政府垂直行业知识库据安监总局公开数据显示,刚刚过去的十二五期间,我国平均每年发生安全生产事故324,111起,死亡人数达71,803人安全生产事故的发生往往并无明显预兆和规律,一旦发生就造成人身安全和经济财产的巨大损失。

而这些历史事故的处理和对外宣传,是一个体量巨大的资源库,挖掘这些数据,能够成为再次处理同类事故的重要参考依据这也是政府行业知识库的一个典型性需求围绕这个典型需求,我们首先提供了基于安全生产事故数据的准实时统计和精准检索。

这里的检索,一方面支持综合考虑相关度、时间、事故等级等信息的综合排序,另一方面也支持优先在事件基本情况、处理建议、事故原因等段落匹配关键词,使搜索更加适配使用者的需求另外,从项目价值洞察,我们还提供了多维度的安全生产事故态势分析。

当然,作为行业知识库,最核心的还是构建,基于本体和关联规则的全国安全生产监督管理语义网络,这是知识库系统的核心据此,运用自然语言处理技术将汇聚到的过往安全生产事故历史信息进行细分分类,并进一步做出情感判断和相似性判断。

最终,帮助使用者快速找到历史同类事故信息,而且推荐出所有相关信息,最大程度的辅助有关人员做出参考性处理,使得相似事故在处理和宣传口径上能够保持统一的尺度三、案例2:政府改革领域知识库应用这个项目横跨多个行业,面向一个领域,是中国资深的改革智库—中国(海南)改革发展研究院(简称中改院)和国双联合建设的。

2018年将迎来中国改革开放40周年,作为从体改委时期就成立的国家权威改革智库,中改院希望能够融合自身及其他各平台的中国改革信息资源,还原中国改革发展历程,全面展现社会各界人士对改革的认知和看法,面向全国建成中国改革信息大数据平台,将中国改革经验和教训分享给全社会。

项目最终要实现改革数据的全面整合和全息化管理,打造中国改革信息大数据资源库,能够面向各级政府、高校、科研单位和社会人士提供知识输出,成为全国最大、最权威的改革信息知识服务机构平台建设方案经过多次专家论证,受到包括国家发改委体改司徐善长司长、国家行政学院汪玉凯教授等众多专家的高度评价。

整个项目分三阶段建设,第一阶段,以基于大数据的中国改革知识库为核心建设的改革大数据门户已初步形成交付能力,后两阶段围绕改革信息的深度应用和知识交易为重点进行建设这是项目一阶段建设成的中国改革信息大数据平台。

从这个系统架构中我们可以看到,无论是底层的改革信息资源平台,中间的数据、权限、内容管理,还是上层的分析应用中心,都围绕核心的改革信息知识库建设,改革信息知识库成为整个大数据平台的核心众所周知,我国的改革领域包罗万象,涉及到政府的各个行业,再加上社会对改革的看法和认知,组成了体量巨大信息生态网络。

如果将之前安监总局知识库比喻成一棵大树,那么,中国改革信息知识库就是一片浩瀚的原始森林,不仅仅有繁多的树木,还有动物和河流贯穿其中为此,我们为这个项目量身打造了改革领域知识库

在第一阶段项目中,针对外围渠道、领域分类、数据管理和信息应用等方面设定了阶段目标,正是在达成这些目标的过程中,我们在四个方面取得了领域性突破和成果第一是“多渠道数据融合”,在这个项目中,我们要基于基础大数据平台,融合超过1000家的互联网渠道数据,完整复刻中改院20多年沉淀的各类改革信息成果,还要能够对接外部智库数据,并保证未来数据可持续扩展的能力,这几乎是目前可见的信息系统在数据整合方面的极限。

第二是“知识库架构创新”,我们通过与中改院专家共同研究,将全国改革信息划分为“政治、经济、文化、生态、社会、对外开放和总体改革”七个大类,下面又有近百项的细分分类,在业务分类之上,进一步叠加领域、人物、时间、事件、机构、地区等属性的交叉分类,并基于他们之间的关联规则,构建出了多领域中国改革知识图谱。

有了知识架构,在信息展现方面,我们同样打破常规,将传统的信息栏方式无法展现众多交叉维度的信息,创新采用了“领域分类”+“属性筛选”方式例如我们可以在领域分类里先找到国企改革领域、再从右侧依次选择顾维钧、北京、“郎顾之争”就可以快速聚焦到相关信息。

第三个突破是“自动分类”,给出的解决办法是采用基于“受限制玻尔兹曼机+长短期记忆人工神经网络”深度学习的方法因为改革领域做信息分类最为棘手的是“多类标”问题简单说,就是分类标准不唯一,一篇报道2016里约奥运会的经济效应的文章,既包括了体。

育又包含着经济,还有可能包含政治方面的内容。

我们使用的深度学习算法逻辑,可以概括为通过受限制玻尔兹曼机进行文本的降维和特征提取,采用长短期记忆人工神经网络找到类标之间的依赖性关系,例如包含蓝天类标的样本很大概率上包含白云,通过右侧的学习模型,可以在神经网络中对应增加“白云”的分类概率。

最终通过多层的神经网络学习,给出最终的分类通过标准测试数据显示,我们这种方法在分类准确率方面能提升20%以上最后一个突破是“自动摘要”,这方面,我们主要能够针对不同类型的文章,分别进行自然语言处理,给出最佳的自动摘要方法。

以理论文章为例,我们会区分论文类和非论文类学术文章,针对论文格式的文章,选择“摘要、内容、提要、综述”等有提示性词语,将词语后面的一段话提取为摘要;对于非论文格式的学术文章,还要先区分有无二级标题,有标题的,选择第一个一级标题前的内容加一、二级标题为摘要,没有标题的,选择第一个一级标题前的内容加一级标题下每段首句为摘要。

以上分享了面向政府垂直行业和综合领域构建知识库的实践,特别是通过建设中国改革信息知识库,我们认为知识库是可以应用于政府的任何行业中的,希望通过开展更深层次的探索,通过政务知识库和知识的输出,能够有效推进政府部门形成基于数据进行科学决策的工作模式。

四、综合解决方案:大数据精准招商解决方案目前,政府进行招商引资的一般工作流程主要包括收集信息,发现需求、确定目标、制定方案、实施促进、反馈信息等环节。

通过和一些开发区和园区管委会领导交流,发现政府目前在进行招商引资的很多问题已经超出了“人的经验”,而这正是大数据价值的所在鉴于此,我们在今年开始,将资源重点投入到大数据精准招商解决方案中,提出了从前期产业规划定位,到招商过程中企业信息的精准对接,直到企业入园之后的综合评价“全流程”的基于大数据辅助政府精准招商的解决方案。

而且很多园区领导也认识到,具备了大数据分析服务能力的园区,在运营管理、扶持投资、整合产业方面都具有明显的优势,从而加速了良性循环,保障了园区的持续发展这套解决方案的核心,仍旧是知识库问题,即挖掘、匹配产业、园区和企业之间的关联关系。

产品层面,我们首先围绕园区之间的竞争能力,综合园区产业、入/出园企业、政策/资源禀赋、招商动态等数据,进行科学评测,帮助园区自我认知,特别是和竞争性园区之间的优劣势比较产业方面,主要是围绕发展潜力、吸引资本、前沿成果和地区活跃度等方面给出综合评价。

从产业链生态视角出发,完善产业链数据,为园区定位产业方向、补全上下游企业提供决策支持具体到招商环节,我们主要是整合企业静态和动态信息,对于静态信息,我们通过基于行业的测算模型,给出企业的综合得分排名,帮助招商人员聚焦目标企业。

另一方面,我们匹配最新动态咨询,评估企业是否有入园的可能。最终我们通过所有信息的本体关联,进行信息的精准匹配。最后展现的是一个企业入园后的综合评价效果。

讲座接近尾声,唐喆总监对以上案例进行总结:构建政务知识库,核心是确定本体和关联规则,普遍应用到自然语言处理,机器学习,数据仓库等技术,最终实现的是将数据和信息转化为知识的输出他还表示,欢迎各位青年才俊和业界精英携手国双,在探索大数据和人工智能的广袤天地里一起遨游,一起为政务大数据服务。

整理:朱玲校对:丁楠雅后台回复关键词“清华大数据”,可下载《唐喆:政务知识库应用的探索与实践》、《王晓哲:人工智能技术在医学领域的应用与前景》及《行湘:大数据视觉智能实践及医学影像智能诊断探索》完整版PPT。

为保证发文质量、树立口碑,数据派现设立“错别字基金”,鼓励读者积极纠错若您在阅读文章过程中发现任何错误,请在文末留言,或到后台反馈,经小编确认后,数据派将向检举读者发8.8元红包同一位读者指出同一篇文章。

多处错误,奖金不变不同读者指出同一处错误,奖励第一位读者感谢一直以来您的关注和支持,希望您能够监督数据派产出更加高质的内容转载须知如需转载文章,请做到 1、正文前标示:转自数据派THU(ID:DatapiTHU);。

2、文章结尾处附上数据派二维码。申请转载,请发送邮件至datapi@tsingdata.com

公众号底部菜单有惊喜哦!企业,个人加入组织请查看“联合会”往期精彩内容请查看“号内搜”加入志愿者或联系我们请查看“关于我们”

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186

知识知识库管理流程(政务知识库管理)原创

2023-11-04Aix XinLe51

知识库管理流程(政务知识库管理)原创如何将基于大数据的政府知识库去影响、改变政府的工作模式。…

科学科学的实证包括(科学的实证包括实证与伪证证实过程需要几个事实

2023-11-04Aix XinLe137

科学的实证包括(科学的实证包括实证与伪证证实过程需要几个事实依据)居然可以这样诚挚邀请更多法学期刊入驻“北大法宝”,广泛传播,服务社会,共塑品牌。联系邮箱:journal@chinalawinfo.com。…

科学科学的实证包括(科学的实证包括实证与伪证证实过程需要几个事实

2023-11-04Aix XinLe143

科学的实证包括(科学的实证包括实证与伪证证实过程需要几个事实依据)不看后悔实证逻辑主义想象一下你有一个盒子,你只相信你能用眼睛看到、用手摸到的东西。如果你不能看到、摸到,你就认为那个东西不存在,或者至少那个东西没有意义…

科学科学的实证包括(科学的实证包括时政与伪证实证过程需要)燃爆了

2023-11-04Aix XinLe59

科学的实证包括(科学的实证包括时政与伪证实证过程需要)燃爆了本期 · 精彩新刊速递 | 华东师范大学学报(哲社版)2020年第六期目录摘要摘要:系统追溯王元化对王国维、…

探索520送男朋友什么礼物最好(520送男朋友什么礼物最好异地恋)硬核推

2023-11-04Aix XinLe78

520送男朋友什么礼物最好(520送男朋友什么礼物最好异地恋)硬核推荐18件生日礼物清单男(送男朋友生日礼物推荐)…