(12)发明专利申请
(10)申请公布号 CN 110427398 A(43)申请公布日 2019.11.08
(21)申请号 201810397566.0(22)申请日 2018.04.28
(71)申请人 北京资采信息技术有限公司
地址 100085 北京市丰台区南四环西路186
号一区1号楼6层21-22单元(园区)(72)发明人 郑菀俪 刘青山 (51)Int.Cl.
G06F 16/2458(2019.01)
权利要求书1页 说明书4页 附图1页
(54)发明名称
一种基于数据挖掘与分析的模型管理工具(57)摘要
本发明公开了一种基于数据挖掘与分析的模型管理工具,包括模型管理、算法管理、任务管理、数据源管理、业务源管理模块构成;其核心功能是模型管理、算法管理、任务管理,其他模块都是为这三项核心模块进行提供辅助的模块,使用工作流技术、计算引擎技术、数据存储技术、任务调度等技术的选型,实现自主建模、实时模型训练、实时展示模型计算的输出等效果。有益效果在于:提高了数据挖掘和分析时模型创建的效率,提升了数据挖掘和分析处理的效率,减少了运营人员需求,降低了生产成本。
CN 110427398 ACN 110427398 A
权 利 要 求 书
1/1页
1.一种基于数据挖掘与分析的模型管理工具,其特征在于:包括模型管理、算法管理、任务管理、数据源管理、业务源管理模块构成;其核心功能是模型管理、算法管理、任务管理,其他模块都是为这三项核心模块进行提供辅助的模块,使用工作流技术、计算引擎技术、数据存储技术、任务调度等技术的选型,实现自主建模、实时模型训练、实时展示模型计算的输出等效果。
2.根据权利要求1所述的一种基于数据挖掘与分析的模型管理工具,其特征在于:所述模型管理是由模型定义与训练、模型测试、模型发布、模型评估、历史模型查询等功能组成,其中模型定义与训练是可以在流程绘制过程中进行流程实时调试执行的,并且可以对计算结果进行展示;并且每一个原子算法、活动执行的结果会保存在临时存储中,并且可供其后继任务随时访问,当整个模型训练完成以后,模型成功保存后,通过清除操作,才可以把训练过程中的临时存储数据进行释放,这样可以提高建模的效率,避免每次调试都要从开始点执行;模型发布是用来进行模型导出和导入的,目的是把已经绘制好的模型信息从平台上导出形成文件,并可以导入到另一个平台实例中,以便于进行模型的迁移;对于成熟在用的模型,运行一段时间以后,可以使用模型评估模块,对模型的有效性进行评估,并可以进行优化。
3.根据权利要求1所述的一种基于数据挖掘与分析的模型管理工具,其特征在于:所述算法管理是包含原子算法管理、原子操作管理、原子服务管理、伪码编程管理、工具包管理等功能,这些功能为平台可扩展性提供了支撑,主要是面向平台管理人员开放,可以灵活配置各种算法、操作、服务,并且可以把常用的操作集成为工具包,为建模人员提供。其中原子算法集成了多种语言实现的版本(R,C++,SparkR、Python、Java、Julia、Scala、Go、Mahout),以便于建模人员根据实际需要处理的数据量选择效率最佳的算法。
4.根据权利要求1所述的一种基于数据挖掘与分析的模型管理工具,其特征在于:所述任务管理主要是对测试通过的成熟的模型,形成固定的任务,可以配置定期时间,任务调度根据定时器调度启动执行,并可以监控模型执行状态:成功、失败、执行中,还可以查看执行日志和结果。任务管理还可以设定模型运行的并行度,根据用户对计算效率的要求设定并行度,以提高处理效率,但并行度必须以当前平台基础实施规模为前提的。
5.根据权利要求1所述的一种基于数据挖掘与分析的模型管理工具,其特征在于:所述自主建模功能是指通过拖拉拽方式可视化绘制模型流程,并且可以实时单步训练,并可以对输出结果进行展示。
6.根据权利要求1所述的一种基于数据挖掘与分析的模型管理工具,其特征在于:所述工具支持多语言实现的算法版本,可以根据数量灵活选择最佳的算法使用。
7.根据权利要求1所述的一种基于数据挖掘与分析的模型管理工具,其特征在于:所述工具提供简单的编程功能,支持的编程语言包括:Java、C++、Python等主流开发语言,并可以集成到自建模型中辅助数据挖掘与分析处理。
2
CN 110427398 A
说 明 书
一种基于数据挖掘与分析的模型管理工具
1/4页
技术领域
[0001]本发明涉及数据挖掘设备领域,本发明涉及一种基于数据挖掘与分析的模型管理工具。
背景技术
[0002]随着大数据时代的到来,数据的挖掘与分析开始被人们逐渐重视起来,因此运应运而生了许多大数据平台,这些大数据平台很多都是专注于海量数据的处理:数据的采集、解析、预处理、ETL,而在数据价值的挖掘和分析方面做的比较少。另外也有一些专业的数据挖掘与分析平台,提供了比较丰富的数据挖掘技术和数据分析算法,但是在自主模型创建方面考虑的不全面,不能进行灵活的、自主的创建模型,进行数据的挖掘和分析,不能由使用者按照自己的设想通过友好的模型管理界面进行自主模型创建,往往是以特定的多种行业的模型模板对外提供的;另外,在算法的选择方面比较单一,不能根据数据的量级而选择合适的算法,从而不能保证数据挖掘分析时的处理效率。[0003]所谓自主建模,就是通过模型管理界面,根据需要分析的行业业务知识,选择需要分析的数据源,然后根据数据挖掘分析的知识,创建数据挖掘分析的模型。模型创建过程中完全是界面化、可视化和拖拉拽的方式进行,数据挖掘与分析需要的操作、算法都是在平台上配置好的,不需要编写代码。发明内容
[0004]本发明的目的就在于为了解决上述问题而提供一种基于数据挖掘与分析的模型管理工具。
[0005]本发明通过以下技术方案来实现上述目的:[0006]一种基于数据挖掘与分析的模型管理工具,包括模型管理、算法管理、任务管理、数据源管理、业务源管理模块构成;其核心功能是模型管理、算法管理、任务管理,其他模块都是为这三项核心模块进行提供辅助的模块,使用工作流技术、计算引擎技术、数据存储技术、任务调度等技术的选型,实现自主建模、实时模型训练、实时展示模型计算的输出等效果。
[0007]本实施例中,所述模型管理是由模型定义与训练、模型测试、模型发布、模型评估、历史模型查询等功能组成,其中模型定义与训练是可以在流程绘制过程中进行流程实时调试执行的,并且可以对计算结果进行展示;并且每一个原子算法、活动执行的结果会保存在临时存储中,并且可供其后继任务随时访问,当整个模型训练完成以后,模型成功保存后,通过清除操作,才可以把训练过程中的临时存储数据进行释放,这样可以提高建模的效率,避免每次调试都要从开始点执行;模型发布是用来进行模型导出和导入的,目的是把已经绘制好的模型信息从平台上导出形成文件,并可以导入到另一个平台实例中,以便于进行模型的迁移;对于成熟在用的模型,运行一段时间以后,可以使用模型评估模块,对模型的有效性进行评估,并可以进行优化。
3
CN 110427398 A[0008]
说 明 书
2/4页
本实施例中,所述算法管理是包含原子算法管理、原子操作管理、原子服务管理、
伪码编程管理、工具包管理等功能,这些功能为平台可扩展性提供了支撑,主要是面向平台管理人员开放,可以灵活配置各种算法、操作、服务,并且可以把常用的操作集成为工具包,为建模人员提供。其中原子算法集成了多种语言实现的版本(R,C++,SparkR、Python、Java、Julia、Scala、Go、Mahout),以便于建模人员根据实际需要处理的数据量选择效率最佳的算法。
[0009]本实施例中,所述任务管理主要是对测试通过的成熟的模型,形成固定的任务,可以配置定期时间,任务调度根据定时器调度启动执行,并可以监控模型执行状态:成功、失败、执行中,还可以查看执行日志和结果。任务管理还可以设定模型运行的并行度,根据用户对计算效率的要求设定并行度,以提高处理效率,但并行度必须以当前平台基础实施规模为前提的。
[0010]本实施例中,所述自主建模功能是指通过拖拉拽方式可视化绘制模型流程,并且可以实时单步训练,并可以对输出结果进行展示。[0011]本实施例中,所述工具支持多语言实现的算法版本,可以根据数量灵活选择最佳的算法使用。
[0012]本实施例中,所述工具提供简单的编程功能,支持的编程语言包括:Java、C++、Python等主流开发语言,并可以集成到自建模型中辅助数据挖掘与分析处理。[0013]本发明的有益效果在于:[0014]1:提高了数据挖掘和分析时模型创建的效率:平台通过托拉拽的方式就可以创建数据挖掘和分析模型,从而改变了通过编写程序代码来创建数据挖掘模型的传统做法,并且降低了对建模人员编程能力要求,这样使得建模人员可以专注于数据挖掘理论研究,快速绘制挖掘模型;[0015]2:提升了数据挖掘和分析处理的效率:平台提供了适合多种场景的算法实现版本,并且可以根据实际的数据量来设定计算的并行度,大大地提升了分析处理的效率;[0016]3:减少了运营人员需求,降低了生产成本:平台中任务管理模块提供了定时执行功能,从而免去了专门安排人员手工执行任务工作,减少了人员需求,从而降低了生产成本。
附图说明
[0017]图1是本发明所述一种基于数据挖掘与分析的模型管理工具的工作原理图。具体实施方式
[0018]下面结合附图对本发明作进一步说明:[0019]如图1所示,一种基于数据挖掘与分析的模型管理工具,包括模型管理、算法管理、任务管理、数据源管理、业务源管理模块构成;其核心功能是模型管理、算法管理、任务管理,其他模块都是为这三项核心模块进行提供辅助的模块,使用工作流技术、计算引擎技术、数据存储技术、任务调度等技术的选型,实现自主建模、实时模型训练、实时展示模型计算的输出等效果。
[0020]本实施例中,所述模型管理是由模型定义与训练、模型测试、模型发布、模型评估、
4
CN 110427398 A
说 明 书
3/4页
历史模型查询等功能组成,其中模型定义与训练是可以在流程绘制过程中进行流程实时调试执行的,并且可以对计算结果进行展示;并且每一个原子算法、活动执行的结果会保存在临时存储中,并且可供其后继任务随时访问,当整个模型训练完成以后,模型成功保存后,通过清除操作,才可以把训练过程中的临时存储数据进行释放,这样可以提高建模的效率,避免每次调试都要从开始点执行;模型发布是用来进行模型导出和导入的,目的是把已经绘制好的模型信息从平台上导出形成文件,并可以导入到另一个平台实例中,以便于进行模型的迁移;对于成熟在用的模型,运行一段时间以后,可以使用模型评估模块,对模型的有效性进行评估,并可以进行优化。[0021]本实施例中,所述算法管理是包含原子算法管理、原子操作管理、原子服务管理、伪码编程管理、工具包管理等功能,这些功能为平台可扩展性提供了支撑,主要是面向平台管理人员开放,可以灵活配置各种算法、操作、服务,并且可以把常用的操作集成为工具包,为建模人员提供。其中原子算法集成了多种语言实现的版本(R,C++,SparkR、Python、Java、Julia、Scala、Go、Mahout),以便于建模人员根据实际需要处理的数据量选择效率最佳的算法。
[0022]本实施例中,所述任务管理主要是对测试通过的成熟的模型,形成固定的任务,可以配置定期时间,任务调度根据定时器调度启动执行,并可以监控模型执行状态:成功、失败、执行中,还可以查看执行日志和结果。任务管理还可以设定模型运行的并行度,根据用户对计算效率的要求设定并行度,以提高处理效率,但并行度必须以当前平台基础实施规模为前提的。
[0023]本实施例中,所述自主建模功能是指通过拖拉拽方式可视化绘制模型流程,并且可以实时单步训练,并可以对输出结果进行展示。[0024]本实施例中,所述工具支持多语言实现的算法版本,可以根据数量灵活选择最佳的算法使用。
[0025]本实施例中,所述工具提供简单的编程功能,支持的编程语言包括:Java、C++、Python等主流开发语言,并可以集成到自建模型中辅助数据挖掘与分析处理。[0026]具体工作原理为:该数据挖掘与分析的模型管理平台IMMP,主要有模型管理、算法管理、任务管理、数据源管理、业务源管理模块构成;其核心功能是模型管理、算法管理、任务管理,其他模块都是为这三项核心模块进行提供辅助的模块。为了能够达到自主建模、实时模型训练、实时展示模型计算的输出等效果,需要考虑工作流技术、计算引擎技术、数据存储技术、任务调度等技术的选型,以便于能够有效支撑这些功能的实现。[0027]在工作流技术选型方面,是以JBPM为蓝本进行设计和开发了建模流程界面和流程调度服务,使用的核心语言为java,web框架使用Bootstrap;在计算引擎技术选型方面,采用是java多线程技术;数据存储在技术选型时,需要考虑大数据5V特点中的大体量(Volume)、时效性(Velocity),所以,数据存储技术选择了Hdfs+Hbase+Hive、GreenPlum、Redis、Mysql等多种存储机制;任务调度在技术选型时,选择了java多线程技术。
[0028]模型管理工具是通过WEB前台界面通过手工拖拉拽的方式绘制数据挖掘的处理流程,并把流程信息保存在Mysql数据库中,计算引擎从数据库中获取流程信息,并生成任务进行执行,流程中各原子算法、活动节点之间的临时数据是通过Redis缓存进行交互的,界面包括原子算法和操作的维护、模型训练、模型运行输出观测、任务监控等功能。建模人员
5
CN 110427398 A
说 明 书
4/4页
在界面上通过工作流以拖、拉、拽的方式选择算法、操作,组织处理逻辑关系,平台对已经绘制好的工作流模型进行沉淀。建模人员可以在界面上及时查看模型训练的结果;也可以查看已经模型执行的进展状态等相关信息任务引擎:包括任务调度、活动排序、活动触发、状态监控输出等功能。通过任务引擎建模平台对任务进行调度、对活动进行排序、按照界面要求出发活动运行,并实时监控任务执行状态,并可以对模型训练执行指令和结果查看指令进行执行,计算引擎包含活动识别、参数解析赋值、算法的调用。当任务进行调用时计算引擎通过对工作流模型解析识别后调用相应的算法服务,计算服务包括完成服务编排、负载均衡、服务分发等。此部分为中间件采用ZeroIce实现,以完成服务节点与计算节点之间远程和异构系统之间的通信,计算节点对指定数据的统计分析和计算。此部分为算法实现部分、算法编写采用常用的Python、R、Spark、Java、C++等语言进行实现,平台将常用算法以原子算法的方式进行提供,建模人员只需通过工作流的方式将模型建立过程描述出来即可,这样就降低了对建模人员的编程技术要求。不同原子算法部署在不同的计算节点上,算法的过程数据采用统一的内存数据库以Key-Value进行存放,这样的实现提高了模型运算的性能。
[0029]以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。
6
CN 110427398 A
说 明 书 附 图
1/1页
图1
7
因篇幅问题不能全部显示,请点此查看更多更全内容