加载中...请稍后..

金准人工智能 金融大数据分析的数据分流应用报告

发布日期:
2018-04-21
浏览量:
71671

前言

随着大数据应用的逐步普及,越来越多的大数据分析、内容安全审计和业务应用可视化的应用得到普及,这个过程中我们面临的一个核心问题那就是:如何把业务流量正确、按需的方式传递给所需的分析系统。

如何把业务流和或者所需的数据包分发到分析系统,实现方式有很多,既有传统的例如HUB、分光器和普通交换机的镜像技术,也有最近几年逐步流行起来的专业网络分流设备。那么这些系统或设备有什么区别呢,金准人工智能专家从以几个维度阐述数据分流系统和分流器,并以数据集中的金融大数据为代表,进一步分析金融大数据分析的数据分流应用。

一、业界分流技术对比

传统的分流系统有分光器、分路器、HUB,以及交换机SPAN技术,和最近几年流行的专业数据分流器几种形态。

从网络分流最普遍的在数据的出口区域或核心区部署实现采集、复制和分发应用的案例,我们分别简述一下各类分流器的区别和优劣点。

1. HUB集线器

HUB由于是广播方式,如在业务区核心区挂载HUB,由HUB广播到不同分析系统,一是存在流量回流到核心的风险,即使是VLAN隔离,会造成核心设备处理广播flooding的导致CPU率高,严重造成核心设备和业务异常等高风险。二是HUB 性能严重不足,主流为千/百兆,且是半双工模式,已无法满足10G至40G以上网络环境的应用需求。

此类分流应用,特点是造价成本低但安全风险极高,适用百兆带宽,并对业务安全和稳定不考量的环境,例如测试环境或者学习环境,不适合商业部署。

2. 分光器和分路器

此类设备是物理上无源的器件,属于一路光信号复制为多路光信号的方式,技术实现简单,成本低,部署相对简单,是一种非常常见的分流系统部署方式。但是由于串接在业务网络中,通常存在几个风险和问题,一是存在单点故障风险,一旦该器件出现问题,意味着业务的整体中断。二是分光器或分路器是简单的端口到端口的复制,不能灵活的区分业务流,在多个业务分析系统的硬软件需要业务区分或拆分分析的需求下,该模式已经不适用。

此类分光或分路应用,特点是成本低但不够灵活,适用千兆和万兆带宽,对业务数据采取粗放分发和管理模式,并要能对出口区域有单点故障风险有极高承受能力环境。

3. 交换机的镜像SPA功能

交换机的镜像SPA功能也是现有和当前很多环境习惯使用的技术,此类SPAN有以下特点:传统网络设备镜像资源有限,业界网络厂家绝大部分只能使用BCM的芯片,所以相关特性都是基本一致的,N(目的源接口):M(镜像目的接口)最大值不大于4,在基于MPLS OAM和BFD等复杂应用环境下,N和M的值还要减少1-2。意味着同一端口或流量最多复制4份。如果有8个或更多的分析系统需要部署,那就出现了典型分流资源瓶颈。二是镜像功能普遍是低于交换机普通转发的优先级,会造成丢包和延迟的风险。

此类交换SPAN数据分流应用,特点是使用率高,但受制于应用规模和业务要求,千万兆比较常见,数据管理不够精细,不能做到高级的数据分流管理应用,因此适用于分析系统少于4的小型数据分析或安全分析的环境。

4.数据专用分流器

现阶段适应数据分析和数据流管理的专业数据分流器。分流系统解决基础网络流量调度的限制多、扩展能力弱等问题。它除了覆盖具备了上述传统分流的基本属性,更多是增强并扩展了高级应用。例如,数据筛选功能在数据包层级,选择发送何种数据包到指定的监测端口。数据过滤功能通过特定的协议过滤,如HTTP、VoIP或其他。会话负载功能基于会话的、数据流感知的负载均衡可以捕获10GE的网络并根据用户自定义的会话条件,自动均衡到多个1G监测工具。

数据分流器的缺点是造价高,不具备交换机的学习转发模式,不适用于串接在网络中使用。优势在于不受制于应用规模和业务要求,数据管理能够精细到协议区分采集,或截断脱敏等高级采集和管理应用,适用于分析系统规模大于4至更多数据分析或安全分析的环境,以及需要精细化数据管理的业务环境。

由于从产品外观、功能实现来看,交换机和分流器具备较多的相似性,而两者方案存在较大差别成本差异,因此很多用户对两者之间的关系存在很多困惑,因此接下来我们重点在网络数据分流器和网络交换机之间关系、区别和应用定位等几个方面来说明主要差异,以及说明在数据分析或安全数据管理的环境下,为什么需要专业的分流系统来实现相关业务部署和落地。

二、数据分流器和交换机的关系和区别

网络交换机负责网络流量的转发,串接整个网络,是学习建立各类转发表项,再尽力转发,主责是流量转发。

数据分流设备,普遍Bypass旁挂在网络侧,实现数据流的识别采集、扩展复制和策略分发,主责是流量管理。

交换机和分流设备在基础的流量管理上,都具备流量复制的功能。而网络分流器除了具备更强大的流量汇聚、复制功能外,还具备精细化的流量管理功能,这些是传统网络交换机不具备的。网络交换机已不适用当前阶段,网络流量的识别、汇聚、复制等多要求的技术需求。

随着云计算、大数据业务的各种业务的部署应用,传统的流量调度和管理也显示出各种不适应。云计算和大数据的技术应用,从传统南北数据流,到现在网络内部大量的东西流量,同时部署很多对业务可视、安全内容审计等应用系统,传统网络交换机基本SPAN已严重制约了网络平台对数据流量平滑的采集、汇聚、分流复制并做进一步管理的应用需求。

网络交换机和数据分流器应用定位不同。

数据分流器和网络交换机,物理形态基本相同,会有不同的以太接口或pos接口,甚至是定制化专用数据采集口,但最重要的是流量分流和管理的应用不同。

我们看一个典型的使用环境,某省公安不同部门在不同时期建设的业务系统多达近百种,IT业务环境中常出现业务问题定位困难、排查效率低下,责任不清等问题,导致业务系统相关使用单位和对外服务窗口单位服务质量体验较差。


为了缓解和解决该现状,设计通过核心区域采集所有实时业务数据,通过“业务分析系统”进行全业务数据离线分析,实现IT问题快速定位排障、明确责任和故障原因,为运维和系统改造、优化、升级提供有效的可视化分析的决策支撑。而实际状况技术核心区某通用网络交换机的镜像资源不足,只能镜像2个目的端口(受限于芯片资源等原因),源数据口是万兆,整网业务流量较大,对分析系统的“接收、存储、处理分析性能有很高硬件要求。此时,通过分流器,实现了一份万兆全业务流量通过负载1分6均分负载到同一台分析系统I/0接口上,极大缓解了分析服务器数据采集、存储的性能压力。

数据专用分流器的特点

数据分流设备普遍会采用专用芯片,用深度开发的流量调度技术,在业务可视化运维或数据安全管理的环境中,解决基础网络流量调度的限制多、扩展能力弱等问题。

高级版本可以支持时间戳、端口戳、协议剥离、截断、数据包去重、碎片重整和数据矩阵等构建功能。

这些都是专业分流特性能实现业务流量正确、按需的方式传递给所需的分析系统,才能配合实现后续高效、快捷的问题定位、安全回溯,业务分析等应用。金准人工智能专家分析认为,数据分流器在满足上述需求的同时,更具有不影响原有业务网络、端口密度高、关键数据脱敏等技术优势。这也是传统粗放式数据管理分流所不具备的特点。

三、金融大数据分析的数据分流应用

随着金融大数据技术应用,以及相关业务大数据应用不断创新,金融机构的数据分析和业务创新,以及数据安全如何深度融合,是当前金融机构信息化面临的重要挑战。

中国银监会印发《银行业金融机构信息系统风险管理指引》(2006年),其中第二十七条:银行业金融机构应加强数据采集、存贮、传输、使用、备份、恢复、抽检、清理、销毁等环节的有效管理,不得脱离系统采集加工、传输、存取数据;优化系统和数据库安全设置,严格按授权使用系统和数据库,采用适当的数据加密技术以保护敏感数据的传输和存取,保证数据的完整性、保密性。

中国银监会印发《银行业金融机构全面风险管理指引》(银监发〔2016〕44号),其中第四十三条:银行业金融机构应当建立与业务规模、风险状况等相匹配的信息科技基础设施;第四十四条 银行业金融机构应当建立健全数据质量控制机制,积累真实、准确、连续、完整的内部和外部数据,用于风险识别、计量、评估、监测、报告,以及资本和流动性充足情况的评估。

从银监会的两次下发指引文件要求中,金准人工智能专家认为,针对金额行业的数据分析,相对传统行业,在数据的采集、存储和处理过程中,在数据安全性、完整性、业务管理全面性上,有着更为严格的要求。

那在金融大数据技术应用领域,如何更高效、安全的实现金融业务数据的精细化采集管理,是其中一个细分的技术领域。

1. 金融业务大数据的采集管理技术需求

金融行业的信息化在众多异构系统和DT环境中,越来越重视可视化和业务关联性,在互联网化金融交易和大数据技术应用的背景下,相关数据采集、分析的技术需求演进出现了新的变化,那就是分别是分流调度管理技术和业务可视化技术。

可视化分析业务,需要采集、分析不同类别的数据,如基础数据,日志数据,安全数据或特定业务数据,因此需要分门别类进行分类调度。专业的分析应用需要专业的设备和系统配合。

比如风险监管日趋严谨,每家金融机构对贷前风控、贷后风险管理的重视空前提高。而通过信息化手段实现风控能力上,数据准确完整,算法和模型是风控部署的核心。

现在的金融机构IT架构大多分为在线系统、近线系统与离线系统。在线系统主要面向最终用户的交易请求;近线系统则针对一段时间内的历史数据进行存放和进行溯源查询;而离线系统则对历史时间的数据进行归档,在特殊情况下会被恢复进行使用。

随着大数据技术的蓬勃发展,金融机构对全量历史数据的认知有新的变化。如何从历史数据中挖掘其潜在价值,如何将离线数据在线化以满足监管部门的需求,是很多银行开始利用大数据技术解决的问题。

例如征信,银行已经能够获取社会各类有意义的信息进行记录,例如网上的各地各楼盘的房价、人行征信、法院执行纪录、工商局信息、企业上下游现金流等信息,然后通过这种信息对个人企业进行分析对比,对超常理的数据进行风险警告,便于审计人员快速判断识别潜在风险。

又比如客户的POS刷卡记录,企业上下游流水账单,交税信息等等,整个可对企业进行现金流测算。又或者对客户信用卡还款时间,转账时间等等来判断客户手中现金或者回款时间,把推荐的理财营销时间推送给其客户经理等,实现真正的精准营销。

金准人工智能专家认为金融现有的业务需要把数据的有效分析和灵活应用到金融体系中去,而非空谈大数据应用。

那在大数据业务分析、内容安全审计和业务应用可视化的应用中,面临最核心问题,那就是如何把业务流量正确、按需的方式传递给所需的数据分析系统。笔者认为需要专业的业务流数据管理系统才能够精准的识别、分类和分发传递。

比如很多运维日志数据是通过UDP 514传递的,那日志服务器不需要接受其他内容,针对性采集即可。如交易或征信业务只需要采集数据库的Mysql TCP 3306 和Oracle TCP 1521端口往返数据,那分析系统也可降低性能负载,摘取所需数据是当前数据分析的必要措施。

另外不得不说的是流量不少是无用的数据载荷。而常见的分析系统平台大多为千兆速率,那么网络单接口流量在万兆或更高流量时候,是增强系统分析系统的硬件配置还是通过数据裁剪方式来部署,那选择显而易见是裁剪优化而不是升级分析平台的硬件平台,因为那将是更高昂的硬件摊销成本。

比如交易数据或征信数据等,可以进行剥离掉帧头帧尾和部分封装协议。数据分析服务器(比如性能分析类)吞吐量较低,无法承载大流量分析能力,需要将分发流量进行载荷截短,降低数据流量带宽,提升服务器分析效率。

2. 金融大数据采集分析应用建议使用专业分流技术

金准人工智能专家分析认为上述的金融业务可视化分析以及IT系统环境运维过程中问题,是我们常见的数据采集、归类、提取再分发分析的技术需求和环境。

因此在金融大数据识别、分类采集、分发存储等应用方面建议使用专业数据分流技术,因为其系统的精细化数据流管理功能为相关业务应用提供专业能力的保障,而这个数据分流应用并已在诸多的行业的运维和业务应用可视化领域成熟应用。

目前国内市场上还没有针对金融行业系统应用的专业分流器出现。迈普公司凭借多年服务于金融经验,适时推出了与国外品牌相媲美的“网视”系列网络“数据分流器”产品。三大硬件系列、八大核心功能,在金融行业“可视化运维”部署业务中获得了充分验证和应用部署,打开了国产专业化网络分流器的新篇章。

迈普“网视”系列“数据分流器”采用定制化专业流处理芯片,采用灵活流量调度技术,针对金融行业面临的全网安全审计和多业务点性能分析需求,重点解决基础网络设备“流”分发使用限制多、安全风险高、扩展能力弱等问题。

过滤选项可以帮助用户在数据包层级,选择发送何种数据包到指定的监测端口。专业数据分流特性能实现业务流量正确、按需的方式传递给所需的分析系统,才能实现高效、快捷的问题定位、安全回溯,业务分析等应用。在满足上述需求的同时,更具有不影响原有业务网络、端口密度高和关键数据脱敏等技术优势。

“八大核心功能”依次是:分析流M:N、分析流1:N负载、分析流溯源标识、分析流时间戳标签、分析流数据脱敏、分析流载荷截短、分析流远端IP传输和分析流对称HASH,可以满足运维过程中流量灵活分类、流量压缩、多业务支持的三个关键业务需求,解决传统网络设备的功能不足。

迈普“网视”系列“数据分流器”是国内领先的行业级数据分流器产品,产品功能丰富、定制能力强,目前已经与大量流量可视化厂家实现了应用对接,如天旦、Ixia 、Netscout、赛门铁克、Compuware、科来、绿盟等。

总结

金准人工智能专家认为大数据时代的IT信息化环境中,如何管理调度好流量,专业的迈普数据分流器是诸多行业场景较好的选择。它是具备与国外品牌Gigamon相媲美的网络分流器产品。有三大硬件系列、八大核心功能,在金融和政府等行业“运维可视化和业务可视化业务应用中获得了充分验证和平滑部署,是国产专业网络分流器的典型代表。