2012年,IBM董事长兼CEO罗睿兰在她的年度公开信中写道:“大数据不亚于一种新的自然资源。数据在我们当今时代的角色就像是蒸汽、电磁和化石燃料对之前时代的角色一样。它有潜力推动更高一层的社会进步和繁荣。”
但是,每一种新的自然资源从发现到挖掘出其巨大潜力都有很长的路要走。对企业来说,面对海量数据,首先要通过数据治理,提高数据质量。同时还应挖掘数据价值,将其与本身业务需求联系起来。在这个过程中,关注数据安全,培养数据分析人才,让数据思维成为企业基因也是必不可少的步骤。
1
确保数据质量,做好数据治理
大数据来源于智能手机、数码相机、全球定位系统、工业传感器、社交网络,甚至是公共监管系统和交通监测系统等。每当你使用手机,进行一次网络搜索或者是网络购物,你都留下了自己的数字足迹,创造了新的数据。
《哈佛商业评论》在一篇介绍物联网的文章里提到,现在每个数据传感器每秒可以生成15.2万个样本,这些数据信号最后变换成每年4万亿的数据量。如今的工业化和商业化进程,每天可以产生250万兆比特字节。随着经济、技术的发展,数据仍处于爆炸增长阶段。
用好这些数据,数据治理是关键。
过去,企业数据储存在不同的系统中,老死不相往来,一旦需要使用数据时,才发现彼此矛盾。广州供电局信息中心IT运营部应用运营专责孙煜华分享了一个案例。几年前,广州供电局有关负责人想了解一下广州共有多少台变压器,但是相关部门拿出的数据各不相同,而且差距很大。这个结果让广州供电局看到了数据管理的重要性,这件事之后,专门组织人手对数据进行核实。
各个部门报出不同的数据,不能说是这些部门的错。因为各自的分工不同导致各个部门对该设备缺乏统一的资产定义。譬如,物资部认为只要我买来变压器就算资产;基建部认为只有安装完成才算资产,而调度部门认为只有加电后才算资产;最后的市场部认为,只有有电费收入才算。所以各自的数据自然不同。
“背后的深层原因在于,过去数据是服务于具体的业务系统的,数据是业务流程产生的副产品,满足的是业务流程的需要,而数据不是为了开放和共享而设计的。”孙煜华解释说。
目前广州供电局数据治理工作已经进行了5年,通过建立统一的数据规范,包括数据标准和数据共享开放流程,从而规范数据的使用。“现在如果新的业务系统需要某些数据,可以在数据资产管理系统中浏览、检索。按需将它们放到购物车里,确认后发起一个数据使用的申请流程,经过相关人的批准和授权,就可以使用需要的数据,进行后面的开发了。”孙煜华说。
不仅广州供电局,海南电网公司也持续开展了3年的数据质量专项行动,通过统一数据采集规范,拓展传感器数据采集范围,提升数据采集广度、深度及准确性。云南电网公司实施数据认责机制,将数据管理下沉到业务部门专责或班组员工,实现业务数据核对、录入、审核的最小颗粒度管理,从数据源头予以规范,形成数据从源头维护、责任到人的机制。
如同那句被用滥的比喻,大数据就是现代社会的石油,可以通过人类对自身、对企业产生更精准的洞察产生巨大价值。但这一切的前提正是要确保数据的质量,做好数据管理。
数字南网建设启动以来,南方电网公司基于全业务统一数据中心和数据模型,开展了数据接入转换和整合贯通,打破专业壁垒,打造数据中台,统一数据调用和服务接口标准……一项项重要工作渐次开展,目标只有一个――实现“数据一个源”。
2
做好数据挖掘,找到其隐藏价值
获得了高质量的数据,只是企业数字化的第一步。企业还需要探寻新的方法来对其进行梳理,以找到隐藏在其中的价值。
麦肯锡曾预测,在全球范围内,大数据分析方案的广泛使用能够带来每年3000亿美元的电费削减。电力大数据的有效应用可以面向行业内外提供大量的高附加值的增值服务业务,对于电力企业盈利与控制水平的提升有很高的价值。有电网专家分析称,每当数据利用率调高10%,便可使电网提高20%~49%的利润。
要做到这点,电网企业需要在内部治理、外部商业模式挖掘的方方面面下功夫。以南方电网公司内部员工使用的工作票为例,过去,工作票要在系统中填写单子,然后人工审核,负责审核的人需要非常有经验。广州供电局创新使用两票智能质检(“两票”指的是工作票和操作票)的应用,将其与数据中心连接起来,在系统中填这个单子时,系统根据接线图自动去核查各种拓扑关系,只有前置条件都符合,才可以往下填表,最终允许操作。
“过去这个工作全是靠人来保证的,现在数据打通后通过系统来进行,大大简化了审核的难度,提高了安全性。而且,通过这个系统还可以把工作人员的经验积淀下来,实现了知识的传承。”孙煜华表示。
广西电网公司则通过配电网可视化规划系统建设,打破以往生产、营销、调度、计量等专业系统的信息孤岛状态,有效整合各专业系统的配电网数据资源,让这些信息孤岛连通起来,推动各专业数据共享。目前,广西电网公司已经构建了广西全网统一的电网核心数据模型,即从220伏到500千伏全电压等级的“站―线―变―户”数字电网统一模型,实现全电网“一套拓扑、一套台账、一套实时数据”的运行态数字孪生。
在广东云浮500千伏卧龙变电站,搭载着激光雷达设备的固定翼无人机展开快速、远距离线路通道巡视。在机巡过程中,会对线路实现可见光、红外影像、高精度位置信息等大数据积累。通过对无人机回传数据的分析,实现设备状态可测量、可分析、可预判。
类似的案例,还有广州供电局正在开发的停电分析应用,通过它可以预判某个地方一旦发生掉闸之后,会造成多大区域的停电,其中有哪些是要重点保障的客户以及要做哪些预案(如准备发电机等),这需要利用历史停电数据结合某个地区的电网结构、用户特征和天气数据来构建一个评估模型,评估因自然灾害造成的停电损失以及相应的应急预案,以提高供电的可靠性。
内部管理之外,电力数据的增值服务也在探索中。与工业生产过程中的原材料具有排他性不同,数据很容易实现共享,使用的人越多可能数据越增值。如果此数据和彼数据有机地整合在一起,可能就会产生新的信息和知识,且大幅增值。
深圳供电局下属企业深圳电网综合能源公司与银行开展企业征信服务,今年7月份,其与招商银行合作开发“应收账款融资”产品,实现了电力数据在贷前、贷中和贷后全流程应用。之后,该公司还将汇集电网公司内外部数据资源,打造大数据运营服务平台,针对个人征信服务、用电企业负荷预测、行业分析报告等业务场景,为客户提供各类数据产品和服务,实现电力数据的商业化运营。
可以说,通过对电力数据的挖潜,电网的感知能力、互动水平、运行效率和自愈能力正得到全面提升,设备管理更高效,调度控制更灵活,供电质量更优质,电网运行更安全。
数据的整合、贯通、统一,为南方电网公司打造数据共享服务提供了基础。目前,该公司正尝试全力对接“数字政府”和“数字中国”,通过有关单位面向政府、行业推出宏观经济预测、行业景气指数分析、大数据征信等服务,支撑政府高效精准决策。通过数据共享服务,充分发挥了电力大数据重要的价值作用,助力国家治理能力现代化。
3
数据是一种思维,应成为企业基因
企业推行大数据,还意味着从上到下贯彻一种有一说一,实事求是的思维。传统企业在注入互联网基因时,需要在组织架构、思维、运营模式多方面进行改造。这种改造需要在保留传统产业特性的同时,量身定做进行叠加。不是替代也不是颠覆,必须遵循产业和行业客观商业规律和问题,在此基础上渐进式创新。这对普通员工来说是一项极大的考验。
比如,一家车企计划实施刹车片召回。传统的做法是,通过各种软件追溯问题源头,通过生产管理、库存管理系统查看存货情况,通过销售和售后系统查看在销和已销售车型情况,进而汇总分析召回的总量、替换刹车片的排产以及发货所需时间、整体召回成本等等。
但是现在,这家车企可能只需要设计一个召回场景的应用,按照逻辑关系调用研发、生产、物流、库存管理、销售、售后等工业微服务组件,有关召回的一切都一目了然。就像我们使用智能手机里的APP,就可以享受各种专业服务。
这对企业员工来说,改变的不仅是工作方法,更是整个的工作思维。他们需要在日常工作中发现提出数据需求,并提交给相关部门,甚至需要一些简单的数据分析能力。如果普通员工需要理顺的是大数据思维,对大数据部门来说最紧迫的是对大数据以及业务非常熟悉的技术人才。
他们一方面需要处理海量的信息,并通过视觉化的工具将海量数据集清理并系统化,因为各种类型的数据很少是以规整的形态出现的。同时还应拥有设计数据实验的技能,用来弥补数据呈现的复杂关系与因果之间的鸿沟。特别优秀的数据科学家还应掌握商业语言,帮助企业管理者把公司面临的大挑战变为大数据可以解决的形式。
深圳供电局一直留意培养擅长数据分析的人才。2015年起,深圳供电局启动了为期三年的“数据分析专才”培养计划,选拔出57名优秀员工,系统学习统计学、数据挖掘、数据可视化等专业知识,打造出一支具备数据分析知识和技能、能够结合自身业务背景和工作实际开展数据分析的专业人才队伍。
2017年深圳供电局结束为期三年的数据分析专才培养后,又于去年底持续推出数据分析精英训练营。相较于专才培养计划,数据分析精英训练营提升训练难度,主打“一对一”小班授课,员工在专家指导下自主开展课题研究,有针对性地提高数据分析能力,目前已开展了6期(每期3-4天不等),已有约20名员工接受训练。
2018年开始,深圳供电局信息中心数据资产部还提供了“数说深供”这个平台,员工可以结合日常工作,选定研究方向进行电力数据分析。“我们最新一期是利用2018年气象数据,剖析天气对居民用电的影响。”深圳供电局信息中心数据资产运营班班员王程斯说道。
数据只有共享才会产生价值。深圳供电局信息中心数据资产部副主管宁柏锋表示,接下来深圳供电局将加强与深圳知名互联网企业合作,充分运用共享数据提升精准营销、负荷预测等业务。
当大量数据接入、存储、共享后,随之而来的电力数据安全问题也值得引起重视。由于电力行业大数据存在数据泄漏风险,而且更容易成为网络攻击目标,安全管控是最突出的风险。因此在数据成为企业员工的一种惯性思维后,保证数据安全也应成为企业数字化题中之义。
南方电网公司已经将数据作为发展过程中像空气和水一样的必需品。坚持用数据说话、用数据管理、用数据决策、用数据创新。推动企业数字化转型,实现高质量、有效益、可持续的发展。
■声音
人工智能系统犹如一个飞行器的话,那么“深度学习”是“引擎”,超算平台是载体,大数据则是最重要的“燃料”。大数据能帮助人工智能“学习”,在人工智能助力下也能更好地处理和分析大数据。两者之间相互促进、紧密结合,将推动彼此共同发展。
――中国工程院院士 倪光南
在市场化改革下,消除不同能源行业之间的壁垒,真正推动能源大数据建设。要形成国家级、区域级、用户级等不同应用范围的能源大数据平台,利用其公开共享的数据资源,培育发展智慧能源新业态,带动相关产业升级,促进智慧能源产业形成新的经济增长点。
――中国工程院院士 李立�
总体来说,电力大数据的利用已经历探索起步阶段,拥有不错的数据和应用基础,正在伴随泛在电力物联网建设所带来的信息全面感知与业务新需求而蓬勃发展。未来,大数据将在电网规划、投资建设、资产管理、公司运营等方面,对电网发展方式与经营模式的转变起到重要支撑作用。实现数据支撑的公司经营管理水平提升,用电客户服务能力提升,并为政府提供客观高效的数据服务。积极打造数据共享服务商业模式,加强对外提供数据服务,开发数字产品,提供分析服务,推动数据运营。
――中国电力科学研究院大数据应用研究室 张天玉
■案例――电力大数据服务智慧政府建设
今年9月底,南网传媒公司数据研发中心撰写的《“广东省制造业大数据指数”8月经济数据分析报告》,提交至广东省工信厅的相关部门。这些统计数据来自南网传媒公司数据研发中心自主搭建的“广东省制造业大数据预警平台(下称预警平台)”。
预警平台起于2016年,广东省工信厅发布《基于电力大数据建立广东省制造业分析评价指标体系项目》,指明政府需求的大方向,南网传媒公司成立数据研发中心承接该项目,致力于开发一套能够反映当前广东省制造业状态,并对未来经济进行分析预测的“风向标”。
历经一年的海量数据筛选和平台体系搭建,数据研发中心找出“最优解”,成功搭建预警平台,在2017年底推出使用。平台每月定期向广东省工信厅提供“广东省制造业大数据指数”分析报告,用大数据资源为政府工作提供决策参考。分析报告得到工信厅等广东省政府相关单位领导高度认可,持续被政府部门应用于广东省日常经济运行分析工作中。
“在南方电网和广东省政府的大力支持下,我们手握着目标企业和事业单位的大量真实数据,这是一笔‘宝藏’。”数据研发中心研发技术副总监王定波介绍道,“作为‘挖矿人’,我们从数据中挖掘和分析价值,运用大数据可视化技术,通过数据模型搭建,直观地描绘出全省层面制造业运行情况画像,共享给政府部门和社会各界,提供政策决策依据。”
如今,预警平台不仅立足于电力数据,更打破“次元壁”,汇集广东省制造业内交通、出口、金融、人口流动等多方数据。在庞大的数据信息库中,如何通过分析数据得出有价值的结论,王定波举了这样一个例子:“为了深入分析粤港澳大湾区建设对广东省制造业的影响,我们向政府部门获取了相关的经济数据后,通过平台的可视化建模功能,反复比对得出传统制造业下降和高新制造业上升的比例,从而判断出什么行业转型最快以及转型方向,然后通过南网提供的电力大数据,分析出粤港澳大湾区建设政策对哪类制造业影响最大,最后将结论汇总,形成报告。”
同时,一些关键的电力数据及相关分析报告,也同步提供给南方电网公司相关部门,为南方电网企业决策提供有效咨询和有力支撑。
未来,预警平台将继续以电力数据为基础,制造业数据辅助并行的模式,向广东省工信厅提供优质服务,进一步支撑政府高效精准决策。同时,南网传媒公司数据研发中心计划将数据收集频率由一月一次提升为一日一次,在增加数据跨度的情况下减少统计误差值,增加预测精准性,深化数据应用,建成更有针对性、时效性、科学性的决策依据体系。
■他山之石――大数据支撑准确决策
航空业分秒必争,尤其是航班抵达的准确时间很重要:如果一班飞机提前到达,地勤人员还没准备好,乘客和乘务员就会被困在飞机上白白耽搁时间;如果一班飞机延误,地勤人员就只能坐着干等,白白消耗成本。当美国一家大航空公司从其内部报告中发现,大约10%的航班的实际到达时间与预计到达时间相差10分钟以上,30%的航班相差5分钟以上的时候,这家公司决定采取措施了。
其时,这家公司依照航空业的惯例由飞行员提供航班的预计抵达时间(即ETAs)。飞行员总是在临近机场的那段时间内预测何时到港,而这个过程中还有其他很多事情占用他们的时间和注意力,干扰其判断。为了寻求更好的解决方案,这家航空公司找到了PASSURAerospace,这是一家专为航空业提供决策支持的技术公司,它从2001年开始提供一项名为RightETA的服务(意为:准确预测航班时间),通过搜集天气、航班日程表等公开数据,结合自己独立收集的其他影响航班因素的非公开数据―比如通过自建的无源雷达站收集某区域领空内的飞机数据―综合预测航班到港时间。
PASSUR公司最初只有几处无源雷达接收站,但是时至2012年,它已经拥有超过155处这样的接收站。每4.6秒它就收集一次雷达眼看到的每架飞机的一系列信息,这会持续地带来海量数据。不仅如此,该公司将长期以来收集的数据都保存着,这样它就拥有了一个超过十年的巨大的多维信息载体,为透彻的分析和恰当的数据模型提供了可能。RightETA的核心工作就是回答两个问题:“一架飞机在抵达机场之前都发生了什么?它究竟几点着陆的?”
使用RightETA服务后,这家航空公司大大缩短了预测和实际抵达之间的时间差。PASSUR公司相信,航空公司依据它们提供的航班到达时间做计划,能为每个机场每年节省数百万美元。这是一个相当简单的公式:大数据带来更准的预测,更准的预测带来更佳的决策。