一直被工业控制系统(ICS)与车间产线安全这两概念折磨着,后面又被IT与OT纠缠,*后这四个观念之间在信息安全上关系还是没理清。虽说都涉及到分布式控制系统(DCS)、数据采集与监控系统(SCADA)和可编程逻辑控制器(PLC)等,可DCS、SCADA、PLC等主要涉及核设施、航空航天、石油化工、油气管网等这些高大上的国家重要关键基础设施,作者从事信息安全工作7、8年了,没在这么高大上的企业干过,这方面话题就不说了。但应用DCS、SCADA、PLC这些系统的设备,作者也碰到过了一些,例如数控机床、精密测量和精密仪器、数控设备DNC联网系统等这些制造业的设备。大家都知道,这几年国内信息技术蓬勃发展、并与制造业加速融合,拉开数字化转型大幕。但从站在企业大局考虑,在数字化转型时,如何界定IT(Information Technology)信息技术与OT(Operation Technology )操作技术呢?二者之间存在天然的差异,二者都有各自的目标,就像从一辆高速飞驰的汽车正在一个人字型岔路口,相互之间隔离得越来越远,谁也不知道这两条路会什么时候、什么地点进行合拢成一条道。在今天工业信息化与数字化的发展趋势下,这条鸿沟式的岔路显然成为制造业向未来智能化挺进的拦路虎。而我们这些安全从业人员在工作过程中也经常碰到既要保证业务可持续,又要保证企业安全。对于制造业来说,车间产线机台的安全就是在保证公司业务可持续性,车间产线机台安全也就在护卫制造业类公司的供血系统。从来源于精诚资讯的图分析,从整个工业物联网环境来看,机台安全事件的问题,主要发生在终端装置、网络传输管理以及管控控制流程,但随着数字化制造的连网需求、IT与OT的盘根错节,整体制造业环境将面临更多威胁。
自2018年8月初,全球**家专业集成电路制造服务企业、位于**的台积电遭遇勒索病毒Wannacry,算是全球信息安全领域里具有分水岭意义的事件。在发生的几个小时内,新竹总部、台中、台南出现大面积电脑蓝屏,加密各类文档、数据库等,直接导致三大生产线全部停摆。*直接的影响就是在股市上,台积电遭受了重创,预计损失达到17亿人民币。产线机台电脑安全*近几年一直是苹果公司与华为*关注的供应链安全体系中的重点。经历过苹果ES稽核与华为的供应商网络安全管理体系与供应商信息安全管理体系自检&考察(Supplier Cyber Security Management System Audit Report Template & Template of Supplier Information Security Audit Report)的兄弟应该深有体会;当然也涉及OT稽核的三化一体。所以我们这次不讨论IT与OT的安全交叉点,只单谈产线机台电脑安全。在制造业类企业工作的几个年,碰到*多的产线机台安全问题点就是补丁未更新、未授权访问(445)、弱口令、未安装防病毒软件或防病毒占资源等,从上图可以看出,机台电脑安全问题点特别多,所造成的威胁也少不了,比如:信息外泄,核心图纸、技术资料或生产信息等被内部人通过移动式存储或外部有关人员窃取;二是不规范操作造成系统资源稳定性问题,生产操作人员在计算机上安装非生产有关的其他程序并使用,引起生产系统故障;三是生产系统异常导致生产计划发生变故,引起生产系统的通信障碍,导致生产被中断等等这些威胁都是无法避免的。当然上述问题在一般性企业里几乎都会出现;我们再看看自2015年以来,制造业类企业遭遇的安全事件:从图中我们可以看到中石化、西门子等公司的SCADA被攻击的时间比较早。但目前随着信息技术不断进步与融合,数字化转型的大力推进,大型制造业的制造执行系统(MES)也越来越趋向智能化、可视化。但是我们仍然不能把产线安全(OT安全)与传统信息安全划等号。
从整体安全环境来看,产线的安全环境比传统信息安全的环境更复杂,涉及到各类传感器、精密机器设备(CNC)、PLC/RTU、SCADA服务器等,还包括我们日常接触的各类交换机、防火墙、域控服务器等。产线里包含的工控交换机、工控防火墙等自不必多说。日常大家使用的电脑或服务器都是目前*典型的完整版Window OS或Linux OS。它都采用自带部署工具对系统进行升级,操作十分简单,点击“检查更新“或输入”apt-get update&apt-get upgrade”回车即可。机台电脑的OS就难过了,一大堆XP/Window 7,这样那样停止补丁更新的OS或阉割版的Linux OS,并重新封装绑定应用程序。更没有什么自带防火墙或者自带了也是关闭的,特别是Linux的Iptables。其他内置的安全功能几乎为零。不要说做软件变更了,软件变更必须慎重再慎重,一般情况下做软件变更强烈建议让软件供应商来操作,一旦软件变更失败,可能会导致整条生产线全部停产。现在都是流水线作业,一条生产线少则十几号人,多则几百上千号人啊;因为我们的一个小动作,导致生产线停工的话,生产主管肯定拿你祭旗。在某些制造类企业,客户与公司签订了定期交货等各类违约协议的,违约金相当高达到了500万以上,所以公司与员工也签订了类似的协议。而在性能这一块,区别就更大了。传统电脑或服务器的数据出现点延迟、抖动都是可以接受的,问题也不大,非实时的高吞吐量、高延迟或抖动在有限范围内都可以接受。但生产线就不行了,必须要保证实时适度的吞吐量,什么高延迟、抖动更不在生产主管与品质主管考虑范围内。”为什么啊??”估计未从事过制造业安全的兄弟们会忍不住发问。我来给大家解释一下为什么考虑,高延迟、抖动会导致机器自动生产过程中成品率下降、不良品直线上升、原材料及其他物料大量损耗。制造业特别讲究投资回报率(ROI),生产主管与品质主管他们每个月都有绩效考核,考核内容就是成品率、不良品率、原材料及其他物料损耗。成品率越高、不良品率越低、原材料及其他物料损耗越少,他们的工作就越易出成绩。生产线出现停产、不良品率上升的原因不只是MES系统开发运维的问题,还有机台电脑自身的问题。很多机台电脑本身资源配置并不高。系统被设计为仅支持预定应用程序,没有足够的资源支持增加其他的安全功能,例如我们上面提到的XP/Window、阉割版Linux,这些系统根本无法支持安装Antivirus、NAC等的客户端。我们以前试着在机台电脑上面安装Antivirus agent;不仅机台电脑直接卡死不说,还直接将厂商提供的软件当成病毒查杀掉。因为这事没少与产线、Helpdesk、MES系统运维在视频会议里对骂,各种扯皮、推诿责任的都有,但都没有完整解决方案。
网络通信传输
现实信息系统当中,一般使用标准通信协议TCP/IP协议集,除非ISP使用一些特定的通信协议。同时大部分以有线网络捎带着一些本地无线网络功能,当然这两年有很大改变。实际在不同工业领域,使用多种类型网络,工控协议也不同,除主要用到这几类工控协议IEC.101、IEC.102、IEC.103、IEC.104、OMRON FINS、BACNet、EGD、DL476、GOOSE、SV、MMS、Modbus、EIP/ENIP。伴随使用无线电、卫星、红外等;目前华为对供应商Document control center还没有使用到,果厂已经使用很多年了。特别是果厂的小黑屋只允许使用单一的网络传输协议模式。
可用性与快速反应
Helpdesk里面流传着一句古老而非常实用的技能,即**的重启;Network、System、Security也都信奉这一技能。在持续高效运行的工控系统与机台电脑上,这一技能却变得暗淡无光。我们在日常工作中电脑卡机或出现异常,一个shutdown -r 命令或强制重启,就洒洒水了;哪怕出现引导文件异常也可以回滚到*后一次正确使用模式。但是在产线电脑上重启你收到的可能就是:”什么啊??你又要重启??这一上午重启多少次了?为什么不提前和我说一下!这破电脑你们就不能做个备份吗“日常的Helpdesk时,重新启动可以接受,可用性的缺陷往往可以容忍。产线的重新启动就变得不可接受,可用性要求就强调需要冗余系统,停机必须有计划并提前预定时间,提高可用性也要求充分的部署前测试。“稍等一下,我这里有个非常着急的问题要处理,你在旁边坐一下,马上就好。”这是日常处理IT问题经常碰到的回复,不要求你快速反应。有时间的话,你还得给他检查一下电脑防火墙有没有开,防病毒软件更新到*新状态没,甚至还得趁他不注意把公司的桌面安全管理软件装上去。再确定一下上网权限是怎么样,根据必要的安全程度设置一下属于他自己的访问控制策略。我们日常维护信息系统时,首要重点是保护IT资产及这些资产上存储数据。生产线这没办法实现,保证生产是**位,所以首先就要保护边缘设备,如现场设备、过程控制器、中央服务器的保护也很重要。不然事情捅到你直接领导那里轻的,有些直接捅到CIO、董助或董事长那里去;说一个我*近经历过事情,还不是发生在产线的问题,有一个用户在提交OA单据时无法转到SAP系统里面做进一步处理,就直接拉了一个20人的大群,把董事长、董助、CIO、CTO、COO、OA经理、SAP总监、基础架构经理、安全总监都拉进来给他解决OA问题。如果是影响产线的问题,他们敢直接半夜给董事长打电话投诉你的。经常碰到很多产线小问题被他们直接提到CIO层面上的,会让人充分体验他们动动嘴我们跑断腿。没办法,在生产**位的制造业企业,人机交互及紧急情况下快速反应是关键,所以在设计方案时要充分考虑严格控制对工控系统的访问,但不应妨碍或干预人机交互。教科书说信息安全*基础的三个目标是CIA(机密性、完整性、可用性),也就骗骗刚出学校的大学生吧;怎么可能呢??你不考虑扩展性啊?融合度,还有人的因素呢?别忘了,歪果仁是*讲究人权的。一套安全系统少则几十万,多则几百万,冗余是要考虑的,人身安全才是*重要的,无论是传统信息安全还是产线安全。其次是过程保护,容错是必须的,即使瞬间的停机也可能不接受,主要的风险影响是不合规、环境影响生命、设备或生产损失等。所以在设计安全管理方案时一定要注意,先在模拟环境里反复测试把可能出现的问题都测一遍,例如可在离线工控系统或产线电脑上测试,以保它们不会影响整条生产线的正常运行,不要围绕着传统的IT系统进行测试;转变思路吧。一套传统的IT系统,组件都在本地怎么访问都可以的,再运行个3-5年就淘汰了;产线电脑必须与对应的工控设备一起跑,跑个10年20年都很正常的,这也就是为什么现在很多产线在使用XP/Window7系统的原因,它的相应配件可能处理隔离状态或远程操作,单次维护需要大量的人力物力才能获得访问。比如,2020年初建设火神山医院时,上海的挖机师傅利用5G,远程操作挖机,一旦出现远程应用出现问题,需要调用很多人力与物力才能进行排错并处理。综上所述,我们在做工控安全或产线机台安全时必须要考虑多方面的因素。现在很多不懂安全的一直都以为我们安全人员虚张声势,哪有这么复杂。~~不止不懂IT的,就是懂IT的也是这种思维方式,这也是中国目前信息安全建设的一大悲哀。曾经听几个网络工程师与系统工程师和我讨论过产线安全,说产线安全不就那么回事吗?漏洞扫描没有发现漏洞、补丁更新到*新状态、装上杀毒软件就可以了,你们想得也太复杂了。听到这里我内心是悲凉的,为什么这些人的思维都是这样的。听到这话我也只能默默地走开。但是在这篇文章我还是表明,产线的安全不是漏洞扫描、也不是打补丁、更不是防病毒。这三者结合起来都不是完整的产线安全闭环。
产线安全≠漏洞扫描
漏洞扫描是指基于漏洞数据库,通过扫描等手段对指定的远程或者本地计算机系统的安全脆弱性进行检测,发现可利用的漏洞的一种安全检测(渗透攻击)行为。生产设备由于长期忽视信息安全设计,存在应对攻击数据包能力低下,协议栈不健全等问题,漏洞扫描会直接导致设备崩溃,影响实际生产。不要说漏洞扫描对产线的影响了,就说漏洞扫描对日常业务系统的影响吧,公司一个刚毕业参加工作的安全工程师,从网上下载了一个Nessus对业务系统进行漏洞扫描,结果把业务系统的中间件硬生生搞挂了,还不承认是Nessus自带的弱口令探测造成的。*后一大群人对服务器进行分析,当拿出扫描探针的组件与IP地址时,这个小伙不说话了,反而还很委屈地说弄了大半天才弄好的漏洞扫描系统,没想到会出现这种情况。这就是败在缺少工作经验上面。安全工作就要保持心有猛虎细嗅蔷薇的心态,还要胸中有沟壑,不动亦如虎的心理素质。
产线安全≠打补丁
给生产设备打补丁是个很困难的事。生产网常常担负着企业*重要的生产流程,而停掉这些流程往往会产生巨大的成本以及运营风险。因此,集中式的自动化的补丁管理系统是不存在的。几乎所有的生产网补丁都必须手动下载并安装。而且很多情况下,只能由供应商认证的技术人员进行安装。大家记住哦,这是甩锅的大好时机。防病毒软件在长年不更新病毒库的生产网内的实际作用非常有限,老旧的病毒库无法抵御新型病毒的攻击;安装防病毒软件只是自欺欺人的一厢情愿罢了。同时还大量占用生产设备的计算机资源,但又不能不管这些设备。
针对这三大误区咋办啊??这也就是我们日常所说的传统安全产品解决不了产线安全的问题。因为二者之间不仅存在着很大差异,还存着很多矛盾。比如:
- 可用性和机密的矛盾,生产系统“可用性”**,而IT信息系统以“机密性”**;从而要求安全产品的软硬件重新设计;例如:系统fail-to-open。
- 升级和兼容性的矛盾,生产系统不能接受频繁的升级更新操作,依赖黑名单库的信息安全产品(例如:反病毒软件,IDS/IPS)不适用。
- 协议解析的矛盾,生产系统基于工业控制协议(例如,OPC、Modbus、DNP3、S7等),传统安全产品仅支持IT通信协议(例如,HTTP、FTP),不支持工业控制协议。
- 延时敏感的矛盾,生产系统对报文时延很敏感,而IT信息系统通常强调高吞吐量,工控安全产品,必须从硬件选型、软件架构设计上保证低时延。
- 硬件要求的矛盾,生产系统的工业现场环境恶劣(如,野外零下几十度的低温、潮湿),按照工业现场环境的要求专门设计硬件,做到全密闭、无风扇,支持﹣40℃~70℃等。IDC就不一样了,保证恒温、恒湿、达成通信要求就可以了。
自2021年9月1日起,《关键信息基础设施安全保护条例》正式开始实行;那么制造业类企业的关键信息基础设施是哪些呢?要怎么做到安全?就是我们接下来要讲的,构筑生产系统“安全白环境”整体防护体系,保护公司基础设施安全。一是树立核心的安全理念,建设可信任的网络白环境;二是对未来技术的展望,建立生产软件黑白名单——零信任。
建设可信任的网络白环境主要从以下三方面入手:
在数字化转型浪潮下,企业传统安全架构面临挑战。无论是上云、应用架构升级等技术转型带来的安全风险,还是工作空间和供应链协同的数字化引入更多的安全隐患;那么零信任安全理念就打破了网络位置和信任间的默认关系,能够*大限度保证资源被可信访问,从而提升企业数字化转型中新IT架构的的安全性能,*基本的原则包括:默认一切参与因素不受信任,*小权限管理,动态访问机制与授权,持续性安全监测与防护。要在制造业内实现以上原则并促进未来技术发展,惟有:
- 不断创新的“软可信”计算技术,降低方案成本,提高实用性;
- 促进发展机器自学习“白环境”智能建模技术,降低维护成本,提高易用性;
- 加快研发工控协议深度解析技术,具备高安全性,低时延影响。
要在产线电脑上实现零信任,就要破除产线安全的三大命门——网络准入、网络传输、应用程序这三块的安全管理工作。
网络准入:现有生产网络无网络准入措施,任意生产设备都可以轻松接入现有网络,安全级别低;构建有效的网络准入体系,是解决产生安全的首要之选。当然黑白名单功能一样可以实现。
网络传输:网络传输层面临诸多安全风险,现有生产网络对此缺乏有效应对措施。对生产网络数据传输进行有效监管,拦截,可以防止大量潜在威胁;
应用程序:生产网络功能确定,行为单一,应用可预期。对生产网络的应用程序进行有效管控,阻止可疑、非法程序的运行,可以大幅度提高生产网络的安全等级。前面我们说到了产线安全与传统信息安全的差异性、产线安全的误区以及命门;这些问题是确切存在的,无法回避;要完成零信任安全建设需要的不是一家产品就能解决的,无论是腾讯、奇安信、联软等诸多厂家都无法实现;制造业类企业对资金成本的控制太严了,无法与金融类企业相提并论。
今年上半年松山湖一家光学电子制造企业,因为员工擅自携带U盘进入车间连接正在生产的机台电脑,导致产线电脑大面积中毒,整个工厂全部停产。造成这一事件的原因是多方面,经过溯源发现,
- 病毒居然在14年就出现,但是内部产线电脑没有安装防病毒;办公电脑都装了各类免费杀毒软件反而没有因为病毒事件出现蓝屏、不断重启现象。
- 产线网络与日常办公网络没有形成有效物理与逻辑隔离,办公网络与产线网络居然能实现445文件共享。
- 虽然是果链供应商,有非常严谨的物理安保措施,但U盘带怎么带进去无法查询;
- 产线电脑过于老化,大批量Window 7系统与XP系统;长时间未做补丁更新。尤其是永恒之蓝漏洞的补丁更是没有打。
- 产线电脑与办公电脑没有进行加域处理,存在大量弱口令。
为此,此公司紧急从集团与其他公司抽调将近40人团队进驻,同时也安排多家安全公司进入做溯源与安全整改工作。作为40人当中一员,整个人都被包裹得比现在防疫人员还要严格进入无尘光学车间,经过连续几天几夜不眠不休的打补丁、安装防病毒软件、重装系统等终于恢复生产,但印象是非常深刻了。产线电脑配置低,一个MS17-010的补丁*少要花40多分钟还不一定能打上去。一个人负责5台电脑,没有3-4小时是操作不完的,还不一定能全部恢复,但你从恒温车间出来一定是全身湿透失脱的。所以要想做好产线安全,惟有从自身下功夫,依靠传统技术手段与管理手段并行才能实现,下面我们将从多个方面来详述产线安全防护工作的开展。
- 在工业主机上采用经过离线环境中充分验证测试的防病毒软件或应用程序白名单软件,只允许经过企业自身授权和安全评估的软件运行。
建立防病毒和恶意软件入侵管理机制,对生产系统及临时接入的设备采取病毒查杀等****措施。
- 做好MES网络、产线主机设备的安全配置,建立生产系统配置清单,定期进行配置审计。
- 对重大配置变更制定变更计划并进行影响分析,配置变更实施前进行严格安全测试。
- 密切关注重大工控安全漏洞及其补丁发布,及时采取补丁升级措施。在补丁安装前,需对补丁进行严格的安全评估和测试验证。
三、边界防护
- 通过MES网络边界防护设备对MES与办公网或互联网之间的边界进行安全防护,禁止MES与互联网连接。
- 通过工业防火墙、工业交换机、网闸等防护设备对MES安全区域之间进行物理隔离安全防护。
1)对重要工作站、数据库、服务器等核心机台软硬件所在区域采取访问控制、视频监控、专人值守等物理安全防护措施。
2)拆除或封闭生产主机上不必要的USB、光驱、无线等接口。若确需使用,通过主机外设安全管理技术手段实施严格访问控制。
五、身份认证与管理
1)在生产主机登录、应用服务资源访问、虚拟云平台访问等过程中使用身份认证管理。对于关键设备、系统和平台的访问采用多因素认证。2)合理分类设置账户权限,以*小特权原则分配账户权限。3)强化生产设备、SCADA软件、网络设备等的登录账户及密码,避免使用默认口令或弱口令,定期更新口令。4)加强对身份认证证书信息保护力度,禁止在不同系统和网络环境下共享。1)原则上严格禁止生产系统面向办公网络&互联网开通HTTP、FTP、Telnet 等17类华为通报的高风险通用网络服务端口。2)需远程访问的,必须采用数据单向访问控制等策略进行安全加固,对访问时限进行控制,并采用加标锁定策略。3)确需远程维护,则采用虚拟专用网络(VPN)等远程接入方式进行。4)保留生产系统的相关访问日志,并定期对操作过程进行安全审计。1)建设生产系统资产清单,明确资产责任人,以及资产使用及处置规则。2)对关键主机设备、网络设备、控制组件等进行冗余配置。1)对静态存储和动态传输过程中的重要生产数据进行保护,根据风险评估结果对数据信息进行分级分类管理。3)对测试数据、生产数据进行物理与逻辑两重隔离保护。1)在选择生产系统规划、设计、建设、运维或评估等服务商时,优先考虑具备生产安全防护经验的企事业单位,以合同等方式明确服务商应承担的信息安全责任和义务。2)以安全保密协议的方式要求服务商做好安全保密工作,防范敏感信息外泄。特别要加上违约条款的处置。1)通过建立生产安全管理机制、成立信息安全协调小组等方式,明确生产安全管理责任人,落实生产安全责任制,部署生产安全防护措施。1)在MES网络部署网络安全监测设备,及时发现、报告并处理网络攻击或异常行为。2)在重要生产设备前端部署具备工业协议深度包检测功能的防护设备,限制违法操作。3)制定产线安全事件应急响应预案,当遭受安全威胁导致生产系统出现异常或故障时,应立即采取紧急防护措施,防止事态扩大,同时注意保护现场,以便进行调查取证分析。4)定期对生产环境与生产系统的应急响应预案进行演练,查缺补漏,必要时对应急响应预案进行修订。