智简园区加密通信分析技术白皮书Word文档格式.docx
- 文档编号:16674480
- 上传时间:2022-11-25
- 格式:DOCX
- 页数:18
- 大小:541.85KB
智简园区加密通信分析技术白皮书Word文档格式.docx
《智简园区加密通信分析技术白皮书Word文档格式.docx》由会员分享,可在线阅读,更多相关《智简园区加密通信分析技术白皮书Word文档格式.docx(18页珍藏版)》请在冰豆网上搜索。
C通信,从而及时进行处置处理。
1.4可获得性
产品
最低支持版本
CIS
V100R003C30
LSW(S5720HI/S5730HI/S6720HI)
V200R013C00
2实现原理
2.1方案架构
华为CIS通过对加密流量的握手信息,数据包的时序关系,流的统计信息,加密流量的背景流量信息进行特征抽取,并基于关键特征采用机器学习的方式进行建模,然后就可以用模型对正常加密流量和恶意加密流量进行分类,能够有效的检测出恶意加密流量
整个ECA检测方案分为前端ECA探针和后端ECA分析系统(集成在CIS系统中)。
ECA探针主要负责加密流量的特征提取,对特征进行编码后,送入CISECA分析模型进行判定。
后端ECA分析系统集成在CIS系统中,结合自研的检测模型检测发现恶意加密流量。
当前敏捷园区场景中前端ECA探针的形态有两种:
流探针形态,园区交换机内置ECA探针。
2.2方案实现
整个ECA工作分为3大部分:
1.首先安全研究人员通过获取的黑白样本集,结合查询开源情报,域名、IP、SSL等的情报信息,进行特征信息提取;
通过对黑白样本的客户端签名和服务器证书的签名进行分析;
基于上述分析取证的特征向量,采用机器学习的方法,利用样本数据进行训练,从而生成分类器模型。
这就形成CIS最核心的ECA检测分类模型
2.通过前端ECA探针提取网络流量中加密流量的特征数据,包括TLS握手信息,TCP统计信息,DNS/HTTP相关信息,统一上报给CIS系统。
3.CIS结合自身的大数据关联分析能力,对探针上送的各类特征数据进行处理,利用ECA检测分类模型识别加密流量中的异常C&
C连接,从而发现僵尸主机或者APT攻击在命令控制阶段的异常行为
2.3样本数据
对训练、测试集分别统计以下特性,用来评估样本的典型性、代表性。
2.3.1白样本
浏览器客户端在样本中的比例
各种常见浏览器及版本:
Firefox,chrome,safari,opera,ie(edge),sougou,qq,liebao,360
中国TopN站点服务端口分布服务端证书TLS版本分布
TLS参数:
加密套件与压缩算法等自签名样本比例
客户端、服务器双向认证比例
2.3.2黑样本
恶意样本的家族(指定AV反病毒引擎给定的家族名称及无家族)及数据量客户端、服务器双向认证比例
恶意样本访问正常网站比例服务端口分布
IP分布
TLS版本分布
TLS参数
客户端TLS库种类及分布自签名样本比例
2.4特性分析
2.4.1加密流量异常行为关联
恶意软件的网络行为中,除了加密的流量异常外,还可能存在其他的异常行为,这些异常行为可能被其他检测引擎检测到,对一个客户端源IP,例如,是否检测到恶意文件、DGA域名请求、IPS检测的异常、扫描行为等。
需要CIS进行异常事件关联分析。
2.4.2上下文流量信息关联
恶意软件的网络行为中,除了HTTPS的流量,还包含DNS查询的流量,HTTP请求的流量等,关联相同源IP在加密流量的上下文的流量,分析这些没有加密的流量,看是否能找到一些线索。
一个客户端源IP发送的请求数量非常多,大部分请求是正常的网络行为,怎么快速找到可疑的流量进行分析是取证的一个难点。
主要关注HTTP和DNS请求。
针对DNS,主要用途是获得IP地址,还有可能进行敏感数据外传。
为了获取IP地址,恶意软件可能使用DGA域名、动态域名、IP直连的方式,在获取到IP地址之后存在后续的请
求;
敏感数据外传的场景下,有大量的DNS请求但后续没有操作;
针对HTTP,可能下载一些恶意脚本、其他的恶意软件,与C&
C服务器通信获取控制命令、敏感数据外传等。
需要针对当前黑样本集中加密流量的上下文的DNS和HTTP流量进行分析,得到一些恶意流量的特点,帮助过滤一些可疑的流量。
例如下载恶意软件的HTTP流,响应字节数/请求字节数比较大;
敏感数据外传响应字节数/请求字节数比较小;
被感染主机上线发送的请求包,响应的数据包可能在头部信息多,响应体的内容为空;
可疑的User-Agent;
可疑的页面跳转(根据HTTP的Reference)等。
2.4.3样本数据分析
针对签名,分析签名命中的黑白样本的数量,如果签名存在误报,分析是否可以修改签名字段来提高签名的精度,如果不能,则考虑删除该条签名。
签名要保证准确性。
机器学习上报的恶意流量,找到黑样本中相似的样本(度量相似的方式可以有多种,例如欧式距离、其他距离、基于决策树相同的叶子等),分析这些样本的特征和上报样本的特征的相同和不同的地方。
现有黑白样本的客户端签名和服务器证书的签名,统计每条签名对应的黑白样本数量,作为该签名的描述信息,如果一条流量的客户端签名和服务器证书签名与已有签名相同,可以作为辅助手段判断,命中黑样本数量明显高于白样本,是恶意的可能性高。
除了这两个签名,可以新增其他的区分黑白样本的字段或者考虑在当前签名中新增一些字段。
辅助的手段:
黑样本加密流量的分析,不同家族的样本的流量是否有区别,不同阶段
(下载、C&
C、数据外传等)的流量的差别,尝试能够从流量特征得出家族和攻击的阶段信息。
2.4.4机器学习
机器学习算法的选择上,主要是从样本量需求,样本处理工作量,模型准确度要求,模型训练周期,模型调优工作量,以及模型占用资源的可控程度几个维度来考虑,最终选择业界成熟的随机森林(RF)算法,利用样本数据进行训练,从而生成分类器模型。
2.5数据特征
本方案主要使用了四大类数据特征,如下:
●TCP流相关的统计特征
●TLS流的握手信息特征
●TLS流目的IP关联DNS信息特征
●TLS流源IP关联的HTTP信息特征
2.5.1TLS握手信息特征
一条完整的TLS握手信息至少应包含ClientHello消息,ServerHello消息,客户端到服务端的ChangeCipherSpec消息,服务端到客户端的ChangeCipherSpec消息。
如上图所示,TLS握手的第一步是客户端向服务端发送ClientHello消息,这个消息里包含了客户端支持的加密套件(CipherSuites)列表以及客户端支持的extensions列表。
TLS握手第二步是服务器端向客户端发送ServerHello消息,这个消息会从ClientHello传过来的SupportCipherSuites里确定一份加密套件以及服务器端选择的extension的列表。
TLS握手过程中,服务器端会通过Certificate消息将自己的证书下发给客户端,让客户端验证自己的身份。
证书中可提取的特征包括证书有效期、SAN数量、证书链长度等信息。
TLS握手的第三步为客户端发送ClientKeyExchange,client拿到server的certificate
后,就开始利用certificate里的publickey进行sessionkey的交换了,本消息一经是加密的,因此不进行报文特征提取。
基于如上描述,TLS握手信息中提取的字段数据如下:
1
CipherSuites
TLS客户端支持加密套件列表
2
Selected
TLS服务器端选择的加密套件
3
Client_Extension
TLS客户端支持的extension列表
4
Server_Extension
TLS服务器端选择的extension列表
5
Client_Key_Exchange_Len
TLS握手过程中ClientKeyExchange消息的负载长度
6
Server_Key_Exchange_Len
TLS握手过程中ServerKeyExchange消息的负载长度
7
Cert_Duration
服务器叶证书的有效期(单位天)
8
Self_Signed
服务器叶证书是否为自签名证书
9
SAN
服务器叶证书中的SAN数量
10
Cert_Nums
服务器证书链中的证书数量
11
isCA
服务器叶证书是否自称为CA证书
2.5.2TCP统计特征
一条完整的TCP流,从建流到流结束,除了五元组(目的IP地址、源IP地址、目的端口号、源端口号、协议号)信息外,还可以提取整条流的持续时间,这条流的包间隔,包长度分布等。
TCP统计特征中提取的字段数据如下:
Duration
TCP流的持续时间,时间单位毫秒
src_packets(max,min,mean,std)
TCP连接过程中发送的所有有负载(最多150)的包的最大负载长度,最小负载长度,平均值和标准差
src_times(max,min,mean,std)
TCP连接过程中发送的所有有负载的包的间隔时间(毫秒)的最大值,最小值,平均值,标准差
dst_packets(max,min,mean,std)
TCP连接过程中接收的所有有负载的包的最大负载长度,最小负载长度,平均值和标准差
dst_times(max,min,mean,std)
TCP连接过程中接收的所有有负载的包的间隔时间的最大值,最小值,平均值,标准差
Bytes.src
TCP连接过程中发送的总字节数
Num.src
TCP连接过程中发送的总包数
Bytes.dst
TCP连接过程中接收的总字节数
Num.dst
TCP连接过程中接收的总包数
BD
TCP负载中的字节分布情况,详细描述
Packet_state
TCP连接过程中有负载的前20个包的包长转移概率矩阵
12
Time_state
TCP连接过程中有负载的前20个包的间隔时间转移概率矩阵
2.5.3DNS信息特征
根据TCP连接中服务端的IP,和DNS查询中的IP查询结果进行匹配,可查询到目的
IP对应的域名,发送给大数据平台进行知名网站的匹配。
Suffix
目的IP关联的域名后缀
TTL
目的IP关联的域名的生存时间
domain_num_count
目的IP关联的域名中数字的个数
domain_nonAlpha
目的IP关联的域名中符号的个数
domain_len
目的IP关联的域名长度
ip_address_count
目的IP关联的DNSResponse消息中返回的IP数量
DNS_Alexa
目的IP关联的域名在Alex中的排序
2.5.4HTTP信息特征(可选)
对于要检测的TLS链接,寻找该条流开始时间在TLS结束前五分钟内的http报文,如果两者发送方IP地址相同,则将这部分HTTP作为关联数据。
User_Agent
源IP关联的HTTPRequest消息中的User_Agent字段
Client_Content_Type
源IP关联的HTTPRequest消息中的content_type字段
Server
源IP关联的HTTPResponse消息中的server字段
Server_Content_Type
源IP关联的HTTPResponse消息中的content_type字段
2.6CIS系统原理
CIS(cybersecurityintelligencesystem)采用大数据分析方法检测威胁,能准确的识别和防御APT攻击,有效避免APT攻击造成用户核心信息资产损失。
CIS的整体工作原理及流程如下
包含数据采集。
数据处理、威胁检测、威胁呈现等多个功能模块。
在ECA检测功能中,主要涉及数据采集、威胁分析检测。
2.6.1大数据采集原理
数据采集原理
数据采集包括日志采集和原始流量采集,日志采集器负责日志采集,流探针负责原始流量采集。
日志采集流程包括日志接收、日志分类、日志格式化和日志转发。
流量采集流程包括流量采集、协议解析、文件还原和流量元数据上报。
数据预处理原理
数据预处理负责对采集器上报的归一化日志和流探针上报的流量元数据进行格式化处理,补充相关的上下文信息(包括用户、地理位置和区域),并将格式化后的数据发布到分布式总线。
分布式存储原理
分布式存储负责对格式化后的数据进行存储,针对不同类型的异构数据(归一化日
志、流量元数据、PCAP文件)进行分类存储,分布式存储的数据主要用于威胁检测和威胁可视化。
考虑到可靠性和高并发性能的要求,分布式存储的数据保存在多个检测/存储节点,并且可以按需扩展存储节点。
分布式索引原理
分布式索引负责对关键的格式化数据建立索引,为可视化调查分析提供基于关键字的快速检索服务。
分布式索引采用了多实例自适应的索引技术和时间片抽取的分层索引结构,索引数据保存在多个检测/存储节点,提供了高可靠性和高并发索引能力,支持按需弹性扩展索引。
2.6.2大数据分析原理
事件关联分析原理
关联分析主要通过挖掘事件之间的关联和时序关系,从而发现有效的攻击。
关联分析采用了高性能的流计算引擎,关联分析引擎直接从分布式消息总线上获取归一化日志装入内存,并根据系统加载的关联规则进行在线分析。
系统预置了一部分关联分析规则,用户也可以自定义关联分析规则。
当多条日志匹配了某一关联规则,则认为它们之间存在对应的关联关系,输出异常事件,同时将匹配用到的原始日志记录到异常事件中。
WEB异常检测原理
WEB异常检测主要用于检测通过WEB进行的渗透和异常通信,从历史数据中提取HTTP流量元数据,通过分析HTTP协议中的URL、User-Agent、Refer和上传/下载的文件MD5等信息,并结合沙箱文件检测结果,离线挖掘和检测下载恶意文件、访问不常见网站和非浏览器流量等异常。
C&
C异常检测
C异常检测主要通过对协议流量(DNS/HTTP/TLS/3,4层协议)的分析检测C&
C通信异常。
基于DNS流量的C&
C异常检测采用机器学习的方法,利用样本数据进行训练,从而生成分类器模型,并在客户环境利用分类器模型识别访问DGA域名的异常通信,从而发现僵尸主机或者APT攻击在命令控制阶段的异常行为。
基于3,4层流量协议的C&
C异常检测根据CC通讯的信息流与正常通讯时的信息流区别,分析CC木马程序与外部通讯的信息的特点,区分与正常信息流的差异,通过流量检测发现网络中所存在的CC通讯信息流。
对于基于HTTP流量的C&
C异常检测采用统计分析的方法,记录内网主机访问同一个目的IP+域名的所有流量中每一次连接的时间点,并根据时间点计算每一次连接的时间间隔,定时检查每一次的时间间隔是否有变化,从而发现内网主机周期外联的异常行为
威胁判定原理
威胁判定根据多个异常进行关联、评估和判定产生高级威胁,为威胁监控和攻击链路可视化提供数据。
威胁判定按照攻击链的阶段标识/分类各种异常,并以异常发生的时间为准,通过主机IP、文件MD5和URL建立异常的时序和关联关系,根据预定义的行为判定模式判定是否高级威胁,同时根据相关联的异常的严重程度、影响范围、可信度进行打分和评估,从而产生威胁事件。
3典型场景
在原有敏捷园区安全协防的基础上,增加ECA检测功能,通过流探针或交换机内置ECA实现对加密流量的关键特征提取,配合CIS的ECA检测算法,发现加密流量中的恶意通信。
3.1场景描述
敏捷园区场景
由于ECA检测当前主要针对南北向出口流量,所以一般ECA探针主要部署在总部出口或数据中心出口,提取加密流量特征;
CIS系统(ECA分析检测)作为威胁检测平台部署在总部的管理区;
3.2部署说明
1、由于ECA探针存在多种形态,需要根据客户现网实际情况,选择不同的探针形态。
一般实际使用场景中,客户除了ECA功能还会有其他高级威胁检测的诉求,譬如C&
C,DGA,态势感知等,实际项目中需要结合客户具体场景、需求、预算等统筹分析。
2、ECA探针类型选择上主要考虑如下几个技术因素:
●出口流量大小;
●现网出口位置的设备类型,是否有华为设备(园区交换机);
●内置ECA探针选择时,要考虑ECA功能对园区交换机转发性能的影响;
●客户是否有其他高级威胁检测需求;
●由于CIS是ECA检测必需组件,而流探针一般都会和CIS一起配置,所以总部出口优先使用流探针。
因此通常情况下我们推荐流探针>
交换机内置ECA。
3、CIS系统一般部署在管理区,具体选型需要根据实际流量大小选择对应的配置
3.3典型配置
CIS选型
标准化部署:
:
大于2Gbps以上业务流量流探针:
高配支持10Gbps混合流量或1GbpsDNS流量。
低配支持500Mbps混合流量或50MbpsDNS流量。
11节点,11台硬件服务器,可扩容
小型化部署:
1)纯流量支持2Gbps混合流量(需要流量平均包长不小于640字节),或者200MbpsDNS流量(需要流量平均包长不小于128字节)
2)流量+日志处理能力:
1Gbps混合流量+1000EPS日志
4节点,4台硬件服务器
单机版部署:
1)纯流量处理能力:
支持1Gbps混合流量(需要流量平均包长不小于640字节),或者100MbpsDNS流量(需要流量平均包长不小于128字节)。
支持500Mbps混合流量
+1000EPS日志
日志处理能力:
峰值1000EPS(EventperSecond),单条日志平均长度不超过400字节。
1台硬件服务器,4个虚机
园区交换机
S5720HI/S5730HI/S6720HI
典型部署:
1.敏捷园区场景下,企业总部/分支出口流量使用流探针实现ECA检测及其他高级安全检测需求:
2.敏捷园区场景下,企业总部出口部署流探针实现加密、非加密流量检测,分支出口通过园区交换机开启内置ECA探针实现分支ECA检测;
如果考虑东西向加密流量检测,可以在总部内网的园区交换机开启ECA功能。
园区交换机开启内置ECA功能后,对其转发性能影响较大,选型上需要注意:
A缩略语
缩略语
英文全名
中文解释
App
application
应用
APT
advancedpersistentthreat
高级持续性威胁
NGFW
Next-GenerationFirewall
下一代防火墙
TLS
TransportLayerSecurity
传输层安全
CyberSecurityIntelligenceSystem
网络安全智能系统
ECA
EncryptCommunicationAnalysis
加密通信分析
AV
Anti-Virus
反病毒
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 智简园区 加密 通信 分析 技术 白皮书