主从多机通信系统可靠性建模的研究案例一要求V6.docx
- 文档编号:9632614
- 上传时间:2023-02-05
- 格式:DOCX
- 页数:15
- 大小:206.98KB
主从多机通信系统可靠性建模的研究案例一要求V6.docx
《主从多机通信系统可靠性建模的研究案例一要求V6.docx》由会员分享,可在线阅读,更多相关《主从多机通信系统可靠性建模的研究案例一要求V6.docx(15页珍藏版)》请在冰豆网上搜索。
主从多机通信系统可靠性建模的研究案例一要求V6
主从多机通信系统可靠性建模研究案例一:
一个RS485多机通信系统的可靠性评估的建模和仿真
基本条件和实验要求(2011-3-9更新)
1.词汇表1
2.物理模型3
3.理论假设、基本参数4
3.1关于部件划分和元件组合方式4
3.2关于发生故障的概率和人工排除故障所需的时间5
3.3关于故障后果5
3.4其他5
4.理论模型6
5.仿真实验要求7
6.附录:
仿真算法及模型提示8
6.1利用马尔可夫链建立仿真算法模型8
6.2元件的状态转移机模型8
6.3统计样本数量9
6.4微小概率事件的影响9
6.5故障后果判别9
6.6随机数发生9
6.7关于仿真算法设计10
1.词汇表
元件
部件的基本构成单位,也是模型中系统的最小组成单位,具有“原子性”,不对其分割研究。
部件
由一个或多个元件构成。
在模型中构成一个部件的元件组合方式具有“单纯性”,即只能是以下三种情形之一:
串联组合、并联组合、k-out-of-n组合。
多个部件可以组合为具有一定功能的子系统。
子系统
由若干部件构成,能完成一组特定功能。
为讨论方便,模型中整个系统被划分为5个子系统:
通信主机子系统、集线器子系统、三个相互独立的通信从机子系统。
串联组合
参与组合的所有元(部)件之一失效,则整体失效。
并联组合
参与组合的所有元(部)件全部失效,则整体才失效。
k-out-of-n组合
参与组合的所有n个元(部)件中,若至少有k个正常,则整体正常;换言之,多于(n-k)个同时失效,则整体才失效。
这类似一种投票机制。
系统故障
系统内若存在有处于失效状态的部件,则认为有系统故障。
重大系统故障
系统运行中的下述情形,列为重大系统故障。
这些情形可能同时并存。
●通信主机子系统失效或无法通信(双机热备时,双机同时失效或无法通信)。
●集线器发生故障。
●因某个通信从机的某类特定故障,引发通信总线阻塞,整个通信网络瘫痪。
●三个通信从机子系统中,有两个或两个以上同时失效或无法通信。
一般系统故障
除列为重大系统故障之外的其他故障系统。
(通信)总线阻塞
系统中的通信总线是各通信机间的共享信道。
在同一时刻,至多只能有一台通信机的接口电路工作于发送信息状态,并占用信道。
当某台通信机出现特定故障,使其通信接口电路无法退出发送状态,会造成通信总线阻塞。
此时,因信道被占用,其他处于正常状态的通信机间也无法进行通信。
双机热备份
通信主机子系统可配置为双机热备份,实现冗余容错。
结构相同的双机同步运行。
正常情况下,一台为主用机,承担完整的信息输入处理和控制信号输出职责;一台为备用机,仅有信息输入,控制信号输出通路被切断。
当主用机发生故障时,主备职责自动倒换,可保持子系统整体不失效。
需要指出的是,由于是热备份,所以处于备用状态的主机也在实际运行,运行中也可能出现故障状态,甚至需要人工修复。
2.物理模型
图1基本配置下系统的组成
被研究的系统为一个“1主3从”通信系统。
在基本配置下,其组成示意图如图1。
系统中有1台通信主机和3台通信从机。
所有通信主/从机使用共享信道建立物理连接。
典型的实例如RS485标准的总线结构。
在该通信系统的传输协议中有以下规定:
●每台通信机拥有唯一的地址标识
●仅主机拥有发起对话的权限,主机与从机之间可进行“主问从答”式对话
●从机与从机间不进行对话
●必须保证在同一时刻,至多只有一台通信机占用信道发送信息,其余通信机处于接收监听状态
每台通信机内部有两块电路板:
控制电路板和接口电路板。
控制电路板上有微处理器,运行相应的软件程序。
接口电路板负责与通信总线联系,它的某类故障,会引发总线阻塞。
光电隔离器完成电-光-电信号转换,通过电气隔离增加安全性。
其内部采用了提高可靠性为目的的元件冗余设计。
光电隔离器无法阻止接口电路故障引发的总线阻塞。
集线器是一个通信线缆的汇接装置。
根据了解,为提高该系统的可靠性,实际可能采取的工程措施有以下三项。
●措施1:
微处理器中引入Watchdog机构
当软件程序因自身缺陷或硬件不稳定,引起程序运行不正常,此时若能被Watchdog机构侦测到,可以触发硬件复位信号,重新启动程序。
不过,Watchdog并不能成功侦测所有的程序不正常状态。
●措施2:
防止接口电路板故障阻塞总线
通过特别的电路设计(比如图2的例子),可以防止接口电路故障导致总线阻塞。
[提示:
图2的电路仅供参考,具体工作原理与完成课程设计任务没有直接关联。
]
图2防止总线阻塞的电路方案
●措施3:
主机的双机热备
通信主机在系统中至关重要,可以采取冗余设计,提高系统的容错运行能力。
双机热备配置下,系统组成示意图如图3。
图3主机热备配置下系统的组成
3.理论假设、基本参数
3.1关于部件划分和元件组合方式
●控制电路板可看作两个部件组成:
“控制硬部件”对应硬件电路部分,“控制软部件”对应软件程序部分。
●控制硬部件可看作由35个统计特性独立元件构成,并适用串联组合。
●控制软部件可看作单元件构成。
●未使用措施2前,接口电路板可看作由10个统计特性独立元件构成的“接口部件”,并适用串联组合;使用措施2后,接口电路板可看作由15个统计特性独立元件构成的“接口部件”,并适用串联组合。
●光电隔离器可看作由5个统计特性独立元件构成的“光隔部件”,其中任意3个元件无故障即能使该部件正常发挥效能,适用k-out-of-n组合,k=3,n=5。
●集线器可看作由7个统计特性独立元件构成的“集线器部件”,并适用串联组合。
3.2关于发生故障的概率和人工排除故障所需的时间
●所有元件连续无故障运行时间
的概率密度分布都遵从负指数分布
其中
为常数,对不同的元件可以取不同的值。
●构成控制硬部件、接口部件、集线器部件的所有元件特性满足独立同分布,对应参数
●构成控制软部件的单元件,对应分布参数
●构成光隔部件的所有元件特性满足独立同分布,对应参数
●对故障进行人工修理,排除故障所需花费的时间
是随机变量,其概率密度分布遵从负指数分布
其中
。
3.3关于故障后果
●控制硬部件、集线器部件、接口部件组成元件的故障需要依靠人工修复。
●未采取措施1时,控制软部件组成元件的故障需要依靠人工修复;采取措施1以后,控制软部件组成元件的故障中有97%可以通过自动重启恢复(故障状态的持续时间可认为1小时),还有3%的故障需要依靠人工修复。
●未采取措施2时,接口部件组成元件的故障中有7%会引发总线阻塞;采取措施2以后,可完全避免引发总线阻塞,但并不能降低元件故障发生率。
●未采取措施3时,通信主机子系统一旦有故障即刻完全失效。
●采取措施3以后,在互为备份的双机同时失效时,子系统失效,即双机适用并联组合。
但这不是严格意义上的并联组合,如果未同时采取措施2,双机热备配置中的单机接口电路硬件故障的引发总线阻塞,仍会造成系统失效。
●光隔部件组成元件的故障可以自动恢复(故障状态的持续时间可认为1小时)。
3.4其他
●以“小时”为仿真试验的最小颗粒,即时间递推步长。
4.理论模型
根据前文中各项假设建立的理论模型可以图4和图5表示。
图4无双机备份的系统理论模型
图5双机备份的系统理论模型
5.仿真实验要求
根据前文提出的理论假设、基本参数和理论模型,确立仿真算法,利用蒙特卡洛法模拟N套同型系统连续运行10年的各种状况。
分别在
1)不采取措施1、2、3;
2)单独采取措施1;
3)单独采取措施2;
4)单独采取措施3;
5)同时采取措施1、2、3
这5种情形下,求解以下系统指标:
●(10年中)人工修理平均次数
(注解:
“修理”是作用于单个元件的,任一元件发生一次需要人工修复的失效,则计一次修理。
一个部件中多个元件同时失效要修理,计多次。
)
(提示:
如果系统有内部元件并联组合的部件,则发生修理未必就有系统故障)
●(10年中)系统故障平均发生次数
(注解:
对于系统,原因不同的两个或多个故障,如果首尾相连或重叠发生,则视作同一次系统故障。
)
(提示:
由于k-out-of-n组合的光隔部件,其元件故障可以自动恢复,则有系统故障未必就要修理)
●(10年中)重大系统故障平均发生次数
(注解:
对于系统,原因不同的两个或多个重大系统故障,如果首尾相连或重叠发生,则视作同一次重大系统故障。
)
(提示:
若“重大故障-一般故障-重大故障”如此首尾相连发生,则按系统故障计次为1次,按系统重大故障计次为2次,但此类情况发生概率微小。
)
●(10年中)平均无故障运行时间
(注解:
假定被测的任意一个系统在10年中的无故障运行总时间为
小时,
,共
个被测系统,则约定
平均无故障运行时间=
小时)
●平均连续无故障运行时间(MTBF,meantimebetweenfailure)
(注解:
假定被测的任意一个系统在10年中发生
次故障,
,连续无故障运行的完整时间段落有
个,每段时间分别为
小时,
,则约定
平均连续无故障运行时间=
小时)
●平均连续无重大故障运行时间
(注解:
假定被测的任意一个系统在10年中发生
次重大故障,
,连续无重大故障运行的完整时间段落有
个,每段时间分别为
小时,
,则约定
平均连续无重大故障运行时间=
小时)
并通过定量指标的对比,评价各项措施的使用对提高系统可靠性所起的效果。
已给定的理论假设原则上不能改动,但这些假设条件未必完备,如有必要可自行定义和增加。
将研究结果写成研究报告,格式自拟,篇幅限定在A4纸6页以内(正文五号字体)。
可以将本文列为关联文挡加以引述,适当减少图文重复,把主要篇幅用作描述自行完成的工作。
6.附录:
仿真算法及模型提示
6.1利用马尔可夫链建立仿真算法模型
由于元件故障概率都假定为负指数分布,很适合应用马尔可夫链建立仿真算法。
最直观的做法是为每个元件建立状态转移机模型。
然后根据元件状态推定部件状态,根据部件状态推定子系统和系统状态。
6.2元件的状态转移机模型
(1)以集线器部件的组成元件为例,可设计出如附图1的状态机模型
附图1元件状态机1
附图1中,
。
(2)在采取措施1的情况下,对控制软部件的组成元件可设计出如附图2的状态机模型
附图2元件状态机2
附图2中,
。
6.3统计样本数量
必须保证有数量足够的统计样本,才能得到比较准确的结论。
建议至少应仿真测试100个样本系统。
6.4微小概率事件的影响
当样本数量不大时,要密切关注实验中是否发生微小概率事件。
比如,假定我们只仿真测试10个样本,在实验中又恰好出现过双机备分通信主机失效的情况,相对于这10个样本而言,该状况属于微小概率事件,会使实验统计结果发生严重偏离。
对哪些事件在哪些情况下构成微小概率事件,应事前适当研究,以便采取对策——或增加试验样本数量,或剔除发生此类事件的样本。
使用后一项对策时,须十分谨慎。
6.5故障后果判别
仿真过程中,对当前的系统故障需要判别其后果,比如判断是否构成“重大系统故障”,是否会造成总线阻塞,等等。
有兴趣的同学可以自学并采用“故障树”判别法,该方法通常可以使逻辑结构显得比较紧凑高效。
6.6随机数发生
基于蒙特卡洛法的仿真实验中,各概率事件都需要通过发生随机数来模拟。
本项课题中,所涉及到的概率数值比较小,所以需要使用大周期数的随机数序列,推荐运用MATLAB。
一般的C语言标准随机数函数所提供的伪随机序列周期比较短,可能无法满足本项课题研究的需要!
6.7关于仿真算法设计
关于本课题的仿真算法设计及其实现方法是比较多的,下面一个思路供大家参考。
1、系统模型的最小(“原子”)组成单位是元件。
当每一个元件的状态都确定的情况下,各个部件、子系统,乃至整个系统的状态都可以依次推定。
2、程序可以按以下顺序执行
(1)为每个元件建立状态机,模拟一个元件每一小时的状况变化;
(2)按组合规则,根据每个部件的组成元件的状态,推定该部件的状况;
(3)(必要时)按组合规则,根据每个子系统的组成部件的状态,推定该子系统的状况;
(4)按组合规则或工作原理,根据每个子系统或部件的状态,推定整个系统的状况;同一时间系统内可能存在多个故障点,根据约定规则评估当前系统的可靠性状态(无故障、一般故障、严重故障);
(5)记录和统计运算。
不断重复
(1)-(5),模拟一个样本系统一小时复一小时的运行中出现的状况变化,直至达到年限。
这样就完成了针对一个样本系统故障事件发生的仿真。
3、对足够多的样本系统进行测试,统计测算各项指标。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 主从 通信 系统 可靠性 建模 研究 案例 要求 V6