From Micro to Macro: Resilience Engineering(2/2)- Practical Perspective

前情提要：
http://eshmanager.blogspot.tw/2016/03/vulnerabilityresilience.html

以往工業安全管理將事故的發生視為人為疏失或設備單元的失效或故障，需要透過各種管制程序(rules, procedures)與實體屏蔽、安全連鎖與自動化 (barriers, interlocks, and the use of automation)來限制各種變異與預防人為疏失。而就韌性工程RE的角度，事故異常只是作業程序中的人、機、物、法與環境(Man, Machine, Method, Material, and Environment)等相關因素的變異疊加在一起的綜合結果（unexpected combinations of normal performance variability），而各元件的變異(performance variability)其實一體的兩面：它既是正常運作不可或缺的彈性與調適能力，這些個別的變異疊加在一起，偶爾也會釀成意想不到的事發生。

組織運作的各種變異與彈性是韌性也是釀成事故發生的來源(source: Hollnagel E, http://functionalresonance.com/onewebmedia/FRAMily%202017_11_Erik%20Hollnagel_Understanding%20how%20things%20happen.pdf

就實務或組織運作上，並沒有類似先前文章[1]所提到的學術理論典範轉移：從常態事故理論(Normal Accident Theory, NAT)到高可靠度組織(High Reliability Organization, HRO)再到韌性工程(Resilience Engineering, RE)的轉換，而是各項作業與實務作法隨著經驗與運作需要逐漸進展或漂移退化；例如早於RE被提出來之前，工程系統設計上已經有贅餘(Redundancy)[2]、備援(Backup)與保護層(layer of protection, LOPA)等概念。而組織的應變計畫或營運持續計劃(Business Continuity Plan, BCP)可以說和RE無必然的關係，只是各行業別之間因應全球貿易與跨國產銷供應鏈發展有了相類似的要求。常被借用討論韌性作為範例的消防隊或者急診室運作，也並沒有「額外」的訓練與理論規範，其應變能力與韌性可謂只是在那樣的作業情境和要求下被磨練出來的能耐(competence and ability)-面對病患急救、消防滅火、軍隊作戰等範疇，進行監測觀察、快速判斷與隨機應變。

對於組織實務運作而言，針對各種內部作業的問題與意外，往往透過各種品管手法(e.g., Six Sigma、QC七大手法)與軟硬體機制(e.g., 工程改善或行政管控)，分析問題原因與提出增加良率與可靠度的對策與方法，也從長期試誤的經驗中培養出掌握狀況與即時反應的能耐；這些提高可靠度、降低變異或加大承受變異的空間(margin)的種種持續改進機制正是創造更高產出、競爭優勢與組織韌性的根基。再者有的主管與組織會刻意經營內部暢通的溝通和no-blame文化，而鼓勵員工觀察、思考、隨時留意組織狀態的變化和提出改善方案的機制，正是建構與強化組織韌性的必要條件[3]。

有別於學術研究必須針對此一構念(韌性)進行嚴謹的定義與分析量測，韌性工程協會(Resilience Engineering Association)將韌性工程RE界定視為：「透過監控、主動使用資源不斷修正調整因應風險的方式進而強化組織各層面的作業兼具彈性與穩健以因應各種內外造成生產中斷壓力的能耐」[4]。就推行導入韌性工程的意義而言，一是降低風險、二是強化應變能力、三是讓組織在事務與意外發生後能夠快速復原；因此就實務工作者而言，能夠達成以上三個目標與具備相似意義的工具皆可加以參考與應用。

[1]請參照蔡衍真, 單信瑜, 姚大均 2017事故能否被預防？涵義與應用工業安全衛生月刊 334, p.30-47. DOI：10.6311/ISHM.2017.334.4

[2]贅餘(Redundancy)概念並非是多餘的安全餘裕，而可謂是「多餘」與「不必要」。例如：一組過濾水設備或者幫浦馬達就足夠，但設計卻故意採用兩組，輪流交替使用，以防止其中一組故障。

[3]相較於不容犯錯的HRO，RE的觀點認為每個人不只要將現場問題與狀況向上呈報，也要針對問題提出建議，並且具有「自發性」「自主性」的應變作為。

[4] 「Resilience Engineering looks for ways to enhance the ability at all levels of organizations to create processes that are robust yet flexible, to monitor and revise risk models, and to use resources proactively in the face of disruptions or ongoing production and economic pressures. 」

分析韌性的實務作法

1 依據作業特性與複雜度採用適合分析工具與手法

依據常態事故理論NAT，一個系統的複雜程度取決於兩個變因：單元間的連結性（Coupling）與彼此間的交互關係(Interaction)，而各種不同的職務或行業別以照其連結性與交互關係可以畫成一個四象限的圖如下，而Hollnagel(2004)將各象限適用的分析方法歸納如下圖

複雜度各象限與適用分析手法(修改自: Hollnagel, 2004)

備註：

RCA: Root Cause Analysis; JSA: Job Safety Analysis; FMEA: Failure Model Effect Analysis; HazOp: Hazard and Operability Study; FTA: Fault Tree Analysis; ETA: Event Tree Analysis; LOPA: Layer of Protection Analysis

上圖說明如下：

- 左下角(3號區塊連結性低與交互關係低)的行業與職務，各項作業之間，彼此的連結與關聯互動性都低(製程與設備單純、生產製造週期短)，例如郵局與傳統製造業(多量少樣的分站組裝)，郵局或傳統製造業的工作站與零件流程獨立，一個接一個；就此一部分的行業特性與所需的風險分析手法工具，一般的作業安全觀察與What if/FMEA等分析方法即可滿足。

- 就右下角(4號區塊連結性低但步驟流程間的交互作用複雜度高)的行業與職務，各項作業之間互動性較高，但並不會彼此牽制；例如創新研發公司或部門、大學、礦業以及為客戶量身定做的作坊/工作室(Craft and Job-shop Production)、甚至於獨立的軍事行動；此一部分的危害分析與風險評估，依賴專家的經驗與判斷，難度與屬於藝術(而非科學)的成分高，多半依靠許多經驗法則(rules of thumb)，也由於多屬於中小企業/產品製程特殊，因此其作業安全並不是官方法規或學界研究所關注的重點行業

- 左上角(2號區塊連結性高但交互關係低)的行業與職務，除了航運（航空、海運、軌道運輸）與電力網路與批量生產的製造業(e.g. 汽車裝配線、少樣大量的化學品生產製程；作業的效率與安全性與運輸的調度作業或生產製程的順序以及橫向聯繫有高度關聯性，但各自班次與生產線之間的交互作用少，屬於線性關係) 此一部分的危害分析與風險評估，可以依據其製程特型與危害，分別採用HazOp或FMEA，也可以將各生產流程步驟加以拆解成FTA/ETA，可以用1+1=2的線性邏輯來計算與估計整個製程與產線的風險、可靠度與失效機率等等。

- 右上角(1號區塊連結性高交互關係複雜/非線性)的行業與職務，包括太空任務、飛機駕駛、軍事早期預警系統、核武、核電廠、化工廠等，乃至於電子工廠等大量多樣流水線生產(生產週期長有專屬的設備機台。這些系統本身是高度複雜且不透明的系統，各子系統的運作與監測系統和預設的回饋控制機制與參數複雜，系統的操作也均需要有高度的專業訓練、密度高的數據監測、規則相對複雜的判斷，整體的運作管理也受到外部變化與系統運作管理因素影響。各單元/元件間的互動關係牽一髮動全身，無法透過整個系統拆解成子系統來了解系統全貌，各子系統也無法獨立運作，因此無法用由下而上與1+1=2的方式來估算整個系統的風險

而需要特別注意的是，以上行業與職務的分類應該是依據其實際的作業狀況與特性而言，並非僵固地依據整個行業或產業別去區分。例如就電子業工廠而言，可能產線人員(operator)屬於3號區塊，而故障異常排除(trouble shooting)與變更管理(case by case)屬於4號區塊，而設備機台本身屬於2號區塊，然而整個工廠的廠務系統屬於1號區塊。再就電子業的細分類與分工而言，電腦組裝與印刷電路板屬於2號區塊，電子元件測試屬於3號區塊，IC設計屬於4號區塊(們有特殊危害)，而半導體電路與電子元件製程屬於1號區塊(危害性特殊風險高)。就風險的分析而言，也是應該依據實際的作業狀況與特性而因地制宜，例如人員作業，採用作業安全分析，機械設備採用FMEA，化工連續製程採用HazOp，而有關於組織管理與系統整體運作的問題，不能用分析設備元件的方式來分析(由下而上拆解成各個單位元件，用1+1=2)。不同的行業或作業型態，可依據系統單元間的連結性(Coupling)與彼此間的交互關係(Interaction)選用適當與對應的分析方法(無須追求最新或複雜的方法)。

2 依據韌性的構面進行自我評估或與同業比較

可逕行依據韌性的各項構面進行自我評估或與同業相互比較，以雷達圖呈現即可，例如Hollnagel(2011)所提出的以下雷達圖與問項範例

Resilience 四構面(Learn, Response, Anticipate, Monitor)雷達圖(出處：Hollnagel, 2011)

除了藉用以上問卷量表衡量外，另一個實務上的簡單法門與可行做法是-借用事故進行測試或與同業進行比較。事故案例的來源可以是自家內部或是外部其他友廠，在應用上則是需要舉一反三：想像當友廠的黑天鵝意外事故發生在自家時亦或事故的發展沒有最糟、只有更糟的情境發生時，內部各相關單位會該如何因應、該如何應與針對這些更糟的情境進行預防與準備。另外就韌性的衡量與評估而言，其大小亦或好壞往往需要透過比較，才能讓人”看見”與有感；透過自家公司不同廠區的差異分析或者與友廠配置進行比較(benchmark)，能夠呈現不同廠區或系統配置遭遇各種情境的罩門與韌性。

3保護層分析(Layer of Protection, LOPA)

保護層分析LOPA分析是在製程危害性與可操性分析HazOp的基礎[1]上，挑選後果嚴重度等級高、令人擔憂的失控事故情境，進一步依據自家使用的經驗或各種具可信度的參考資料，估計起始事件/條件的發生機率與評估各項能夠阻止事件發生保護措施的有效性(能夠至少降低事故的發生機率一個級數)、可用性(90%以上的時間堪用)與獨立性(與其他保護措施之間沒有關聯與相依)

[1] 經由HazOp分析已建置和知悉可能危害/後果嚴重度、可能原因、防護措施與改善建議等

就以上保護層分析LOPA的分析來看組織因應各種意外事故情境的韌性，其實各獨立保護層IPL的潛在失效機率PFD和企業本身的制度、文化、狀態、環境，人員的狀態（訓練、工作負荷等）等相關。深入分析讓各保護層不可靠的因素，降低PFD與提高IPL可靠度等於降低風險與提高承擔失效的韌性。同樣地，越能夠明確的定義與知悉造成失誤的各項起始事件(Initiating Event)或失效模式(Failure Model)時，對於事故的預防越能對症下藥，降低起始事件發生的條件機率(Enabling condition)，也等同於降低風險與提高承擔失效的韌性。

導入韌性分析的建議

1從風險情境的頻譜看各種工具手法的適用性

就各種危害與風險情境的實際狀況而言，同類型的事故，例如火災或地震，通常嚴重度越高的情境，其發生機率越低(圖4)：嚴重度與可能性兩個因子間彼此並非獨立，而是存在關聯性；而想像更糟的情境有助組織看出自身目前的侷限、盲點與做出更好的準備；而下圖可以切分成三個區域(Ι, Ⅱ, Ⅲ)，以下分別說明三個區域適用的工具與風險評估手法。

嚴重度對發生機率的特性曲線與分區

在第一區(Ι)的風險與事故情境，相對的能見度高，一般有經驗的危害辨識與風險評估人員能夠預料到這些潛在危害與情境的存在，換言之，可以透過職安衛管理系統(OHSAS-18001/ISO-45001)危害辨識與風險評估程序加以鑑別與列管登錄，乃至於發展各種工程改善或者管理措施加以控管。

第二區(Ⅱ)的風險與事故情境，相對的能見度不高、不太容易想像與預料到情境的演變與發展，通常是數年才會遭遇到一次的事故類型。管控此一類型的風險，可以透過自己與他人的事故案例與經驗進行學習，透過深入的個案研討與舉一反三的深入討論，找出各種準備不足或應該做得更好/更嚴謹的地方。

第三區(Ⅲ)的風險與事故情境，可謂是所謂的黑天鵝事故-難以想像或者主觀認知上不認為會發生或遭遇的事故情境，實務上除了以保險的方式來轉嫁此一部分的風險，其實可以借用這些黑天鵝事故的情境來測試與”看出”組織因應重大事故的韌性與各項運作機制的可用性、可靠度與穩健性。

而本文與先前文章討論的各種強化組織韌性的工具與手法，正是因應第二區與第三區的風險情境。

2不同危害特性的組織所需要的韌性類型

不同的組織因應其作業與風險特性的差異，則必須以不同的方式可以提升或改進面對意外無常的韌性程度，呼應NAT針對系統複雜程度提議如下

複雜度各象限與適用韌性手法

上圖涵義說明如下：

左下角(3號區域連結性與步驟流程間交互作用都低) 的行業與職務，相對的事故情境與危害特性單純，不需要導入各種複雜的分析手法，落實現場的管理與基本安全防護即可。
右下角(4號區域，連結性低但步驟流程間的交互作用複雜度高)的行業與職務，例如醫院急診、消防滅火、為客戶量身定做的作坊/工作室(Craft and Job-shop Production)、故障排除維保作業等；由於狀況千變萬化，依賴專家達人的經驗與判斷，難度與屬於藝術(而非科學)的成分高，多半依靠許多經驗法則(rules of thumb)，因此提議透過提升個人技能(Skill)的方式來強化韌性，相關技能的提升可以透過案例的研討、師徒傳承手把手與情境模擬演練的方法來教學。在管控上，要盡量授權與賦能(empowerment)第一線人員，給於足夠權限與空間處理與因應。
左上角(1號區域連結性高但交互關係低)的行業與職務，有電力網路與批量生產的製造業(e.g. 汽車裝配線、少樣大量的化學品生產製程；生產製程前後有關聯性，但交互作用屬於線性關係)，由於產業與作業環境穩定，此一部分的韌性可以採用品管與規則的方式來強化，主要目的為減少各站別與流程間的變異性，例如透過品管圈與管制標準(Rule and Quality Control)達成。在管控上，則是透過抽樣與稽核程序來確保各項作業都依據相關規範進行，沒有嚴重的違規或者失控。
右上角(2號區域連結性高交互關係複雜/非線性)的行業與職務，有核電廠、化工廠乃至於電子工廠等大量多樣流水線生產(生產週期長有專屬的設備機台，運作管理模式也複雜，受到外部變化與系統運作管理因素影響)，各單元元件間的關係牽一髮動全身，不能把整個系統拆解，用由下而上與1+1=2的方式來估算整個系統的風險。就韌性的導入與推行而言，不能只單依靠人員技能的提升賦權與各項作業規範的制定，必須進一步釐清各環節間的交互作用與複雜機制(knowledge of complex system)，乃至於必須投注更大心力與資源跟上下游/平行單位/各利害關係人進行溝通協調與協作(Co-operation)，以克服種種資訊流通與權責界面問題，也需要有跨越分工與權責、進行溝通、合作協調與分享資訊的組織文化。

韌性分析測量的參考觀念：

1.韌性是相對程度而非絕對值

韌性的分析、量測與結果的詮釋，應該是基於比較，而非絕對成績數值的高低；透過比較，可以挖掘與發現差異背後的原因，乃至於塑造不同組織或系統韌性的背景脈絡有更進一步的認識與理解：

- 比較過去、目前與未來的狀態與水準

- 自家公司不同廠區、製程與車間區域的比較

- 同產業間的比較(Benchmark)

- 與業界最佳實務(Best Practice)的比較

2.韌性的程度隨著情境而異

韌性的程度、恢復能耐與損失大小，會和遭遇衝擊的時點與情境有關，例如同樣是遭遇七級以上的大地震，工廠產能損失多寡與當時產能是否滿載、受創的設備機台是否是產出的瓶頸等因素有關(滿載時損失大、恢復所需時間長；如果當下產能沒有滿載，相對的損失小、恢復所需時間短；另外未滿載的情況下，也有利於調撥人員、設備等資源，在原定出貨量與交貨期限內達交。)；因此評估韌性的程度，要考慮不同的情境與前提假設。

3.發展的脈絡與主事者的認知態度決定組織的韌性

誠如Levenson所提-研究思考讓人犯錯與誤判的情境脈絡、修正錯誤的激勵機制，對人做出影響(Do Something about People)是管理階層的責任；然而有趣與弔詭的地方在於，最不受到控制與監督制衡的正是組織的最高領導階層。大部分管理領導階層深陷於各種繁忙事務與各種衝突目標間的迷霧當中，難以看穿系統複雜的連動與因果關聯。事故的發生往往不單只是工程技術面的問題，更是一個組織與群眾心理的問題，需要融入與進入到組織內部的日常運作情境當中，了解不同利害關係人的認知（想些什麼）以及行為（做些什麼與這麼做的理由），而評估人與組織的控制與互動機制，沒有一套標準程序或查檢表單，需要藉助人類學的田野觀察與訪談，乃至於長時間的紀錄與回朔不同時期的作法的調整與漂移，而這些為了因應成本、時間、人情與績效的壓力的種種”調整”下，讓組織因為追求生產效率與最佳化的過程，卻降低了組織因應變化與異常的韌性。

而越是需要協作與協調、權責界面越多的複雜組織運作，越需要藉用STAMP與FRAM理論提供的觀念引導組織成員，針對各種可能的事故情境來描繪出組織能夠承受的極限與彈性範疇、找出尚待確認與加強的未知環節，逐年與漸次投資提高各主要系統的反脆弱性，做更好的準備以提升組織面對未知與無常的可靠度與對抗事故的韌性。

結論

傳統工安的危害辨識與風險管理，衡量的標的不是安全而是危險-有沒有發現具體的危害、不安全的行為與不安全的環境，沒有事故發生(或還沒發生)與找不到潛在危害等同於安全，換言之可批判為坐以待斃。相較之下，評估韌性的觀念則著重專注在那些平常把事情做對的管控機制與安全餘裕是否足夠，投注資源再找出未知的副作用以及組織隱諱不明、不清晰的背景能耐脈絡；概念上有如航空業針對新飛機上線前的模擬飛行與測試，目的在於找出與描繪出飛機性能飛航高度與速度的包絡面與safety margin。

對於組織導入韌性工程而言，起點是自家曾經發生與遭遇過的事故-事故的發生是絕佳的學習與成長契機，事故反映組織運作的罩門與瓶頸，突破與克服這些罩門與瓶頸組織就能夠更上一層樓。如果借用品質管理連續詢問五次為什麼(5-Why)的手法來進行事故原因的分析與改善，事故的發生可能可以歸納為人力不足/經驗不足/材料壽命短/規劃不完備(行為/現象的態樣)，而人事精簡/最低價材料/最短工期等組織規則等導致了前述行為/現象的態樣，而之所以會有前述的模式則導因於公司高層期待營運成本最低/產能最大/速度最快等「合理化」的價值觀

提升組織的韌性要考慮以下面向:

1. 人(anthropogenic hazards/causes)：人為的疏忽或誤判，在壓力或疲勞情境下的能耐等問題，出狀況的頻率較高；可以透過工程設計與管理機制來預防與降低人為疏失的發生機率。

2. 機(hardware malfunction and software failure)：設備的故障、材料失效，或軟體程式的問題、誤報或電腦當機等，需要透過事前的設計規劃、使用中定期的測試與維護來降低硬體設備與軟體設施的故障機率。

3. 人機複合/人機介面(human-machine interface)：包含人因與基礎設施的議題，乃至於外部社會、科技與政治變化造成組織問題的潛勢與壓力蓄積(溫水煮青蛙)，出錯的情境演變往往有如蝴蝶效應般牽一髮動全身，需要透過知識與經驗來累積處理與因應取捨的智慧。

4. 自然災害(natural hazard)：遭遇的頻率與可能性相對比較能夠客觀評估，但是狀況的發生無法掌握與預測，而且天災發生之後常常衍生次生災害(Secondary Events and Convoluted Events, e.g., 地震之後的海嘯或土石流)只用順應這些災害的發生[1]。

然而組織可能遭遇的風險與事故的情境演變有趨近於無窮的可能性(人、機、人機、自然災害與複合式災害)，隨著組織運作內外部種種的變化與演進，問題也在不斷變化與演化，目前的韌性量測方式或風險管理手法都存在有相當的侷限性；再者組織風險與韌性的評估可謂是高階決策與內部治理議題的一部份，相關利害關係人可藉由議題的詮釋架構(framing)或揭露資訊的扭曲，影響甚至操弄組織風險管理資源的分配。實務運作上如果能定期或不定期藉助外部專家協助進行韌性評估(或風險評估與診斷)、乃至於第三方的稽核與訪談(和各階層人員當面討論：組織內部的教育訓練、知識管理與經驗傳承、營運管理作為乃至於應變機制等等構面及面向)，由外部專家的角度或許更能看出一些常見但忽略或視而不見的問題，提供客觀的比較與衡量(benchmark)，乃至於對於組織風險管理的資源分配提供建議。

關於組織韌性的建置，可從基層戰技、中階戰術與高階戰略等三個層次來看：各種防呆的作業管控機制與提升單元可靠度的贅餘(Redundancy)及備援(Backup)，可謂是基礎與基本功夫；前述各項管控機制與贅餘/備援構成組織因應各種意外的保護層，需要針對各種力有未逮與災情擴大的情境再發展出各項緊急應變計畫、乃至於安排進行各項沙盤推演以驗證各項措施的有效性與可靠性，乃至於發展出因地制宜與量身訂做各項應變戰術作為(而非一昧仿效全國或者其他標竿企業的應變作為)；最後組織的韌性可以是競爭優勢的核心能耐與策略之一，所謂的戰略與策略並非只單指所謂的企業營運持續計劃(Business Continuity Plan, BCP)-讓組織很快地從意外事故衝擊當中回復，而是高階管理階層的觀念與政策方向：

風險管理要求的標準必須(比大家想像的)更嚴格：假設一個廠區的運作壽命為三十年，如果環安要求與可接受的水準為平均每十年發生一次重大災難，意味著此一廠區在其壽命期間會發生三次災難。用遠高於同業的標準自我要求，可謂是一種投資- 同業友廠因事故轉單的損失會變成己方獲利的機會。
關心環境重視員工安全衛生就是一種激勵同仁認真工作的因子；金錢不是激勵員工認真工作的唯一因子，能夠重視風險管理與工作環境是否安全舒適等非直接貢獻利潤的細節，可謂是一種組織的承諾與行為表態-人的價值與組織長期經營比短期獲利更重要；員工會為用心的公司認真付出，如果公司不關心員工，員工自然也不會用心；上頭口是心非、底下也會虛應故事。
各項設施的標準最好跑在法規前面、規劃設計要多一些餘裕與閒置：各國政府法規只會越來越嚴格，等到法規出來或者摸著石頭過河/走一步算一步，再逐次更新設備或擴充各項設施，通常要花更多錢，而且可能受限於各種先天條件與限制無法更改[2]。

以上三點觀念呼應經理人當責的觀念(Risk Ownership and Accountability)，也說明韌性的導入建置與組織的風險管理，其實就是跳脫短期會計損益報表的角度、進行長遠思考組織的發展與提前佈局。

[1]人定勝天只是一種主觀的信念，可謂是相對錯誤的觀念

[2] 絕大多中小企業還沒長大成熟到學會與理解這點，預防的成本每年不過花數百或數千萬，災難損失與賠償動輒數十或數百億；遑論經理人法律責任與牢獄之災。

致謝

LOPA部分內容承蒙安衛技術中心林敬凱經理給予指點，特此表達謝意(內容誤謬文責仍由作者負責)

參考文獻

CCCP, 1994, Guidelines for Preventing Human Error in Process Safety, New York, AIChe.

Hollnagel, E., 2004. Barriers and accident prevention. Aldershot, UK: Ashgate Publishing Limited.

Hollnagel, E., 2007.http://www.sites.google.com/site/erikhollnagel2/whatisresilienceengineering%3F> (accessed 7.01.2010).

Resilience Engineering Association. http://www.resilience-engineering-association.org/

From Micro to Macro

2017年9月16日星期六

Resilience Engineering(2/2)- Practical Perspective

沒有留言:

網頁

一週內熱門文章

搜尋此網誌

瀏覽量

標籤

增廣見聞

常用網址

網誌存檔

追蹤者