SDH傳輸故障處理分析
傳輸系統的日常維護工作經常要求我們對各類故障進行定位并及時排除。故障定位最關鍵的是將故障點準確地定位到單板,然后排除故障。這就需要對故障產生的原因、處理的思路及方法有一個清晰的認識,這樣才能夠達到事半功倍的效果。
傳輸故障定位的基本原則
眾所周知,傳輸故障定位一般應遵循“先搶通后修復、先外部后傳輸、先單站后單板、先線路后支路、先高級后低級”的原則。
1.先搶通后修復
在出現故障時,系統維護者要首先搶通業務然后進行故障修復。如果存在影響業務情況下的傳輸網絡告警故障,如在2Mbit/s業務通道出現 LOS(信號丟失)告警,因外線原因導致的收無光告警,單元盤故障產生的UnitFailure(單元失效)告警等情況下產生的故障,必須首先搶通業務。
不過要想先搶通業務需要一個先決條件,那就是網絡中有與故障通道相同起始點的可用通道資源或與故障板件相同的可用備板。
2.先外部后傳輸
在處理故障時應先排除外部的可能因素,如斷纖、終端設備故障、電源或機房環境配套故障等,而后進行傳輸系統原因查找。當可能存在外界因素影響而產生傳輸網絡告警故障時,如設備溫度告警、光路告警、網元失效告警,也需照此原則處理。
3.先單站后單板
指在查找傳輸設備故障原因時,需要先定位到站點再定位到板件。
一般設備故障時,不會只是一個站點出現告警,而是在很多站點同時上報告警。這時就需要通過分析和判斷縮小范圍,快速、準確地定位是哪個單站的問題,而后盡可能準確地將故障定位到單站后再具體定位到單板。如處理光路誤碼、光功率異常等告警處理時,需要結合業務信號流,對告警與性能事件一起進行分析。可采用環回法、替代法、數據分析法、儀表測試法來判斷告警及故障產生的原因,將其定位到單板。
4.先線路后支路
在處理故障時,如果支路出現了大量AIS告警,這時需要先排除線路板故障再查看支路板故障。
由于傳輸系統線路板的故障常常會引起支路板的異常告警,在處理告警時,應按“先線路后支路”的順序,排除網管告警;如支路出現大量AIS則首先查看線路板是否出現LOS告警或其他異常告警,再查看支路板告警。
5.先高級后低級
在進行告警分析時,先分析高級別告警再分析低級別告警。
特別是當高、低級別告警同時存在時,應首先分析級別高的告警,如緊急告警、主要告警,然后再分析低級別的告警,如次要告警、一般告警。處理告警時,系統維護者先處理影響業務的告警。如果這些告警是由更高一級的告警引起的,則先處理更高一級的告警,如AIS、LOP等。如果是由LOS引發的,要先處理LOS告警。
傳輸故障形成原因
導致傳輸故障的原因很多,按照故障的來源,大體上可分為工程施工缺陷、日常維護操作不當、設備對接失敗、設備外部原因及設備本身原因等。
1.工程施工不規范、質量差
此類故障有的在施工期間就能暴露出來,有的可能在設備運行一段時間或某些外因作用下,才暴露出來,從而為設備的穩定運行埋下隱患。為了杜絕此類故障,施工人員需要嚴格按工程規范施工安裝,認真細致地按規范要求進行單點和全網的調試和測試。
2.日常維護操作不當
維護人員由于對系統了解不夠深入細致,對具體設備的細節、性能特點和注意事項以及新老設備和新舊版本的特點和差別不清楚,就貿然開通而容易導致故障。此類故障最容易在升級擴容、新老設備及版本混用、使用新版的備板和使用未經系統聯調的板件的情況下出現。
3.設備對接失敗
由于傳送業務的多樣性和業務對傳輸通道性能需求的復雜性,傳輸設備的對接十分復雜,這時容易出現系列問題,比如線纜連接錯誤,設備接地不符合要求,傳輸、交換網絡之間時鐘同步異常,SDH幀結構中開銷字節的定義差別等,都會導致故障的產生。
4.設備外部原因
設備外部故障也將導致傳輸故障。導致傳輸故障的外部原因很多,包括:一、電源系統及配套故障。如交流停電、直流掉電、熔斷器故障、供電電壓過低、接地不良、環境劣化等;二、光纖光纜故障。如光纜線路中斷,光纜線路衰耗過大、尾纖斷,尾纖彎曲半徑過小,法蘭盤接頭有灰塵及尾纖頭臟等;三、電纜故障。如2Mbit/s電纜中斷,2Mbit/s接口輸入輸出端口脫落、松動而造成的接觸不良等;四、交換機故障。
5.設備本身原因
這指的是設備本身損壞或板件配合存在著問題。常見的現象有:一、單盤故障。如線路板、2Mbit/s板、時鐘板、交叉板、主控板等器件損壞;二、網管系統故障。包括網管與設備之間的網線故障或系統異常而造成的ECC通道中斷、死機等情況。
需要提醒的是,設備在運行較長時間后,板件會自然老化,這種由于設備老化而產生的故障也屬于此類。設備老化故障有一個共同特點:設備已使用較長時間,故障之前設 備基本正常,故障只是在個別點、個別板件出現,或在一些外因作用下出現。
故障處理思路
在遇到故障時,系統維護者應該不慌不亂,仔細查看故障現象并分析可能原因,從而做到有的放矢,迅速處理。故障處理一般應遵循“先看,再問,然后思考,最后動手”的思路。
系統維護者到達現場后首先查看故障的現象,包括故障出現的位置,有哪些告警,故障的嚴重程度,造成的危害等,這樣才能夠明白故障的本質。
查看完現象后,系統維護者應詢問各階段現場人員,該現象是由何種原因造成,比如是否有人修改了數據,刪除了文件,更換了電路板;是否遭遇停電或雷擊,是否存在操作不當現象。
根據以上結果,系統維護者再結合自己的知識思考、分析,判斷何種原因可能引起該種故障等,做出較為正確的判斷。最后根據故障定位原則找出故障點,通過修改數據、更換單板等方法排除故障。
常見傳輸故障處理方法
常見的傳輸故障處理方法包括觀察分析法、環回測試法、插拔法、替換法、配置數據分析法、更改配置法、儀表測試法和經驗處理法。
1.觀察分析法
系統故障時一般會伴有相應的告警信息。通過觀察告警燈運行情況,可以及時發現故障。故障發生時,網管上也會記錄非常豐富的告警事件和性能數據信息,通過分析這些信息,并結合SDH幀結構中的開銷字節和SDH告警原理機制,初步判斷故障類型和故障點的位置。
2.環回測試法
有時觀察分析法不能解決問題,如組網、業務以及故障信息相當復雜的情況和無明顯告警和性能信息上報的特殊故障情況。系統維護者可以利用網管提供的維護功能進行測試,判斷故障點和類型。最常見的方法是環回。
環回是定位故障點最有效和常用的方法,它不需要對告警和性能做太深入的分析,缺點是會影響業務,一般在業務量小的時候使用。
3.插拔法
當發現某種電路板有故障時,系統維護者可以通過插拔一下電路板和外部接口插頭的方法,排除因接觸不良或處理機異常產生的故障。在插拔時,系統維護者要注意遵循單板插拔的操作規范,以免導致其它問題甚至損壞板件。
4.替換法
當用插拔法不能解決問題時,可以考慮替換法。替換法就是使用一個正常的備件去替換一個被懷疑工作不正常的元件,從而實現故障的定位和排除。
替換法適用于排除傳輸外部設備的問題,如光纖、中繼電纜、交換機、供電設備等。或故障定位到單站后,用于排除單站內單板的問題。如某站光板有告警,我們懷疑收發光纖接反,則可將收、發兩根光纖互換。若互換后,光板告警消失,就說明確實光纖接反。
替換法的優點在于方法簡單,對維護人員要求不高,比較實用,但對備件有要求。另外替換插拔電路板時,需要按照操作規范執行。
5.配置數據分析法
配置數據分析法是指通過開銷字節配置及狀態分析、更改交叉連接等手段對告警進行輔助判斷和處理的故障排除方法。
配置數據分析法的優點是不影響業務,不需要儀表,能夠正確識別硬件連接錯位,處理效率高。但是故障定位的時間相對較長,且對維護人員的要求非常高。一般只有對設備非常熟悉且經驗非常豐富的維護人員才能使用。在使用該方法時,應盡量選擇J0/J1/V3等不影響業務的蹤跡字節和其他狀態字節。
6.更改配置法
更改配置法是對時隙、板位、單板參數重新進行配置。故適用于故障定位到單個站點后,排除由于配置錯誤而導致的故障。
當通過更改時隙配置不能將故障確切地定位到是哪塊單板的問題時,需進一步通過替換法進行故障定位。因此該方法適用于沒有備板的情況下,初步定位故障類型,并使用其他業務通道或板位暫時恢復業務。
該方法操作起來比較復雜,對維護人員的水平要求較高。因此,除非在沒有備板的情況下用于臨時恢復業務,或用于定位指針調整問題,一般情況不推薦使用。
7.儀表測試法
儀表測試法一般用于排除傳輸設備外部問題以及與其它設備的對接問題。傳輸設備常用測試儀表包括2Mbit/s誤碼測試儀、SDH測試儀、光譜分析儀等。
通過儀表測試法分析定位故障比較準確。缺點是對儀表有需求,同時對維護人員的要求也較高。
8.經驗處理法
在一些特殊的情況下,如由于瞬間供電異常,低壓或外部強烈的電磁干擾,致使傳輸設備某些單板進入異常工作狀態。此時的故障現象,如業務中斷、 ECC通信中斷等,可能伴隨相應的告警,也可能沒有任何告警,檢查各單板的配置數據可能也是完全正常的。經驗證明,在這種情況下,系統維護者通過復位單板,網元掉電重啟,重新下發配置或將業務倒換到備用通道等手段,可有效地及時排除故障、恢復業務。
建議系統維護者盡量少使用該方法來處理,因為該方法不利于故障原因的徹底查清。遇到這種情況,除非情況緊急,一般還是應盡量使用前面介紹的幾種方法,或通過正確渠道請求技術支援,盡可能地將故 障定位出來,以消除設備內外的隱患。
典型案例分析
為了更深入地理解傳輸故障的處理思路和方法,現對幾個典型的案例進行分析。
1.傳輸2Mbit/s線故障引起業務中斷
故障現象:某網元2Mbit/s業務中斷,傳輸設備為華為155/622H,傳輸設備上有T-LOS告警。
故障分析:由于傳輸設備上有T-LOS告警,系統維護者可以肯定傳輸設備光路沒有任何問題。因為在傳輸設備到網元的2Mbit/s電路上有故障,所以問題可能出在傳輸設備電接口板SP1D或是2Mbit/s線故障。
故障定位和解決步驟:到站先用環回的方式判斷故障點,在DDF架上做遠端環回時,傳輸設備仍有T-LOS告警,做近端環回時通路正常,說明是 DDF架到SP1D板的2Mbit/s線有問題,且是SP1D板到DDF架上的發支路故障,與開始的分析吻合。由于SP1D板到DDF架上的2Mbit /s線是成品線,無法修復,只有將SP1D板上未用的2Mbit/s成品線與故障線成功對換后,告警消除,放通2Mbit/s,業務才恢復正常。為保證以后業務的正常開通,系統維護者最后將壞的那根2Mbit/s成品線換下,以保證所有2Mbit/s線是正常的。
結論:此故障是一個典型的2Mbit/s線故障引起業務中斷案例,在這個案例中,我們根據故障現象,預先分析出故障屬于2Mbit/s電路故障,并由最常規的環回方式來判斷故障點,找到故障點后迅速地恢復業務。
2.電壓異常導致業務中斷
故障現象:某局傳輸組網為4個OptiX2500設備組成雙向復用段保護環,1號網元為業務中心點,接有網管計算機。某日,該局3號網元業務中斷,從網管無法登錄該網元,且2、4號網元對應3號網元光板報“R-LOS”告警。
故障分析及排除:從故障現象分析,應該是3號網元掉電;當系統維護者趕到3號網元,發現3號網元機架告警燈及單板指示燈全滅。測量-48V與BGND接線柱之間的電壓為0V;測量電源設備輸出電壓,為-53.7V,但電源設備有輸出電壓不正常告警。
此時系統維護者懷疑傳輸設備內部短路。關閉3號網元機柜子架電源開關,重新測量-48V與BGND接線柱之間的電壓,為-20.39V,可能是機柜電源盒局部短路將電位拉低。
關閉電源設備給傳輸設備供電的一路電源(拔下電源保險),斷開傳輸設備電源輸入電纜,在子架電源開關關閉的情況下測量-48V與BGND之間的電阻,為幾千歐姆,正常。
系統維護者懷疑電源電纜壓降過大,測量-48V、BGND電纜的電阻,均為零點幾歐姆,正常。進一步測量拔下的電源保險,發現其電阻已達到十千歐級,故障原因就出在電源保險上。
換上正常的保險,重新給3號網元加電,一切正常。
結論:電源保險損壞,但并未開路,由于其電阻值變得很大,因此雖然輸出電壓正常,但實際并無帶負載的能力。因此,在遇到傳輸設備輸出電壓不正常的時候,系統維護者除了考慮傳輸設備的故障因素,還要同時對電源設備進行檢查。
3.線路人為盜割中斷引起業務中斷
故障現象:某傳輸網XXX01網元~XXX網元,兩傳輸網元互報R-LOS告警,在該環上部分網元上報PS告警,所有網元均能登錄,該環上及環到鏈間的業務均得到保護,無業務中斷。告警信息有R-LOS、PS、部分備用通道TU-AIS。
原因分析:由于無業務中斷,表明環倒換正常,且兩網元互保R-LOS告警且均能登錄,初步斷定為該中繼段的光纜斷或設備尾纖故障。
該環為PP環,其保護屬性為支路板倒換,當主用通道發生故障時,支路板會倒換到另一個方向進行選收業務,同時上報PS告警和備用通道TU-AIS告警,屬正常告警。
處理過程:檢查設備尾纖、連接件、光板等,一切正常,斷定為光纜故障。經OTDR測試,發現XXX01網元出局1.2km處光纜斷,巡線至XXX01網元出局1.2km處,發現該處被人為盜割。修復光纜,故障解決。
結束語
在SDH傳輸網絡的日常維護過程中,我們經常會遇到各種故障現象并伴隨著不同的告警指示,有時甚至出現一樣的告警指示,貌似同一故障,卻由不同的原因導致。只有透過故障的表象找到其本質,才能實現故障的準確定位并迅速排除。這就需要我們了解故障定位的基本原則,明確故障處理的思路,掌握常見的故障處理方法,從而從容應對各種異常現象,提高日常維護的效果。
評論
查看更多