一半的問題來自于電纜
(1)目測連接性
檢查連接性常用的方法就是檢查Hub、收發器以及近期出產的網卡上的狀態燈。如果是10BASE5的電纜,要仔細檢查所有的AUI電纜是否牢固地連接,劃鎖要同時鎖牢,很多問題只要簡單地把未接牢的部分重新緊一下就解決了。
(2)受損的電纜或連接部件
在你檢查物理層的問題時,要注意受損的電纜,不正確的電纜類型(比如在以太網上用RG62或RG59),未打好的RJ45頭,未按牢的BNC頭。對懷疑有問題的電纜可以用一般的電纜測試儀進行測試。
(3)連接脈沖極性問題
無論是NIC還是Hub的連接脈沖極性都可以用測試測出,連接極性故障通常是由電纜的接線錯誤引起的。
檢查鏈路層的問題
(1)碰撞問題
如果平均碰撞率大于10%或是觀察到非常高的碰撞,就需要進一步的測試了。如果可能,試著通過減少網段規模(將網絡分成小段)并隨時監測碰撞的變化以隔離出發生問題的區域。為了跟蹤碰撞情況,就必須知道網絡的流量。可以使用背景流量發生器來加入適量的流量(100幀/秒、100字節長的流量),并同時觀察網絡的統計顯示。某些和介質有關的故障是與流量的大小成正比的。可以用控制鍵改變流量同時觀察碰撞與錯誤的改變。這種做法要特別小心,因為你很容易給網絡加入很重的流量。解決與碰撞有關的問題常常是很費勁的,因為測試的情況在很大程度上取決于觀察的位置。也許在同一網段相距幾尺遠的不同觀察點所看到的情況就不同,要多找幾個點來測試并留意所發生的變化。
如果碰撞與流量成正比,或碰撞幾乎是100%,或幾乎沒有正常的流量,則可能是布線系統出了問題。對于UTP的布線,可以在Hub上斷開電纜然后進行電纜測試。對于同軸纜就要進行阻抗測量,可以使用數字表或其他儀表的直流通斷功能進行測試。如果電纜兩端都有端接器,從T型接頭應測得大約25 ,如果從電纜的一端將會測得50 。
(2)幀級錯誤
如果出現幀級錯誤,你就要運行錯誤統計測試,并通過詳查功能把有問題的工作站的MAC地址找出,然后經過測試把故障確定下來。可以試著將驅動程序用“干凈”的原盤重新裝入工作站,要確認各項配置完全。如果這一切仍不奏效,可以試著把有疑問的網卡換掉。
(3)利用率過高
如果利用率過高(平均值大于40%,瞬時峰值高于60%),那么網段負荷就過重了。應當考慮安裝網橋或路由器以減少在網段中的流量或把網段分成若干小的網段。
客戶服務器連接的完整性
如果在鏈路層上是完好的,那么我們就要來看一下協議方面是否有什么問題會影響服務器與客戶之間的通信。
(1)連通性
使用專業儀表,你可以運行Server List或Novell Ping測試功能,用來驗證從測試點是否可以訪問服務器或服務功能。如果服務器沒有回應,重新冷啟動服務器并注意觀察所有所需的驅動軟件是否正確加載,有無錯誤提示。Novell的3.11版本及以前版本,在缺省配置使用802.3RAW的打包,而3.12及以后的版本在缺省配置時都使用了802.2的打包類型。
另外也可試著對服務器進行幾次Ping測試,要確認請求信號與返回的響應信號數目相等,結果不一致則表明有時好時壞的網卡或Hub的故障導致幀的丟失。臨界狀態的和已壞的橋或路由器也可以用此方法很快地定位。
(2)服務器或服務的可達性
如果使用協議分析儀,就要捕獲3至4分鐘的數據包來分析。看一下是否有從服務器發出延時請求,并找出是哪個服務器,如果有延時請求,則表明服務器不能完全處理所加載的任務,每一個延時請求作廢一個任務請求。
(3)網絡響應慢或性能差
首先,要確定一下是否是與網絡介質有關的故障,是一個工作站的問題還是一個服務器或是服務的問題。從其它工作站去訪問同樣的服務器或服務,并詢問本段網絡或其它網段上的用戶,如果問題不是與介質有關的,要確定問題是否是軟件有關,檢查網絡利用率和軟件錯誤來查找性能差的網絡問題。
運行諸如網絡統計這樣的測試,看一下是否有高流量和不正常的高碰撞存在,在增加背景流量后再運行一下這些測試。如果發現碰撞和PCF錯隨著流量的增加而增多話,你就應運行電纜測試來檢查工作站的連接性。
碰撞問題
如果碰撞較多,要算一下有多帶寬被碰撞損失了。把本地和遠端碰撞的損失都加起來,如果平均碰撞的值大于5—10%,就要進行進一步的故障查找。同樣要檢查一下碰撞是否是突發的,也就是說碰撞明顯地增多不是因為流量明顯增大引起的,如果是這樣就意味著某處的物理層出現了比較嚴重的問題。在碰撞與流量之間應是有一定的關系的。這種關系應當在做網絡參照基準測試時收集到。如果碰撞始終是比較多的(但仍是可以接受),可能是太多站點同時在參與發送,或者網絡結構應做一些優化使近距離的站點分在一起。過多的碰撞最常見是與介質有關的故障導致的。比如:不正確的端接,特性阻抗不連續(壞接點、殘留支纜、殘破線纜)等和壞網卡。
過載的網段
如果利用率很高(持續峰值超過60%)而碰撞又可以接受(平均碰撞小于10%),那么網絡就飽和了。這時就應該增加網段或用路由器把網段分成較小的可以支持正常流量的網段。
硬件故障
如果出現幀錯誤,利用專業儀表可以找出錯誤幀的來源。此后的工作就是在Hub口、網卡和電纜中隔離出特定的故障,如果故障是間歇性的,就替換掉有懷疑的網卡。檢查一下服務器/服務是否接在廣域網路由器的遠端。如果是這樣,就用Ping測試來測一下響應時間并與基準測試比較一下。為了保證沒丟失幀的情況就要連續運行多次的Ping測試,檢查測試請求包與響應包是否相等。如果不相等,遠端的介質或互連設備(網橋、路由器等)就有可能是容量問題或有故障。丟幀也是電纜故障之一。比如:UTP布線中的線對串繞和同軸纜由線的環地故障。如果懷疑有丟幀就進行電纜測試。測試接在反應慢的工作站的電纜,也要測一下服務器方向的電纜。
軟件故障
運行網絡統計測試,如果是高流量,低碰撞,而且有一點錯誤幀,就先確定發出錯誤幀的站點。也可以由繁忙站點測試來找出有問題的站點。到該站點現場來查看該用戶在做什么。要問明在非高峰時間用戶在干什么或把這個用戶移到其它網段上,以改善本網段上的其它用戶工作情況。如果利用率、碰撞、錯誤幀都低,要詢問抱怨網絡性能不好的用戶是使用哪個服務器和哪個應用軟件。檢查該服務器是否處在高負載狀況下,它和網絡的利用率是不同的概念。要找到使用這個服務器資源最多的用戶,這可以用服務器上的用戶監測功能或協議分析儀來完成。
無論是網絡流量高或低時發生的問題,如果是碰撞很少而且是沒有幀錯誤,這類問題多出自應用軟件或與文件服務器有關。服務器可能是Cache設置的太小,保留的緩沖不足,服務器內存不夠,服務器硬盤所余空間有限,8-bit網卡等等,這也可能是另一類軟件問題,他們可能造成不正常的“網絡磁盤請求”,這時有必要將某一應用移到另一個服務器上,要么升級現有的服務器,要么再加入一個新的服務器。
|