跳到主要內容

Rebind所有的SCSI hard drive

Problem

由於USB的Storage有時會比一般SATA的硬碟早被系統載入,而導致USB的Storage為/dev/sda,而其它的則是sdb、sdc等,這造成我們實作某些功能上的困擾。網路上提供的workaroud,像是直接透過uuid指定path;或將要使用項目由sda自動遞增為sdb。這些方法對於做軟體的來說,有著是否能正常取得uuid又或者處理自動遞增複雜度的問題存在。因此我花了一些時間找尋與思考較保險且簡單的解決方法。

註: 由於我們要實作的功能有些限制存在,我無法明講。而這些限制影響了解決方法的自由度,因此我提供的方法僅供需要的人參考。而不同的解法,會隨著支援系統種類需要增加,也許rebind已能解決所有的也不一定。

How to?

How to?我認為有幾種可能解法:
  1. 別讀取usb_storage module: 不去讀取偵測USB storage的driver不就可以阻止這事情發生嗎?
  2. 延遲load usb_storage module: 如果我先偵測了固有的hard drive的driver後,再去偵測USB的部分,不就可以確保USB的storage一定會在後面嗎?
  3. reload usb_storage module與hard driver相關的modules: 如果我無法延遲usb_storage載入,那我只要重新再載入去限制順序,不就可以接到第二個方法嗎?

Ignore to load

這個方法不適用於你需要其它的USB服務,例如USB CDROM:

RHEL5

nousb與nousbstorage參數,此參數在RHEL6與7已被移除。

RHEL6

blacklist參數。

RHEL7

modprobe.blacklist參數。

除了以上方法,從document中得知,應該也可以透過rd.driver.blacklist去指定禁只載入項目,我只試驗過RHEL7是可行的。

Delay load time

RHEL6

在RHEL6有driverload參數,讓modprobe前先load你指定的項目。
label linux
  menu label ^Install Red Hat Enterprise Linux 6
  kernel vmlinuz
  append initrd=initrd.img driverload=ahci driverload=sd_mod
但如果要達到我們目的,我們必須很清楚這台機器需要哪些kernel module,可能是一般AHCI mode、LSI SW RAID、LSI HW RAID、INTEL RAID等,難以做一個萬用的設定。

RHEL7

可以在boot option中加入rd.drivers.post=usb_storage,讓modprobe結束後才去載入usb_storage kernel module。
label linux
  menu label ^Install Red Hat Enterprise Linux 7.1
  kernel vmlinuz
  append initrd=initrd.img inst.stage2=hd:LABEL=RHEL-7.1\x20Server.x86_64 quiet rd.drivers.post=usb_storage
這個方法可以達到我們的需求,因為系統的modeprobe都已結束,該找的也都找到了。除非必須透過客製化的腳本來偵測hard drive,而讓此參數失去意義。

Reload / Rebind

說白點,這是在boot後透過腳本來達到需求,也因此可以確保重新載入這動作,是在偵測完所有HW後(包含自己執行腳本載入driver)。

Reload

卸載sd_mod與usb_storage模組,接著先載入sd_mod,其次為usb_storage。

# umount using usb storage items
rmmod sd_mod
rmmod usb_storage
modprobe sd_mod
modprobe usb_storage
這將讓USB相關的storage最後才與sd_mod做bind。這個方法僅在RHEL6上成功過,因為其它的OS不是做不到就是太困難,而因此有了Rebind的方法產生。

Rebind

基本原理是透過sd_mod的bind與unbind介面,將/dev/sd*項目unbind,略過其中USB介面再重新bind。假設/dev/sda為USB,/dev/sdb為SATA,再rebind /dev/sdb後,會因為/dev/sda不存在而向前補進。
#!/bin/bash
 
dir_sd_mod=/sys/bus/scsi/drivers/sd
file_sd_bind=$dir_sd_mod/bind
file_sd_unbind=$dir_sd_mod/unbind
 
for disk in /sys/block/sd*; do
        id=`ls $disk/device/scsi_disk`
        rmable=`cat $disk/removable`
        size=`cat $disk/size`
        echo -n "$id" > $file_sd_unbind
        if [ $rmable -eq 0 ]; then
                echo -n "$id" > $file_sd_bind
        fi
done
友藏內心獨白: 支援那麼多OS要死。

留言

這個網誌中的熱門文章

解決RobotFramework從3.1.2升級到3.2.2之後,Choose File突然會整個Hand住的問題

考慮到自動測試環境的維護,我們很久以前就使用java去執行robot framework。前陣子開始處理從3.1.2升級到3.2.2的事情,主要先把明確的runtime語法錯誤與deprecate item處理好,這部分內容可以參考: link 。 直到最近才發現,透過SeleniumLibrary執行Choose File去上傳檔案的動作,會導致測試案例timeout。本篇文章主要分享心路歷程與解決方法,我也送了一條issue給robot framework: link 。 我的環境如下: RobotFramework: 3.2.2 Selenium: 3.141.0 SeleniumLibrary: 3.3.1 Remote Selenium Version: selenium-server-standalone-3.141.59 首先並非所有Choose File的動作都會hang住,有些測試案例是可以執行的,但是上傳一個作業系統ISO檔案一定會發生問題。後來我透過wireshark去比對新舊版本的上傳動作,因為我使用 Remote Selenium ,所以Selenium會先把檔案透過REST API發送到Remote Selenium Server上。從下圖我們可以發現,在3.2.2的最後一個TCP封包,比3.1.2大概少了500個bytes。 於是就開始了我trace code之路。包含SeleniumLibrary產生要送給Remote Selenium Server的request內容,還有HTTP Content-Length的計算,我都確認過沒有問題。 最後發現問題是出在socket API的使用上,就是下圖的這支code: 最後發現可能因為開始使用nio的方式送資料,但沒處理到尚未送完的資料內容,而導致發生問題。加一個loop去做計算就可以解決了。 最後我有把解法提供給robot framework官方,在他們出新的版本之前,我是將改完的_socket.py放在我們自己的Lib底下,好讓我們測試可以正常進行。(shutil.py應該也是為了解某個bug而產生的樣子..)

Show NIC selection when setting the network command with the device option

 Problem  在answer file中設定網卡名稱後,安裝時會停在以下畫面: 所使用的command參數如下: network --onboot = yes --bootproto =dhcp --ipv6 =auto --device =eth1 Diagnostic Result 這樣的參數,以前試驗過是可以安裝完成的。因此在發生這個問題後,我檢查了它的debug console: 從console得知,eth1可能是沒有連接網路線或者是網路太慢而導致的問題。後來和Ivy再三確認,有問題的是有接網路線的網卡,且問題是發生在activate階段: Solution 我想既然有retry應該就有次數或者timeout限制,因此發現在Anaconda的說明文件中( link ),有提到dhcptimeout這個boot參數。看了一些人的使用範例,應該是可以直接串在isolinux.cfg中,如下: default linux ksdevice = link ip =dhcp ks =cdrom: / ks.cfg dhcptimeout = 90 然而我在RHEL/CentOS 6.7與6.8試驗後都無效。 因此我就拿了顯示的錯誤字串,問問Google大師,想找一下Anaconda source code來看一下。最後找到別人根據Anaconda code修改的版本: link ,關鍵在於setupIfaceStruct函式中的setupIfaceStruct與readNetConfig: setupIfaceStruct: 會在dhcp時設定dhcptimeout。 readNetConfig: 在writeEnabledNetInfo將timeout寫入dhclient config中;在wait_for_iface_activation內會根據timeout做retry。 再來從log與code可以得知,它讀取的檔案是answer file而不是boot command line。因此我接下來的測試,就是在answer file的network command上加入dhcptimeout: network --onboot = yes --bootproto =dhcp --ipv6 =auto --device =eth1 --...

第一次寫MIB就上手

SNMP(Simple Network Management Protocol)是用來管理網路設備的一種Protocol,我對它的認識也是從工作接觸開始。雖說是管理網路設備,但是主機、電源供應器、RAID等也都可以透過它來做管理。如果你做了一個應用程式,當然所有的操作也都可以透過SNMP來完成,不過可能會很痛苦。前陣子遇到一個學弟,它告訴我說:「我可能不會想寫程式。」為什麼? 因為這是他痛苦的根源。 在這篇文章中,不是要告訴你SNMP是什麼,會看這篇文章的大哥們,應該已經對SNMP有些認識了。 是的!主題是MIB(Management information base)! 對於一個3th-party的SNMP oid,有MIB可以幫助你去了解它所提供的資訊是什麼,且可以對它做什麼操作。最近我運氣很好剛好做到關於修改MIB的工作,也讓我順便了解一下它的語法,接下來我要交給大家MIB的基礎認識。 smidump 我並非使用什麼高強的Editor去編寫MIB,我僅透過Nodepad++編輯和smidump編譯而已。smidump是Kay教我使用的一個將MIB module轉成樹狀結構或oid列表的工具,唯一的缺點是不會告訴你哪一行打錯。當然有錢直接買編輯樹狀結構的工具就可以不需要了解語法了! 安裝 在Ubuntu上可先輸入smidump確認是否安裝,如果沒安裝可透過apt-get install libsmi2ldbl安裝。(CentOS可以透過yum install libsmi) root@tonylin:~/multi-boot-server# smidump The program 'smidump' is currently not installed. You can install it by typing: apt-get install libsmi2ldbl 使用 透過下面兩行指令,就可以將mib file產生出對應的tree與oid列表的檔案。也可以透過這個結果確認MIB是不是你想要的。 smidump -f tree example1.mib > xtree.txt smidump -f identifiers example1.mib > xiden.txt 如果有參考其它檔案要加上p的參數: smidum...