InfiniBand


※上記の広告は60日以上更新のないWIKIに表示されています。更新することで広告が下部へ移動します。

Linux – ホストドライバコントロール
–OFED *:
•/etc/init.d/openibd [ start | stop | restart | status ]
•OFEDホストドライバのコントロール
•* openib 若しくは kernel-ib RPM をインストールする必要があります。
–OpenSM *:
•/etc/init.d/opensmd [ start | stop | restart | status ]
•* opensmd と依存するRPMをインストールする必要があります。

Linux ホストツール
•lspci
–OSからHCAが見えるかどうか
•lsmod
–カーネルモジュールがロードされているか
•ibstat*
–HCAのオペレーション状態とファームウェアの確認
•perfquery*
–ホストのIBポートカウンタ
•ibnetdiscover*
–ファブリック・トポロジーのダンプユーティリティ
•Fabric Verification Scripts*
–Ibcheckerrors, ibcheckwidth, ibcheckstate, ibportstate, ibping, ibtracert, ibclearcounters & ibclearerrors, Ibidsverify.pl, ibdiagnet, sminfo, smpquery, saquery

InfiniBand Fabric Verification Tools
•ibcheckerrors
–ファブリック全体のポートで、しきい値を超えたエラーをチェックします。
•ibcheckwidth
–ファブリック全体のポートで、リンク幅が最高値(通常は4x)となっていることを確認します。1xのリンク幅となっているポートを見つけるのに便利なツールです。
•ibcheckstate
–ファブリック全体のLinkUpとなっているポートを確認します。
•ibportstate
–Infinibandポートのステートをコントロールします。Enable, Disable, Reset、SpeedとQueryのオプションが使えます。
•ibping
–ファブリック内でLIDへPingするツールです。対向ノードではibpingがサービスモードで動作している必要があります。
•ibtracert
–デバイスまたはノード間で、GUIDもしくはLIDを使って、IBコネクションのトレースをします。2点間でどのパスが使われているかを確認するのによいツールです。

•ibclearcounters & ibclearerrors
–ibclearcounters: ファブリック内の全ポートで、パフォーマンスカウンタも含む全カウンタをクリアします。
–ibclearerrors: ファブリック内の全ポートのポートカウンタをクリアします。パフォーマンスカウンタはクリアされません。
•Ibidsverify.pl
–サブネット内の不正なLIDとGUIDをスキャンします。
•ibdiagnet
–サブネットの確認とファブリック障害について、広範なチェックをします。
•sminfo
–ファブリック内のSubnet Managerへクエリを行うツールです。SMが起動しているか確認するのによいツールです。
•smpquery
–ポートとデバイス状況を詳細なクエリを行うツールです。
•saquery
–パス、ノード、サービス、ポート情報、マルチキャストグループ情報のクエリを行うツールです。




driver関係をインストール
全てCentOSのレポジトリにあるもので事足りる。yum search openfabricsとかで探すといっぱいでてくるから必要そうなものをかたっぱしからインストール。

opensmをどこかのノードにインストール
これが無いとInfiniband経由での通信は出来ない。スイッチに内蔵しているものもある。その場合はインストールの必要は無い。

IPoIBを使う場合はifcfg-ib0をifcfg-eth0などを参考にして作成。基本的にフォーマットはいっしょ。
openibdが全てのノードで、opensmdがどこかのノードで起動してることを確認。
ibnodesで全てのノードおよびスイッチがリストアップされるか確認。ibstatとかも確認。
ibchecknetでErrorが無いか確認。counter errorが出た場合はibclearcountersとかibclearerrorsを試してみる。原因はよくわからん。
ibdiagnetで

   -W- Suboptimal rate for group. Lowest member rate:20Gbps > group-rate:10Gbps

のように表示されたら、/etc/ofed/partitions.confに

   HogeHogeInfini=0x7fff,ipoib,rate=6:ALL=full;

のように書いてみる。
MPIなどで使ってみる。