InfiniBand

「InfiniBand」の編集履歴(バックアップ)一覧はこちら

InfiniBand」(2012/03/02 (金) 14:58:58) の最新版変更点

追加された行は緑色になります。

削除された行は赤色になります。

driver関係をインストール 全てCentOSのレポジトリにあるもので事足りる。yum search openfabricsとかで探すといっぱいでてくるから必要そうなものをかたっぱしからインストール。 opensmをどこかのノードにインストール これが無いとInfiniband経由での通信は出来ない。スイッチに内蔵しているものもある。その場合はインストールの必要は無い。 IPoIBを使う場合はifcfg-ib0をifcfg-eth0などを参考にして作成。基本的にフォーマットはいっしょ。 openibdが全てのノードで、opensmdがどこかのノードで起動してることを確認。 ibnodesで全てのノードおよびスイッチがリストアップされるか確認。ibstatとかも確認。 ibchecknetでErrorが無いか確認。counter errorが出た場合はibclearcountersとかibclearerrorsを試してみる。原因はよくわからん。 ibdiagnetで -W- Suboptimal rate for group. Lowest member rate:20Gbps > group-rate:10Gbps のように表示されたら、/etc/ofed/partitions.confに HogeHogeInfini=0x7fff,ipoib,rate=6:ALL=full; のように書いてみる。 MPIなどで使ってみる。
Linux – ホストドライバコントロール –OFED *: •/etc/init.d/openibd [ start | stop | restart | status ] •OFEDホストドライバのコントロール •* openib 若しくは kernel-ib RPM をインストールする必要があります。 –OpenSM *: •/etc/init.d/opensmd [ start | stop | restart | status ] •* opensmd と依存するRPMをインストールする必要があります。 Linux ホストツール •lspci –OSからHCAが見えるかどうか •lsmod –カーネルモジュールがロードされているか •ibstat* –HCAのオペレーション状態とファームウェアの確認 •perfquery* –ホストのIBポートカウンタ •ibnetdiscover* –ファブリック・トポロジーのダンプユーティリティ •Fabric Verification Scripts* –Ibcheckerrors, ibcheckwidth, ibcheckstate, ibportstate, ibping, ibtracert, ibclearcounters & ibclearerrors, Ibidsverify.pl, ibdiagnet, sminfo, smpquery, saquery InfiniBand Fabric Verification Tools •ibcheckerrors –ファブリック全体のポートで、しきい値を超えたエラーをチェックします。 •ibcheckwidth –ファブリック全体のポートで、リンク幅が最高値(通常は4x)となっていることを確認します。1xのリンク幅となっているポートを見つけるのに便利なツールです。 •ibcheckstate –ファブリック全体のLinkUpとなっているポートを確認します。 •ibportstate –Infinibandポートのステートをコントロールします。Enable, Disable, Reset、SpeedとQueryのオプションが使えます。 •ibping –ファブリック内でLIDへPingするツールです。対向ノードではibpingがサービスモードで動作している必要があります。 •ibtracert –デバイスまたはノード間で、GUIDもしくはLIDを使って、IBコネクションのトレースをします。2点間でどのパスが使われているかを確認するのによいツールです。 •ibclearcounters & ibclearerrors –ibclearcounters: ファブリック内の全ポートで、パフォーマンスカウンタも含む全カウンタをクリアします。 –ibclearerrors: ファブリック内の全ポートのポートカウンタをクリアします。パフォーマンスカウンタはクリアされません。 •Ibidsverify.pl –サブネット内の不正なLIDとGUIDをスキャンします。 •ibdiagnet –サブネットの確認とファブリック障害について、広範なチェックをします。 •sminfo –ファブリック内のSubnet Managerへクエリを行うツールです。SMが起動しているか確認するのによいツールです。 •smpquery –ポートとデバイス状況を詳細なクエリを行うツールです。 •saquery –パス、ノード、サービス、ポート情報、マルチキャストグループ情報のクエリを行うツールです。 driver関係をインストール 全てCentOSのレポジトリにあるもので事足りる。yum search openfabricsとかで探すといっぱいでてくるから必要そうなものをかたっぱしからインストール。 opensmをどこかのノードにインストール これが無いとInfiniband経由での通信は出来ない。スイッチに内蔵しているものもある。その場合はインストールの必要は無い。 IPoIBを使う場合はifcfg-ib0をifcfg-eth0などを参考にして作成。基本的にフォーマットはいっしょ。 openibdが全てのノードで、opensmdがどこかのノードで起動してることを確認。 ibnodesで全てのノードおよびスイッチがリストアップされるか確認。ibstatとかも確認。 ibchecknetでErrorが無いか確認。counter errorが出た場合はibclearcountersとかibclearerrorsを試してみる。原因はよくわからん。 ibdiagnetで -W- Suboptimal rate for group. Lowest member rate:20Gbps > group-rate:10Gbps のように表示されたら、/etc/ofed/partitions.confに HogeHogeInfini=0x7fff,ipoib,rate=6:ALL=full; のように書いてみる。 MPIなどで使ってみる。

表示オプション

横に並べて表示:
変化行の前後のみ表示: