前回、大学予算で購入した機械学習用のGPU付きPCが初期不良であることを記載した。この後もなかなか苦労していて、その中でDellのSupportと色々と話をすることになったので、その状況を含めてまとめてみた。
状況としては、メモリーに高負荷が掛かるような状態でPCを使用すると、100%の確率でVideoSchdulerInternalErrorというエラーが発生する。このエラーはGPUのドライバを無効にすると発生しないことから、何らかGPUに関連していると思われる。Dellのサポートに連絡すると、「Nvidiaに相談しろ」と言う。「何で?」と思ったものの、Nvidiaに相談して色々試してNvidiaは「ドライバの問題ではない エラーがでるとすればGPUハードウェアの問題だろう」とコメントを出した。これをDellに伝えるとマザーボードを交換しましょう、となった。
交換作業はIBMサポートの人が実行してくれた。DellとIBMとでサポートの契約をしているのだろう。Dellではサポートの実行部隊をもっていないのかもしれない。しかしマザーボードを交換しても、全く同じエラーが発生する。交換に来た方はIBMの方なので、事象をDellに報告してDellが次にどうするかを判断する、となった。
Dellから連絡が来て、また「Nvidiaに相談しろ」と言う。ここで流石に「それはおかしいでしょう。Dellから購入したのに、何故Nvidiaに丸投げなのか?」、「Nvidiaはドライバの問題でない、と言っている。今回マザーボードを交換してGPUハードウェアも交換したからGPUハードウェアの問題でもない。であれば、Nvidiaは関係ないのではないか?」と主張してもDellのサポートはよく分からない説明をしてくる。ここでDellのサポートから、「Basic Supportでできることはここまでだ。」というような説明があったが、こちらは何のことかサッパリわからない。しかし、こちらとしてはDellで何とかしてくれ、と強く主張してみた。
すると次の日Dellの営業の方から連絡があり、その方と話をして少しわかってきた。どうやら、Basic Supportというのは、ハードウェアのみを保証するものであるため、不具合の原因がハードウェアの問題である、ということがはっきりしないとDellとしても動きにくい、ということらしい。
そこでDellのサポートについて調べてみると、確かに「Basic Support」というのは正式には「Basic Hardware Support for Infrastructure」であるとなっている。それ以上のサポートを要望する場合は最初からプレミアムサポートとかプレミアムサポートプラスのような、追加費用を支払う必要があるようだ。
結局Nvidiaに再度連絡して、Nvidiaからは「ドライバの問題でなくハードウェアの問題なのだからDell側でハードウェアの確認をすべきでしょう。」という極めて当たりまえの反応が返ってきて、これをDellに伝えてようやく本体交換しましょう、となった。
結局本体交換することにはなったものの、ここまでに費やした時間と手間は相当のものになる。そもそも最初の段階の「GPUに問題あり」、というところを検証するまでに色々調べまくってようやく、という感であった。今回本体価格が30万円以上の高額品であったことと、大学費用であったためここまでやったが、個人で10万円程度の商品であったら途中で力尽きていたかもしれない。PCを購入するのもそれなりのリスクがある、ということを実感した数週間であった。
#DellBasicSupport

コメント