【東証トラブル】富士通「メモリー障害時に冗長化が機能しないようファームウエアを設定してた」

1 ::2020/10/08(木) 14:45:50.67 ID:wn4xBL570.net ?PLT(12000)

東京証券取引所で2020年10月1日に起きたシステム障害の全容が徐々に見えてきた。障害の原因は、富士通が納入したNAS(Network Attached Storage)のファームウエアの設定不備にあった。
2台構成のNASでメモリー故障に起因する障害パターンが発⽣した際、NASの冗長化が機能しない設定になっていた。

東証で10月1日に起きたシステム障害は、全銘柄の売買を終日停止するという未曽有の事態を招いた。
東証が取引を全面的にシステム化した1999年以降、システム障害で全銘柄の売買を終日止めたのは初めて。これにより、3兆円規模の売買機会が失われた。

NASのメモリー故障が発端
システム障害の発端は、東証の株式売買システム「arrowhead(アローヘッド)」のNASに搭載したメモリーの故障にあった。
業務サーバーで使うユーザー情報などを格納するNASは2台あり、Active-Active構成で冗長化していた。
このうちの1台のメモリーが故障し、本来なら1台のみの運用に自動で切り替わるはずが、うまくいかなかった。

原因はNASのファームウエアの切り替え用設定値の不備にあった。
東証はarrowheadを2019年11月に刷新する際、事前のテストで2台のNASの死活監視を途絶えさせて、自動で切り替わることを確認していた。
だがその際、今回の設定不備は見抜けなかった。設定作業そのものは富士通が実施していたという。

この記事は有料会員限定です。次ページでログインまたはお申し込みください。

https://xtech.nikkei.com/atcl/nxt/column/18/00001/04693/

231 ::2020/10/10(土) 13:14:47.57 ID:gMC3jRoE0.net

富士通のトップ引責辞任するレベルでは・・・・?

205 ::2020/10/09(金) 05:53:05.67 ID:EqdAA/Qr0.net

>>202
全部見たけどそんな言い方じゃなかったけどな
このスレはいちいち細かいウソを吐く奴が多いね

134 ::2020/10/08(木) 20:39:07.66 ID:Vs0Bie4J0.net

ヨシッ!

66 ::2020/10/08(木) 16:07:29.18 ID:yzCKsTxC0.net

>>51
富士通がNASも作ってるんですよ…

https://www.fujitsu.com/jp/products/computing/storage/

実際は製品ラインナップには他社のOEMも含めてるけど

51 ::2020/10/08(木) 15:49:02.42 ID:ud/GGr8T0.net

>>49 つっても、SEがNASを設計するわけじゃなく
NAS屋が 冗長性をアピール したのを信じて選定してるだけだからな
んで、NASの内部メモリの故障なんて現象を作り出せるかはNAS屋に依頼するしかないが
たぶんそんなエラー(偽トラブル)は頼んでも無理だと思う

ただ、確かに導入した製品を信用せずに他社NASも使った試験やそもそも異機種NASでの
冗長化にしたほうがよかったのかもしれんが そんなのはベテランのSEでも無理だろうね

こういう不具合に有って初めて「再発防止対策」としてそういう案がでてくる感じ

だからもしもNASメモリのエラーなら、エスパーSE でもない限り予見は不可能だよw

140 ::2020/10/08(木) 21:44:30.90 ID:oKXu/5fA0.net

富士通のNASならNetAppのOEMですね。

97 ::2020/10/08(木) 17:08:25.82 ID:mlPZDQc90.net

これを想定してテストしなければならないという事はそれぞれのハード全てが故障するパターンも検証しないとなぁ

26 ::2020/10/08(木) 15:05:27.27 ID:/m7Blgja0.net

片方死んでもええように2つ動かしてたのに片方死んだだけで止まったとかギャグやん
NASも今まで何してたんだって思うやろ

62 ::2020/10/08(木) 16:04:06.01 ID:rEdK2hZV0.net

大規模導入プロジェクトはユーザーと逐一意識あわせする
基本設計や詳細設計は全部ユーザーの承認を受ける
冗長設計も冗長試験手順も全部承認されてたら富士通だけの責任ではない
とはいえ日本文化的に富士通が謝るのが美しい幕引き

210 ::2020/10/09(金) 12:01:58.02 ID:GSjcBeI30.net

>>165
確実にキャッチ出来るのは2bitエラーでそれ以上はキャッチ出来ない場合があると言うか見分けがつかないパターンがある

52 ::2020/10/08(木) 15:51:07.06 ID:wNLPXzhH0.net

時代はクラウドですよ!

181 ::2020/10/09(金) 02:23:29.18 ID:XanJIGVN0.net

サーバだったら、蓋開けて通電したままメモリ引っこ抜く的なテストはすることあるけど
ストレージはそんなことできるのかね?

223 ::2020/10/09(金) 17:30:32.24 ID:3C0AzH3G0.net

>>218
何でこんなレペルで語ってるの

81 ::2020/10/08(木) 16:38:32.18 ID:ggoFeA9Q0.net

>>35
メルキオール、バルタザール、 カスパールの3台で

232 ::2020/10/10(土) 13:14:51.24 ID:jwnK9ZUu0.net

優秀な下請確保しとけよ
飴と鞭で縛りつけるんだよ
2000年代はみんなそうやってシステム上手く作ってたぞ

2 ::2020/10/08(木) 14:46:36.22 ID:wy+b27o/0.net

はい

25 ::2020/10/08(木) 15:05:23.98 ID:7cADU/j50.net

15 ::2020/10/08(木) 14:58:41.59 ID:wRACuCgI0.net

またまたご冗談を

219 ::2020/10/09(金) 13:40:02.64 ID:Xu/SB9pz0.net

大阪、名古屋、福岡、札幌いずれかをBCPにすべし。
障害が起きても学習経験しながらソフト更新して、信頼性の高いものにしていくしかない。

93 ::2020/10/08(木) 16:57:08.26 ID:hnxCKbXw0.net

冗長化って単語何
英語で

11 ::2020/10/08(木) 14:55:29.46 ID:mF5Vb9b50.net

アクティブアクティブなら
1号2号同じ仕事してたのか

206 ::2020/10/09(金) 05:53:49.87 ID:EqdAA/Qr0.net

>>204
既に沢山あると思うぞ

60 ::2020/10/08(木) 16:01:18.91 ID:ud/GGr8T0.net

>>54 SEの話と富士通の話をごっちゃにするなよ
自社マークのついてるハードの仕様なんてSEが感知するわけがないぐらい判るだろ・・・

76 ::2020/10/08(木) 16:30:33.92 ID:sM4HCD1A0.net

具体的にどういう設定なのか知りたいな
それを見ないとなんとも言えない

141 ::2020/10/08(木) 21:48:27.55 ID:gY/QHmIg0.net

東証のテストパターン漏れ

158 ::2020/10/09(金) 01:02:41.83 ID:TDmxYgd80.net

川崎方面の品質保証部内は責任逃れと
口裏合わせで大変なことになってそう

85 ::2020/10/08(木) 16:47:39.41 ID:rEdK2hZV0.net

>>82
ヘッド分けて裏側でSAN動かしてても総称でNASやで

24 ::2020/10/08(木) 15:03:47.45 ID:PSFsoTcO0.net

>>8
掃除のおばちゃんの不注意か、それじゃしょうがないな

43 ::2020/10/08(木) 15:31:19.25 ID:rEdK2hZV0.net

任意のタイミングでメモリを故障させられるゴッドハンドしかそんなテスト無理や

222 ::2020/10/09(金) 14:09:17.04 ID:HqDMcl2w0.net

>>217
ヨシッ!

33 ::2020/10/08(木) 15:16:49.55 ID:tlUCQ0440.net

active-active構成だったの?

話がつながらないけど

16 ::2020/10/08(木) 14:59:23.63 ID:GEtQuwkL0.net

富士通の責任じゃん

168 ::2020/10/09(金) 01:36:11.21 ID:QGI0u7+m0.net

>>160

当たり前だろ
そのシステム買ってきて自分の資産にしてるんだったらその運用責任は東証だよ
受け入れ試験やって受け入れたんだろ
その受け入れ試験に穴があったってこと

80 ::2020/10/08(木) 16:33:47.28 ID:CMOsMSBu0.net

もしかして民生のサーバ用マザボ・メモリ以下の信頼性なの?

129 ::2020/10/08(木) 19:45:08.49 ID:dMmBiUK30.net

ファームの設定ミスは言い訳で死活監視でPING返す壊れ方を想定してなかっただけだろ
ファームでメモリエラー検知したらシャットダウンするって設定をしてたらカバーできてたってだけで

135 ::2020/10/08(木) 21:13:03.43 ID:k1Dr6xOl0.net

原因はわかったから今後同じトラブルは起きないし、他の富士通のシステムもチェックされるから安心できると言っていい?

74 ::2020/10/08(木) 16:28:00.90 ID:kerYWRrh0.net

本番環境で切り替えのテストやってなかったの?
そんなマヌケな事ってあるのか

176 ::2020/10/09(金) 02:02:14.05 ID:LA0091XF0.net

全然業界違うがCPUの温度トラップを試験しろと言われたときは泣いたな
納品機材のヒートシンク外して加熱再現しろってことかよとw

無理ですとなんとか泣きついて許してもらったが
「温度トラップ出なかったら責任取れよ」と客から
ネチネチ言われる始末。

200 ::2020/10/09(金) 03:49:14.51 ID:bgPm8pZ60.net

>>198
優しい言い方だね

193 ::2020/10/09(金) 02:48:45.43 ID:COjM/nc+0.net

そんなだったら最初からECCメモリ使わないで
冗長ビットない安いの使えばいいじゃんw

197 ::2020/10/09(金) 03:12:59.72 ID:EIi3o3Sm0.net

富嶽も似たような故障で、世界の物笑いの種に成るのか。オホホ!
蓮坊砲が炸裂。

弐番じゃ駄目なんですか。Bクラスの弁明。

211 ::2020/10/09(金) 12:05:27.10 ID:BD/lRroG0.net

>>199
引っこ抜いたらECCの訂正と割り込みのテストが出来ない
ピンポイントで1bitとか2bit壊してちゃんとキャッチするかテストすんだけど
昔のメモリならテスト下駄が使えたけど今の速いメモリは下駄はかすとそれが原因で不具合が起こるから結構大変なんだよ

38 ::2020/10/08(木) 15:21:19.97 ID:rqtLTGO20.net

>>33
最初の会見の時点でうまく切り替わらなかったので故障したほうのdisk装置を手動で切り離したって言ってたじゃん
active-activeなら整合してる

199 ::2020/10/09(金) 03:37:06.77 ID:jgNqCTs30.net

メモリ障害のテストは再現するのも難しそうだな
ガワ取っ払って稼働中にメモリ引っこ抜くとかしなきゃならんのかな?

147 ::2020/10/08(木) 22:53:16.97 ID:MtNHyPu10.net

>>72
syslogで網張るぐらいかな?

56 ::2020/10/08(木) 15:56:39.68 ID:siupxMc40.net

アローズみたいな呪われた名前にしてるからだろ

63 ::2020/10/08(木) 16:05:00.40 ID:iHVzuIu+0.net

本当の原因はなんなんだろな

58 ::2020/10/08(木) 15:59:06.11 ID:dgIiyHiP0.net

これって富士通が悪いのか?

235 ::2020/10/10(土) 13:40:07.32 ID:P9ts/pnK0.net

週明けは全国のシステム屋に確認指示が飛ぶわけだな

42 ::2020/10/08(木) 15:27:57.50 ID:f7qMZMIo0.net

>>40
「メモリ障害が発生したらハードからこういうアラートが上がるからそれを擬似して試験する」が関の山だろうなあ

おすすめの記事