1read 100read
2012年3月ビジネスnews+46: 【証券/IT】東証、システム障害の原因は「人為ミス」、診断レポートを“解読”できず--斉藤社長ら役員は月額報酬減額の処分 [02/16] (161) TOP カテ一覧 スレ一覧 2ch元 削除依頼
【IT】「正義のハッカー」育成、日本で初のコンテスト[12/02/15] (137)
【エコ】ゴミの分別などおやめなさい、そして国際化を [12/01/31] (415)
【食品】トマトジュース売れすぎ…脂肪燃焼効果の論文で[12/02/15] (320)
【鉄道】札幌の市電、14年度に環状化 [12/02/04] (236)
【決算】ジャパネットたかた7年ぶり減収減益 薄型テレビ落ち込み響く[12/01/26] (217)
【調査】一緒に仕事がしにくい同僚の特徴 (gooランキング)[12/02/16] (137)

【証券/IT】東証、システム障害の原因は「人為ミス」、診断レポートを“解読”できず--斉藤社長ら役員は月額報酬減額の処分 [02/16]


1 :
東京証券取引所は2月16日、2月2日に発生した大規模システム障害について、
「(東証の)職員が主体的にシステムの状態を確認せず、問題なしと判断した」
ことが原因だったと発表した。東証のシステム子会社である東証システムサービス
(TSS)の担当者と、保守ベンダーである富士通のSEが診断レポートを誤認し、
東証の職員が経営陣に適切な報告を怠っていたことが、対応の遅れにつながった
ことも明らかにした。
障害を起こしたのは取引関係者に相場情報を配信する「情報配信システム」。サーバー3台を
1セットとし、8セットで構成する。東証はサーバーを三重化しており、1台のサーバーに障害が
発生した場合、残り2台に自動的に切り替えて処理を継続する。東証は切り替えに成功したと
考えていたが、実際には失敗しており、同日午前中の一部銘柄の取引停止につながった。
経緯はこうだ。
午前1時27分、1台のサーバー(ノードA)でメモリーコントローラーの障害が発生し、監視
端末にエラーを示すメッセージが表示された。これを受け、TSSの担当者は「障害診断ツール」
を使い、診断レポートを出力した。
その後、TSSの担当者は富士通のSEに対し、電話と電子メールで診断レポートの内容を報告。
富士通のSEは診断レポートの内容を見て、残り2台のサーバー(ノードB、ノードC)が正常に
稼働していると判断し、TSSに切り替え処理が成功しているとの見解を伝えた。TSSはその
見解を東証の職員に伝え、東証は「当日の売買業務への影響はない」と判断した。
東京証券取引所グループIT企画部の田倉聡史 統括課長によると、診断レポートには「ノードAは
死にかけているが、ノードB、ノードCは正常に稼働している」旨の記載があったという。それを
見た富士通のSEは、正常稼働していると誤認した。
だが実際には、ノードBとノードCが処理を継続するには、「ノードAが処理不能だと表明し、
“バトン”を渡す必要がある」(田倉氏)。診断レポートには、ノードAがバトンを渡していない
ことが記載されていたが、それを富士通のSEは見逃した。「レポートの該当部分を見れば、
処理が切り替わっていないことが分かったはずだ」と田倉氏は説明した。診断ツールには問題が
なく、きちんと状況を分析していたが、診断レポートを読み解く人間の側に問題があったとの
見解を示した。
障害発生時の報告体制にも不備があった。東証のシステム担当者は自ら主体的にシステムの
状況を確認せず、TSSからの報告のみで「当日の売買業務への影響はない」と判断し、処理が
切り替わっていると誤認したまま午前2時44分に障害対応を完了。経営陣への報告を行わなかった。
経営陣へ報告すべきだと判断したのは、午前7時38分に一部の銘柄の相場情報が配信できない
ことが判明してからだった。システム本部長である鈴木義伯 専務取締役に連絡が取れたのは、
鈴木専務が出社した「午前8時頃だった」と東証IT開発部の宇治浩明 株式売買システム部長は
認めた。
東証は障害対応体制の改善や確認手順の明確化など、大きく四つの再発防止策を3月末までに
順次実施するとした。さらに、責任を明確にするため、斉藤惇社長ら役員4人の月額報酬を
20〜30%減額する処分を発表した。
なお、切り替え失敗の原因については「調査中」とし、明らかにしなかった。
http://itpro.nikkeibp.co.jp/article/NEWS/20120216/381903/

2 :
丸投げし続けたツケってことよ

3 :
また富士通か

4 :
クラスタってのは恐ろしいのぉ

5 :
そこまでレポートが正確に出せるなら
自動的に切り替えるようにすりゃいいのに

6 :
深夜勤の富士通プロパーが諸悪の根元ってこと?

7 :
金融資本家たちによる世界支配に切り込む映画『Thrive』がアメリカで注目を集めている
http://www.rui.jp/ruinet.html?i=200&c=400&m=260433
金融資本家たちによる世界支配の構造に切り込む映画『Thrive』が注目を集めているようだ。
制作者フォスターは、洗剤などで知られるP&Gという巨大メーカーの子孫として生まれ、恵ま
れた環境の中でエリート教育を受けた人だが、企業家になる道を捨て独自の道を選び、本作
のために相続した資産の480万ドルを投じ10年間を掛けて製作をしたという。
一定の誘導が有る可能性もあるが、紹介文を読む限り、本気さが伺える。
こういう映画が自主上映されているということが、少なくとも、変化の兆しだとはいえそうである。
ドキュメンタリー映画【THRIVE】4/10
http://www.nicovideo.jp/watch/sm16792631

8 :
富士通に仕事を発注←東証の人為ミス

富士通が問題起こす←富士通の人為ミス

富士通に仕事を再発注←東証の人為ミス
結論
人為ミスが重なったことが原因

9 :
人間がエラーをメールで担当に送るなんて何というクラッシックな手法を使うんだ
監視システム無いのかw

10 :
金融屋のお抱えseじゃ、クラスターシステムなんてまともに扱えないだろ

11 :
DBをメモリに乗せてるから、死にかけてる状態でも取引不良は起こるワケで
ロックダウンしてロールバックする僅かな時間で億単位の損害が出ちゃうから
人間様にお伺いをたてたレポート君が今回の功労者つてコトかな

12 :
診断レポートってファイルなのか?
文字列をトラップして別なメッセージを出すとか、メールを送るとか人間が読んで判断するという
危険性を排除できると思うのだが。

13 :
いくら鯖を三重化してても、障害が起こった時の措置が、
人間系ばかりじゃあな。

14 :
欧米だったら、引責辞任だろ。
出来高もないのに、正月まで市場を開いているくらいなんだから。

15 :
自動的に切り替わるってのは、診断レポートを見て切り替える担当も
機械の一部としてみなしたらってこと?
あれだけ高速でデータをやり取りするシステムが、お伺い立てないと切り替えられないのは
冗長性があるシステムとは呼べないのでは・・・

16 :
>>9
アラーム自体は飛んでるだろ
実際に運用してるやつがアラームやらレポート見ても分からんから
富士通にメールで投げただけだろ

17 :
最近、大規模なシステムトラブルって聞くたびに「ああ、また富士通か」と思ってしまう。
その上大体合ってる。

18 :
あれだけのシステムなんだから即対応できるように富士通のSE何人かを
常駐保守させればいいのに。。

19 :
バックアップほど当てにならぬものはないのう

20 :
>>18
常駐してるでしょ
30分圏内に住まわせたり
現場に”人”がいれば良いってもんじゃねえんだよw

21 :
>>16
自動でそれらのエラーがメールされれば良いんじゃ無いのか

22 :
なにせ富士通の夜勤の人数は○○人
だからなw

23 :
>>18
できるSEほど社内で仕事を抱えてるんだからそれは無理。
常駐保守させるなら、役に立たんヤツを常駐させることになる。
ただそれじゃ余計エラーが多重化しかねないから、結局常駐させない方がマシ。

24 :
わかりにくいエラーログ作るなよ

25 :
なんだあんなでかいサーバ扱ってるのに、たった2人のチェックミスが発端になるのか?

26 :
どうせカッコつけて英語とかエラーコードとか吐き出すレポートなんだろうな

27 :
診断ツールってもシスログやクラスタ関係(プライムクラスタ?)
のログ切り取って出すだけだろうから、見落とすのは
あり得るかな、担当といってもこれだけのシステムだから
複数で検討してると思うんだけどどうなんだろうね?

28 :
>>18
要件定義をする東証がアホ揃いでSEがいないからやるだけ無駄
受注した富士通も下請けに投げるだけだし

29 :

富士通のSEも自動応答メールで問題ないって返したんじゃね?w

30 :
>>24
1を見れば非常にわかりやすいし正常だったが担当者が誤読した。
これだけだぞ。ようは人間がバカだった。

31 :
東証はしらんけど
大証は24時間CEとオペレーターはいたな

32 :
人間の証明か

33 :
ログ吐いてるのに切り替わらんとか設計ミスかアプリのバグじゃね?

34 :
なんか保守担当の責任みたいになってるけど
実際は 自動切り替えが全く機能しなかった点に原因があるわけで
切り替えが行われていないという報告を人間が読み落としたのは 2次的な問題
どっちかというと 保守じゃなくて システムを作った側の責任だろ

35 :
どの道富士通の失態ってのは変わらんよ

36 :
しかし、処罰が軽いなあ……誰かの首が飛ぶレベルの事故だと思うんだが。
この人達、国の経済インフラを担っていると言う認識があるのか。

37 :
保守担当じゃなくて、富士通の技術力とサポート力のなさと
そんな所に任せっきりになる東証の無能さと体制が問題だな

38 :
こんなんで日本は金融立国とか目指せるの?w

39 :
つまりノードBとノードCは正常に待機状態にあるというメッセージを
スタンバイが正常に行われたと読み違えたわけだ
富士通のSEなんてスキル低いのに、それに頼りっきりでは東証の
担当者もド素人レベルなんだな

40 :

俺は昔のように、手サインでの売買でもかまわんよ。
どうせ日中は板みないしw

41 :
>>1
「東証のシステム担当者は自ら主体的にシステムの状況を確認せず」
無茶言うな
担当つってもそのスジの技術業界人でもねーし、そのシステム、ハードウェアの専門職じゃねーんだぞ
ベンダーの専門家の報告を信じる以外にどう行動すればいいつーんだよ
これからはベンダーを超えるスキルを身に着けて自分自身で報告内容をすべて確認検証しろっていうのか

42 :
しかし、このレベルのシステムでエンジニアが常駐していないなんてあるんだな……恐ろしい度胸だ。
そこは十分な経費を掛ける部分だろうに。
開発には金を使うが運用費用をケチると言う典型だな。上層部のIT理解が浅いんだろう。

43 :
HかIにしておけば...
基幹NWは成功したのにな。

44 :
死にかけたノードAが、ノードB・Cに一言「あとは頼む」と言ってから死んでくれたら
たとえSEが使い物にならなくても何とかなったかもしれないわけだな

45 :
業者ガーの典型例にしか思えんな。
そろそろ、2セット並行運用のご提案すれ。

46 :
>>44
取引トランザクション処理中に引継ぎ処理までやったらアボンが早まると思わんか?w

47 :
やっぱり大証は残した方がいいな。どう考えて一つにしたらヤバイだろ。

48 :
富士通のSE優秀だなw
つーか三重化はしてるけど切り替えは手動なんだ
なんという高信頼システム

49 :
ちょっとコレは責任押し付けすぎだろ

50 :
>>39
下手に難しいレポート出すからじゃね?
こういうレポートにすれば、頭の悪い富士通SEでも間違えることはないはず
 A   B   C
 ◎  −  −
  
    ↓
 A   B   C
 △  △  △
  
    ↓
 A   B   C
 ×  ◎  △

51 :
>>47
心配するな大証も富士通だw

52 :
>>34
だからおかしいぞ?、大丈夫なのか?と確認の電話とメールが言ったわけでしょ。
それをチェックしたがおkおk問題ないよと誤読したことで朝まで放置される事態となり大問題に発展した。

53 :
自動で切り替わらんのか?

54 :
直接の原因はメモリーコントローラーの障害。
次に冗長系への切り替えが失敗したこと。
それらの原因も対策も不明だから、問題の対応は何も進んでない。
人間が解釈とかはさらに次の話で、この記事の大半は本当の問題から遠い話。
単に東証と富士通の双方で責任を分担しましょう、というアリバイ作りをだらだら載せてる無意味な記事。

55 :
正常に切り替わらないとかどんな欠陥装置だよ

56 :
>>48>>53
自動切り替えだよ
> 1台のサーバーに障害が発生した場合、残り2台に自動的に切り替えて処理を継続する。
と書いている
それに自動だからこそ、「切り替えに成功した」と勘違いしたんだろ
ただ、その自動切り替えの設計に問題があって、「中途半端に死なずにいるサーバーが
存在した場合にどうするか」に、『想定外』の部分があり今回失敗した
むしろ、切り替えの最終スイッチが手動だったら、今回のケースはうまくいっていただろう
「自動化するなら、あらゆるケースを想定して徹底的に自動化しないと反って危険」の
良い見本と言える

57 :
ヒント:SEは雇われチョンやシナ
後は言わなくてもわかるよな?

58 :
分かりづらかったって言ってるのか?
普通、コンソールに分かりやすく表示するし、担当者もぜんぜん知らないってこと無いだろうに。
システム上に不具合あったけど、人柱立てて、人間のエラーでした!って事にしてんのか?

59 :
どこに頼んだか言えよ

60 :
メモリコントローラが壊れたらそもそもソフトなんか動かないから、
ソフト作ったヤツの責任じゃない
「故障したほうからバトンを渡す」というデザインがクズ
狂っているのに渡せるわけがない
いまの政治と一緒

61 :
>>60
違うよ
これはソフト作った奴の責任
このスレでも何人か指摘してるけどさ、今回の発表は問題の核心から
注意を背ける言わば瞞しだよ
障害発生時に自動的に経路を切り替える技術ってのは高信頼性の肝になる技術なんだぜ
例えばGoogleなんて何万ってサーバを運用していて、毎日いくつもハードが壊れてるけど、
それでも安定してシステムが稼働しているのは壊れたハードのネットワーク経路を自動的に閉塞してるから
東証が富士通のarrowheadを採用したのも、信頼性が非常に高いと判定したからで、
その肝になってる技術の一つが障害発生時のネットワーク自動閉塞だったはず
その富士通ご自慢のarrowheadが実は信頼性が低いポンコツかもしれないんだよ
その「核心」に触れられたくないから富士通は人に責任を擦り付けたと…
まあでも、こんなものは直ぐに化けの皮が剥がれるね
いくら障害発生時の手順を整備したところで、日中帯にハードが壊れたら障害対応する間も無く
即システムが止まるから

62 :
>>57
お前がアホだって事はよくわかるよ

63 :
>>5
確かに。
自動でフォローが入ったりはしないんだろうか?
そのためのバックアップで二台あるのにわざわざ人が切り替えなきゃいけなかったら面倒じゃね?

64 :
>>61
なるほど
まあ、ソフト作ったヤツ=プログラマくらいの意味で書いたわ
デザインていうのがアーキテクトくらいの意図で
Google はなんだかんだ自社でやってるから偉いよなあ

65 :
>>63
だから、(ちゃんと動けば)自動切り替えって、>>1に書いてあるだろうが。
TSSや富士通は、「事後報告」のレポート読んで、「ふーん、こんな理由で切り替わったのか。
まあこれなら大丈夫だろ」とか「えっ?とりあえず切り替わったけどこれマズいんじゃね?」
ってチェックする運用なんだよ。

66 :

東証の新システムってRAMディスクを使ってたよね、メモコンの欠陥は致命的な人為ミスじゃん。

67 :
さすが信頼の不治痛

68 :
>>60
あり得ないなwwwwwwwwwww

69 :
メモリと言ってるが主記憶じゃなくて高速なストレージ代わりじゃないのか
なんかちょっと前に流行ってたよな
色んな所でshmat使ってアクセサとメンテナンスツールを再発明してんの

70 :
(゚ε゜;)日本ブランドの信頼性が低下しまくりだなあ
東証のシステムは、原発とともに国家ビジネスとしてアジアに売り込み中だったのに

71 :
富士通のせいにされてるけど、富士通サポートの言葉を鵜呑みにして
システムの動作確認をしなかった凍傷(東証SS)が悪い
ログだけ見て正常判定するなんて馬鹿すぎる
富士通とどういう保守契約なのかしらんが、最終的な業務確認できるのは凍傷だけだろ

72 :
>>60がなんか変なことかいてるなと思ったら記事そのままだったw
普通大丈夫かどうかって本人じゃなく周りが判断することだろw

73 :
まあなんとかが悪いとか言い出したら、今サーバがヤバいとしっかりわかりやすく示せるように
作ってなかったであろう診断ツールからレポートただ流すだけの各人員に至るまで全部悪いでしょ。

74 :
> 富士通のSEは診断レポートの内容を見て、残り2台のサーバー(ノードB、ノードC)が正常に
> 稼働していると判断し、TSSに切り替え処理が成功しているとの見解を伝えた。
東証が保守費ケチってるのか、富士通が怠慢なのかは知らんが、せめて富士通は、
システムの重要度を考えて、SE2名以上による診断レポートのダブルチェックぐらい
すればいいのに

75 :
システム設計が悪い>運用が悪い でOK?

76 :
TSSの担当者は何も知らないマニュアル通りに動くしかない時給1500円の夜勤の仮眠中の監視バイトで、
富士通のSEは自宅のベッドの中で寝ぼけながらメール見て携帯で対応って絵が思い浮かんだ。

77 :
大企業のSEなんてメールを右から左へ流すだけの
いい加減な奴が多いよ

78 :
>>1
素直に運用していれば影響を回避できたとはいえ、想定していた故障の範囲を超えたんだから、
開発の責任をうやむやにされないように見張ってないとな。

79 :
>>75
いや、運用設計・運用プロセス・運用者が悪い
ちゃんと切り替わらなかったのは、システム設計のチョンボ
でも、そのために東証システムサービスと富士通による事後確認と、
必要に応じて「ノードAを完全にして切り替える」等の障害対応手順がある
切り替え失敗を誤認したうえに、経営陣にも報告せず朝まで放置し、
市場に影響を出したのは、完全に人間の人為ミス

80 :
富士通はメーカー対応しただけで、実際の保守業務はTSSだろうよ
もし富士通側が保守業務を委託されてたら常駐社員を出向させるはずだし。
使ってたサーバが富士通製なだけで、その運用はTSSと考えるのが妥当で、
TSSの保守担当がログすら読めない馬鹿でメーカー問い合わせしたけど、結局よく分からないから放置したんだろw
だから東証側の役員が減俸になったんだろうな

81 :
富士通自身が診断結果を読み間違えたというのが、
ただの偶然とか個人的資質のせいなのか、記述形式が読みにくいせいなのか、
そのへんも気になる。

82 :
>>75
今回のは基本的には運用の問題だな。
不具合が発生した時に適切な対処を行うのが運用の責務なんだから。

83 :
>>5
内的要因なら自動切換えでいいんだろうが、
外的要因だと、その外的要因を排除せずに自動切換えすると

84 :
>>41
日本以外じゃ金融証券システムなんて情報技術産業だろう
ソフト、ハードの専門技術者なんていて当然だと思うが

85 :
メモリーコントローラーの故障自体にも問題あるだろ?
システム業界の「ハードの故障は仕方ない」的な固定観念何なんだよ?
まぁ人為的ミスに結論付けて、
その人間を吊るし上げた方が、
みんなの溜飲を下げるのに効果はあるけどさ。

86 :
ttp://www.tssx.co.jp/portal/xxx.pl
> 指定された URL "" は、 このサーバー() には存在しません。
ttp://www.tssx.co.jp/portal/jcode.pl
> サーバー内で、実行中のプログラムが異常終了しました。
jcode.plを使っているらしい

87 :
ノードAが死なないと、ノードB、ノードCに処理代替しない。
これの認識を一番理解していないといけないTSSのシステム担当者が
知らなかったのが一番の問題っしょ。
問い合わせを受けた富士通の担当者も、
システムとして組まれたときにどういう動きをするかを確認せずに、
ハード個々としてしかチェックしてないのも問題だけどさ。

88 :
エラーコードの百科事典とか作っておけよw

89 :
もう診断レポートツールで出力された内容を解析して、大阪弁でもなんでもいいからTSS社員にもわかるようなレポート自体を解読するツールを作れよ

90 :
つか
切り替えが必要なシステムはノンストップ型とは言わないだろ
航空機で例えばわかるがエンジンが1台故障しても
残りのエンジンで飛行を続けられなければいけない
飛行中にエンジン切替えなんかするか

91 :
ふつう3重化というなら
トリプルのデュアル又は
デュアル+1なんだけど
これはただのデュップレックス
情報2種のわしでも判るぞ

92 :
システムが安定稼働してると切り替えをする経験が不足するし、不安定だけど普通に待機・予備機に切り替わってたりすると油断するな。
待機系も作って、切り替えも自動にして、人とシステムで切り替えをチェックしないといかんな。
人についてはチェック表作って複数でチェック&確認作業しないといけないし、早く作業しないといけない。
出来れば仮想サーバーがいいな。 システム構築までは大変そうだけど。

93 :
これは運用の体制の問題だよな。
重要なシステムの場合は、無駄だと感じてもしっかりとした体制を組むべきだな。

94 :
>>92
そういうは訓練しておけばよい
地震訓練とか定期点検 大好き国民だからな
笑えないけど

95 :
>>42
何のために社内にシステム部門があるのか分からないなw
ガキの使いかよ

96 :
富士通⇔TSS⇔東証社員 ってなってるけど、TSSは左右に情報流してるだけでまるで役に立ってないな
これTSSがメインで対応すべき案件だろ。診断レポート送って、意見聞くだけとか、TSSは学生アルバイトなのか?
せめてレポートと実機の状態見て、問題絞り込んで問合せしないと駄目だろ
現場対応のTSSが、実機の稼動状況すら判断できてないとかやばすぎるぞwww

97 :
動くか動かないかなんて、夜中の2時に実際に売買して、取引が成立するのを見届けるだけだろ。なんでやらなかったんだ?
まさか、動作確認用のデータさえも入ってないのか?

98 :
いきなり実機でテストするのは危険が大きすぎる
まず訓練計画をしっかり立てて
最初はシナリオ通りの机上訓練でよいから メンバーを慣らして
実機のテストに入らないと いろいろ不味いことが起きる
想定外だからなんてゆるされんわな

99 :
とにかく上から下までまだ謎だらけで、今の段階での処分で手打ちなんてありえない。

100read 1read
1read 100read
TOP カテ一覧 スレ一覧 2ch元 削除依頼
【トラベル】日本人の入国拒否、米国で続発 有名お笑いタレントもトラブル遭遇 [02/14] (223)
【通信】「NTT料金請求一本化は脱法的行為」、競合会社が総務大臣に要望書を提出[12/02/15] (171)
【金融政策】日銀 さらなる金融緩和を決定 [02/13] (786)
【家電】中国ハイアール、「AQUA」ブランドで日本市場進出を加速[12/02/15] (201)
【トラベル】日本人の入国拒否、米国で続発 有名お笑いタレントもトラブル遭遇 [02/14] (223)
【カメラ】デジタル一眼レフカメラ「ニコン D800 / D800E」を発売[12/02/07] (298)
--log9.info------------------
脇見恐怖症part47 (550)
大阪の阪南病院って 4 (129)
■自己愛性人格障害者 被害者スレ■ 29人目 (453)
心が静かになる方法をあげるスレ (375)
孤独で一人ぼっち その19 (106)
統合失調症に向いている仕事とは? (872)
人気(ひとけ)がするトイレで小便できない男性 (797)
自助グループってどうよ4 (312)
【痛い】緊張性頭痛・偏頭痛のスレ 5【重い】 (508)
イジメで人生狂わされ犯罪者に堕ちた畠山鈴香 (888)
■□滋賀の精神科・心療内科 part3 (580)
さいとうクリニックってどうよ?2 (594)
●● インヴェガについて 良い点 悪い点 ●● (522)
■■■ラミクタール(ラモトリギン) part4 ■■■ (244)
【発達障害】高機能自閉症総合スレ5 (513)
◆うつ病で無職&休職中の人の節約術◆3 (495)
--log55.com------------------
★2ch.scは何故失敗したのか
★クロール批判要望スレ
★削ジェンヌに文句ある人集合
★迷惑行為報告担当 - 小さな親切募集中 2
★2ch.scへの要望スレ Part3
★かっこう観測所
★スレ立て人キャップ
★2ch.scニュース系板観測所