概要
自分もデータサイエンティストのはしくれとして、何かしら世の中に情報的にコミットできないかと考え、新型コロナの感染統計データを分析し、得られた知見を公開・共有しようと思います。
事態の展開が余りにもスピーディなので、拙速な部分を残したままの分析かもしれませんが、貰ったご指摘をスピーディにフィードバックして、アジャイルに修正・改修していこうと思います。
第一弾は、新型コロナウイルスの世界各国の感染フェーズの数値化
です。
世界の感染が現在どの段階にあるのか──序盤なのか、それとも終盤なのか?──を数値で表せないか挑戦しました。
感染フェーズの数値化とは
今回取り組んだのは、世界各国が新型コロナウイルス感染のフェーズのどの位置にいるのかを数字で表すことです。
データソースとしては、こちら の世界各国の感染統計データを使わせていただきました。
計算に使ったのは、TotalCase
(=累計感染者数)、ActiveCase
(=治療中の感染者数)です。
仮定は次の通りです。
- 感染フェーズが終盤に近づくほど、治療段階が終了した感染者(=治癒した/死亡した)の割合が増える。
- 新たに感染する人が少なくなり、ActiveCaseの割合は時間とともに0に近づく。
感染フェーズ位置をPhase Position
と命名し、以下の計算式に従って求めるとします。
Phase Position = 1.0 - \frac{Active Case}{Total Case}
Phase Position
は、0.0 ~ 1.0
の値を取ります。
0.0
に近いほど感染フェーズが序盤であることを表します。
1.0
に近づくほど感染フェーズが終盤であることを表します。
Phase Position の分布から分かること
早速Python を使って、データソースサイトをクローリング&スクレイピングしてデータフレームを取得、Phase Position
を計算し、分布をプロットしました。
その結果、分布形状は zipf分布の確率密度に近いことが分かりました。( zipf分布)
大部分の国が序盤のフェーズにゴチャっと偏っていることが分かります。
プロットしたものがこちらです。
Phase Position
の平均値は 0.2683
であり、世界の新型コロナウイルスの感染は、まだまだ序盤であることが明確に浮かび上がってきました。
Phase Position 上位国の顔ぶれ
視覚的に全世界の感染フェーズの傾向を掴むことができました。
次は、具体的な数値をテーブルで見てみましょう。
Country,Other | TotalCases | TotalDeaths | total_death_ratio | phase_position |
---|---|---|---|---|
China | 81340 | 3292 | 0.040472 | 0.9575 |
DiamondPrincess | 712 | 10 | 0.014045 | 0.8525 |
S.Korea | 9332 | 139 | 0.014895 | 0.5001 |
Bahrain | 466 | 4 | 0.008584 | 0.4957 |
Iran | 32332 | 2378 | 0.073549 | 0.4179 |
FaeroeIslands | 144 | 0 | 0.000000 | 0.3750 |
Iraq | 458 | 40 | 0.087336 | 0.3537 |
Venezuela | 113 | 2 | 0.017699 | 0.2920 |
Japan | 1499 | 49 | 0.032688 | 0.2809 |
Egypt | 536 | 30 | 0.055970 | 0.2724 |
Total: | 596312 | 27341 | 0.045850 | 0.2683 |
Kuwait | 225 | 0 | 0.000000 | 0.2533 |
Singapore | 732 | 2 | 0.002732 | 0.2527 |
France | 32964 | 1995 | 0.060521 | 0.2334 |
Italy | 86498 | 9134 | 0.105598 | 0.2322 |
HongKong | 519 | 4 | 0.007707 | 0.2216 |
Spain | 65719 | 5138 | 0.078181 | 0.2206 |
Albania | 186 | 8 | 0.043011 | 0.2097 |
Oman | 131 | 0 | 0.000000 | 0.1756 |
Belgium | 7284 | 289 | 0.039676 | 0.1575 |
- 感染が終息した(=治癒するか死亡するか決着がついた)とされる、中国とダイアモンドプリンセス号の
Phase Position
は次の通りです。- 中国 :
0.9574
- ダイアモンドプリンセス号 :
0.8525
- 中国 :
- 第3位の韓国は
0.500
です。終息した2つと、第3位以降では大きな値の開きがあることが分かります。 - 我が国は、
0.2809
であり、世界平均より少し先の感染フェーズにいることが分かります。 - 他方、感染拡大が深刻化している欧州の国々を見ると、まだ感染フェーズの序盤であることがうかがえます。
- イタリア :
0.2322
- フランス :
0.2334
- スペイン :
0.2206
- イタリア :
序盤から感染爆発に襲われた欧米先進国
このPhase Position
を使って感染拡大が深刻化している国を選別したところ、欧米先進国が感染序盤から爆発的な感染者数増加に見舞われていることが見えてきました。
こちらのグラフをご覧下さい。Phase Position
が世界平均値 0.2683
以下の国々の中で、感染者数(Total Cases
)が多い順に国を並べたものです。
米国が、ぶっちぎりでヤバイ ということがおわかり頂けるかと思います。
感染の序盤なのに、すでに武漢の感染規模を超えて、世界一になってしまっています。
具体的な数値をテーブル形式で表したものはこちらです。
Country,Other | TotalCases | phase_position |
---|---|---|
USA | 104126 | 0.040509 |
Italy | 86498 | 0.232190 |
Spain | 65719 | 0.220560 |
Germany | 50871 | 0.137780 |
France | 32964 | 0.233436 |
UK | 14543 | 0.061473 |
Switzerland | 12928 | 0.136216 |
Netherlands | 8603 | 0.063815 |
Austria | 7697 | 0.036768 |
Belgium | 7284 | 0.157468 |
Turkey | 5698 | 0.023517 |
Canada | 4757 | 0.085979 |
Portugal | 4268 | 0.027882 |
Norway | 3771 | 0.006895 |
Brazil | 3417 | 0.028680 |
Australia | 3378 | 0.054174 |
Sweden | 3069 | 0.039427 |
Israel | 3035 | 0.029984 |
Czechia | 2279 | 0.008776 |
Malaysia | 2161 | 0.131883 |
感染者数上位のゾーンには、欧米先進国の顔ぶれがズラリと並んでいます。
米国
のPhase Position
は、たった 0.0405
です。本当に感染が始まったばかりのフェーズで、これだけの感染者数が出るとなると、医療崩壊のリスクが極めて高い状況に置かれていることの示唆としか思えません。
オランダ
,オーストリア
も、感染序盤から感染者数が多いですね。
こうして俯瞰すると、
米国
,イタリア
,スペイン
,ドイツ
,フランス
,イギリス
,スイス
,オランダ
,オーストリア
,ベルギー
…西側文明圏に大打撃が及んでいることが、改めて実感されます。
続いて、現在の各国の感染の実態、医療現場の状況を示唆する数値を、統計から読み解いてみたいと思います。
感染者の重症化率から分かること
各国の医療現場の状況を数値化する上で、重症化した患者の割合は手掛かりになると考えました。
そこで、以下の計算式に従い、Active Critical Ratio
(=治療中患者の重症化率)を求めました。
Active Critical Ratio = \frac{Serious, Critical cases}{Active Cases}
Serious, Critical cases : 重症化した患者数
Active cases : 治療中の患者数
Active Critical Ratio
の高い順に国を並べたところ、次のようなグラフができました。
重症化率の世界平均は 0.0543
= 5.43%
です。
感染が終息した中国、ダイアモンドプリンセス号が高い値になっていますが、これは感染終息後も入院されている患者さんが重症ゆえに退院できずにいるものと考えられます。
終息した上記2つを除いて俯瞰すると重症化率が高い順に、モルドバ共和国
・イラン
・フランス
・ベルギー
・オランダ
・ブラジル
・スペイン
と続きます。
わが国もランキングに入っています。ほぼ世界平均値ですね。
ただし、重症化率の分布は、感染終息度Phase Position
と同様に、zipf分布に近い形状をしており、一部の国が平均値を大きく引き上げています。
重症化率の中央値は、なんと0.0
。ほとんどの国では、重症化率が現時点では0となっています。
分布図は次のようになります。
実際の値は、こちらのテーブルとなります。
Country,Other | TotalCases | ActiveCases | Serious,Critical | active_critical_ratio |
---|---|---|---|---|
China | 81340 | 3460 | 1034 | 0.29884 |
Moldova | 199 | 195 | 33 | 0.16923 |
Iran | 32332 | 18821 | 2893 | 0.15371 |
France | 32964 | 25269 | 3787 | 0.14987 |
DiamondPrincess | 712 | 105 | 15 | 0.14286 |
Belgium | 7284 | 6137 | 690 | 0.11243 |
Netherlands | 8603 | 8054 | 761 | 0.09449 |
Brazil | 3417 | 3319 | 296 | 0.08918 |
Spain | 65719 | 51224 | 4165 | 0.08131 |
SanMarino | 223 | 196 | 15 | 0.07653 |
Greece | 966 | 886 | 66 | 0.07449 |
Sweden | 3069 | 2948 | 214 | 0.07259 |
Kuwait | 225 | 168 | 11 | 0.06548 |
Italy | 86498 | 66414 | 3732 | 0.05619 |
Denmark | 2046 | 1993 | 109 | 0.05469 |
Total: | 596312 | 436295 | 23670 | 0.05425 |
Serbia | 528 | 478 | 25 | 0.05230 |
Japan | 1499 | 1078 | 56 | 0.05195 |
SriLanka | 106 | 99 | 5 | 0.05051 |
Tunisia | 227 | 218 | 10 | 0.04587 |
重症化率の高い国は医療崩壊のリスクに晒されている
重症化率が高いほど、人工呼吸器(ヴェンティレータ)、人工心肺(エクモ)が必要になり、当然それらの機器を扱うことが出来る高度なスキルを持った医療従事者も必要となります。
すなわち、重症化率が高い国ほど医療資源を大きく枯渇させやすいということを意味します。
(すでに終息となっている中国とダイアモンドプリンセス号のケースは除く)
医療崩壊リスクを見積もる
重症化率が高いほど、医療資源の枯渇が進みやすく、医療崩壊のリスクが高いことが分かりますが、感染者数の母数が非常に大きいケースも医療資源を激しく消費すると考えられます。
そこで、Active Cases
(=治療中の感染者数)と、Severe,Critical
(=重症患者数)の二次元プロットをして、医療崩壊リスクに晒されている国を見つけ出そうと思います。
赤い破線は、重症化率の世界平均値 0.05425
のラインです。この破線より上にいる国は、重症化率が世界平均よりも高く、破線より下の国は重症化率は世界平均より低いことを意味します。
米国
は、世界平均のラインより低い位置にいますが、重症患者数の絶対値が大きいことが分かります。
現時点の重症化率は世界平均より低いものの、感染者数の増加率が急激に高まっており、近い将来、重症患者数も世界一になる可能性が高いと考えられます。
イタリア
・スペイン
・フランス
は、重症化率が世界平均よりも高く、重症患者数の絶対数も現時点では世界最大規模です。
すでに医療崩壊を起こしているか、医療崩壊の瀬戸際にいると考えられます。
中東のイラン
も、重症化率・重症患者数共に高い水準にあり、医療崩壊の危機に瀕している、あるいはすでに医療崩壊を起こしている可能性があります。
ドイツ
は懸命に踏みとどまっている印象です。
重症化率は世界平均より少し低いものの、重症患者数の絶対数が多く、このままのペースで重症患者が増え続けると、医療崩壊に瀕する可能性があります。
まとめ&今後の分析予定
今回は、データサイエンティストのはしくれ感を少しは出せるようなエントリを心がけました。
世界各地の有志が、非常に有益なデータ提供をしてくれています。
それを活用し、加工・分析し、翻訳してお伝えすることが、せめてものデータサイエンティストのはしくれとしての務めと思い、今後も分析を続けて参りたいと思います。
具体的には、アイディアの一つとしては、感染が進んでいる欧米先進国の統計値を手掛かりに、日本の感染フェーズが今どのあたりなのか、医療崩壊のリスクはどれくらいあるのか、といったことをデータに基づいて推測するエントリを執筆する予定です。
また、計算がおかしい、データの不備など、お気づきの点がありましたら、忌憚なくご指摘ください。
なる早でフィードバックしたいと思います。
こちらのエントリも併せてどうぞ!
目次 1 概要2 Anacondaで開発環境を構築2.1 自然言語処理用の開発環境を conda で構築3 mecab 本体のインストール4 neologd のインストール&設定4.1 ビルド環境の整備4.2 neologd のインストール4.3 mecab の辞書を neologd に変更する4. […]
目次 1 長期保有シミュレーション1.1 背景2 シミュレーションの準備2.1 データファイルの設置場所3 シミュレーション処理3.1 使用するモジュール群の読み込み3.2 視覚化処理の設定3.3 価格データの読み込みと前処理3.3.1 前処理3.3.1.1 カンマ区切りのOHLCの処理3.3.1. […]
目次 1 概要2 救命率とは2.1 仮説アイディア2.2 サンプリング条件3 救命率の分布4 救命率の内訳を見ると:治療終了患者数と治癒した患者数の関係5 感染フェーズと救命率の関係を見ると5.1 感染終息度が0.20以上の国(=感染フェーズが進んでいる国)の救命率5.2 感染終息度が0.20未満の […]
目次 1 ArcFace の論文を読み解く1.1 概要2 導入2.1 提案手法 ArcFace の論文を読み解く 直近のコンペで使った手法 ArcFace についてちゃんと理解すべく、論文を読み解く。 https://arxiv.org/pdf/1801.07698.pdf f(x) = \int_ […]
目次 1 日本は欧米とは異なるパターンを辿る?2 欧米諸国との比較:死者数の推移3 1週間ごとの死者数増加率の推移4 死者数増加の勢いが少し弱まる5 1日の平均死者数の傾向6 まとめ 日本は欧米とは異なるパターンを辿る? 最新のECDC(欧州疾病予防センター)の統計データを分析したところ、日本は欧 […]
目次 1 日本、感染爆発フェーズ進行・来週末の死者数倍増以上の恐れ2 感染統計データの分析2.1 日本の死者数推移・加速度的増加続く2.2 1日平均死者数・さらに加速2.3 欧米諸国の感染被害をきっちりトレースする日本2.4 日本に最も近いパターンはスウェーデン3 まとめ:日本は既に感染爆発フェーズ […]
目次 1 日本、ついに感染爆発初期フェーズ突入か2 分析チャート図3 日本の新型コロナ死者数の推移:加速度的な死者数増加3.1 1日の死者数の傾向:4月10日を境に急上昇4 欧米を追いかける日本の新型コロナ感染状況 日本、ついに感染爆発初期フェーズ突入か 日本の最新の新型コロナ感染状況について、10 […]
目次 1 概要2 感染フェーズの数値化とは2.1 Phase Position の分布から分かること2.2 Phase Position 上位国の顔ぶれ3 序盤から感染爆発に襲われた欧米先進国4 感染者の重症化率から分かること4.1 重症化率の高い国は医療崩壊のリスクに晒されている5 医療崩壊リスク […]
目次 1 秘書問題をもうちょっとだけ掘り下げる2 おさらい:シミュレーションの定義3 今回の評価基準:評価期待値4 実験5 Python コード実装!5.1 序盤定義部分5.2 応募者サンプルデータを作る関数5.3 秘書問題を解く関数を実装する6 実験6.1 実験結果を描画する7 レビューまとめ8 […]
目次 1 概要1.1 [2020/04/03 追記]2 今回の分析のアプローチについて:ジョンズ・ホプキンス大学のデータを用いた救命率の時系列推移3 救命率の時系列推移を分析する3.1 日本と欧米先進国の救命率の比較3.2 欧州諸国の救命率の時系列推移:ドイツが最も優秀、安定感を見せつける3.3 救 […]
目次 1 100万人あたりの死亡者数でみた世界1.1 ズバリ、まとめると・・・1.2 百万人あたりの死亡者数を使う背景2 世界と比べたら圧倒的に優秀な日本!だが・・・3 ヨーロッパを詳しく見ると、クッキリと二極化する傾向が!4 感染対策成功組(?)でも優秀な日本、でも圧倒的トップは台湾5 日本をフ […]
目次 1 最近2週間の死亡者数パターン・欧米の感染爆発直前期と重なる2 死亡者数パターン比較チャート3 日本は感染爆発フェーズに突入するのか 最近2週間の死亡者数パターン・欧米の感染爆発直前期と重なる 日本の新型コロナ死者数の最近2週間のパターンと酷似している欧米の時期を探したところ、いずれも感染爆 […]
目次 1 新型コロナ・致死率の時系列推移を分析した結果分かったこと1.1 新型コロナのニュースで頻繁に見かける国々と日本の比較:1.2 ヨーロッパにおける致死率の二極化:1.3 新型コロナ対策に成功している国?での比較 新型コロナ・致死率の時系列推移を分析した結果分かったこと 先日から使い始めたジ […]