110円の知性

110円(税込)の古本を読んで得た知性とはこんなもの(消費税変更に合わせて改題)。

コロナ予測

統計的処理による感染予測には興味がある、世の中のデータをすべて集めることは不可能だ、しかし、感染との相関が深い指標がわかってくれば、精度が向上してくるだろうね。

コロナの感染情報をGoogleが予測するのは、ビッグデータを利用した統計処理(予測)の実践例として、物凄く有益なノウハウを(会社としても)得ることができるからだろう。

ただし、余りにも予測が当たりすぎるようになって「来月は10万人感染、死者5,000名」とか出た時は、無常を感じるかもしれない。

グーグルのコロナ予測と「8割おじさん」の被害想定 悲観シナリオ「感染抑止」に意義〈AERA
12/1(火) 11:32配信 AERA dot.
 自治体などが連日発表する陽性者数は「これまで」を把握するのに必要だ。しかし、グーグルが公表したのは「これから」の数値。予測には、意義がある。AERA 2020年12月7日号から。

 11月15日~12月12日の28日間の累計で、新型コロナによる全国の死亡者は512人、陽性者は5万3321人に上る──。ショッキングに感じる人もいるかもしれないが、連日のように過去最多を更新する今の感染状況を踏まえれば、「あり得るかも」と受け止めるべきなのかもしれない。
 これは米グーグルが11月17日の公開初日に示した、感染症数理モデルとAI(人工知能)を組み合わせた新型コロナの感染予測情報だ。
 ちなみに、11月26日時点の予測は11月24日~12月21日の28日間の累計で、全国の死亡者は758人、陽性者は6万4167人とさらに膨らんでいる。
 グーグルによる感染予測情報の日本版は、米国に続いて世界で2番目という。米国で公開しているのは予測開始日から14日間の陽性者数や死亡者数、入院患者数などの累計予測値だが、日本版は「より長期の予測データを求める声に応じる形」(グーグル広報部)で28日間に設定。予測値は都道府県ごとに日々更新されている。誰でも無料で閲覧可能だ。
 日本版を監修した慶應義塾大学の宮田裕章教授(42)が最も留意したのは「日本の実態を高い精度で捉えられているか」という点だったと言う。
「分析の仕方は米国のモデルと同じですが、日本国内のデータに基づいて日本独自のアルゴリズムで作っているため米国と日本のAIは別物です。それでも適切な予測ができるか検証する必要がありました」

■移動情報の把握が強み
 世界に冠たるグーグルが提供するサービスだけに、政府も高い関心を示す。
厚生労働省で関係者から予測の前提条件などについて聞くことになっている」
 加藤勝信官房長官は11月18日の会見で、政府として関係者から予測の前提条件を聞き取る方針を示した。
 たしかに気になるのは予測の精度だ。AIと膨大な疫学的データを組み合わせ、時系列の予測を行う上で重要なのは、データの選択と信頼性だろう。
 グーグルは厚労省が発表している陽性者数や死亡者数、病床に関するデータのほか、地理情報、国民の健康や医療に関する各種統計、国勢調査の結果などの国内データを挙げている。ポイントはグーグルが独自に集めた人の移動に関する情報を加味している点だと指摘するのは、医学統計に詳しい北海道大学大学院の横田勲准教授(33)だ。
「感染予測が外れる最大要因は人間の行動の不確かさによるものです。スマホにグーグルマップをインストールしている人は、都市・地方を問わず日本中にランダムにいます。こうしたマップユーザーの承認さえ得られれば、グーグルはプライバシーを保護した形で移動情報を把握することができるのが一番の強みでしょう」
 これはグーグルが今年4月から世界で公表しているスマートフォンの位置情報を使った人々の移動状況の分析データで、「コミュニティモビリティレポート」と呼ばれている。食料品店や公園など特定の場所を訪れた人の数の変化を時間の経過とともに把握できる。こうした国内データを利用してAIをトレーニングしたため、予測結果は感染に対する人々の反応などを含め日本独自の状況が反映されたものになっているという。
 また予測モデルは、個人の状態を「感染前」、「曝露」(感染したものの他者を感染させる段階に至っていない状態)、「発症」(他者に感染させるリスクがある状態)、「回復」(回復して免疫を獲得または死亡)の4区画に分類。AIはこの区画を人がどのように移動するかを複数のデータソースに基づいて算出している。この遷移率は都道府県ごとに判断されているという。
 東京都と神奈川県を比較してみよう。
 11月23日時点のグーグルの予測情報は、東京都が今後28日間で陽性者数は1万7277人、亡くなるのは59人と予測、神奈川県は陽性者数が5993人、54人が亡くなると予測している。神奈川県の死亡者の比率が高い理由について横田さんはこう推測する。
「陽性者の年齢や、地域ごとの年齢分布も加味されているからこそ出せる予測値なのだと思います」
 AIの機械学習と良質なオープンデータを駆使すれば、古典的な数理モデルによる予測の限界を超えられる。数理モデルを使った感染予測といえば、政府の感染封じ込め策を先導した元北海道大学教授の西浦博・京都大学教授が示した予測値が記憶に新しい。

■予測値が「意識」高める
 2月下旬に厚労省クラスター対策班が発足した際、データ解析を託された西浦さんは中国の感染データをもとに日本の流行ピークを4月と見通し、感染拡大を抑制する方策として人との接触を8割減らすよう提言し、「8割おじさん」の異名を取った。西浦さんは4月の記者との意見交換会で「まったく感染対策をしなかったら、約85万人が重症化し、その約半分(約42万人)が死亡する」との被害想定を発表。すると、接触8割削減の方針は「過大な制限」と集中砲火を浴びた。
 北大時代の西浦さんと親しく交流していた横田さんはこう振り返る。
「西浦先生が発表した段階では、治療法は手探りの状況でしたし、今のように新型コロナに感染しても発症せず、自然に治癒している人が多いことや、感染者クラスターを生み出すリスクの違いによって、1人が感染させた人数に集団内で大きな異質性が認められることがよくわからない時期でした。あの時点でベストの予測をされた、と僕らは考えています」
 留意しないといけないのは、西浦さんはあくまで「まったく感染対策をとらなかった場合」という前提での予測値として説明していた点だ。国の緊急事態宣言のタイミングはともかく、4月以降、国民の多くが危機感をもって行動制限したり、ソーシャルディスタンスに気を使うようになったりしたため感染を抑え込むことができたのは紛れもない事実だ。
 今回のグーグルの予測情報についても、横田さんは同様に捉えるべきだと指摘する。
「今のままでいけば、という悲観的なシナリオに基づく予測と捉えるべきです。政府が今後、再び緊急事態宣言を発令するなど人の流れを根本的に変える政策に踏み切った場合、予測は外れるでしょう。GoToキャンペーンも含め、政府がどのタイミングでどれくらいの規模で行動制限をかけるかによりますが、効果的な対策がとられた結果、うまく抑え込むことができれば、『良かった』と受け止めるべきだと考えます」

■情報の一つとして活用
 予測精度の限界についてはグーグルも「予測結果は学習に使用されるデータに依存する」と強調している。データソースに最新情報が反映されるまで数日かかるため、出力された予測データにすべての最新のデータが反映されない可能性や、検査の報告方針などに変化が起きた場合、これらの変化が予測結果にタイムリーに反映されない場合もあるという。
 監修に当たった前出の宮田さんもこう注意を促す。
自治体によっては日をまたいで報告が遅れて公開されるエリアもあり、その分、直近の状況が過小評価される傾向も見受けられます」
 グーグル広報部は「あくまで予測であることに留意していただき、医療機関や行政機関などが感染拡大に対応するための情報の一つとして活用されることを期待しています。個別の数字ではなくトレンドとして捉え、複数のデータソースと組み合わせて活用してほしい」としている。(編集部・渡辺豪)
AERA 2020年12月7日号