中国・武漢で発生した肺炎を引き起こす新型コロナウイルスのゲノム（設計図）を読んでみたという論文を読んでみた話。

目次。

目次。
はじめに。
読んだ論文。
感染源や新型肺炎の症状など。
- 感染源。
- 症状。
病原体のゲノム（設計図）を解読して、正体を突き止める。
得られたゲノム（設計図）を使った色々な解析。
この論文の重要な点。

この文章を読んで、面白い！役に立った！...と思った分だけ、投げ銭していただけると嬉しいです。

ofuse.me

【宣伝】ギターも歌も下手だけど、弾き語りをやっているので、よければ聴いてください。

www.youtube.com

はじめに。

新型コロナウイルスのゲノム（設計図）を解読したっていう論文を読んだので、その話を。折角なので、未知のウイルスのゲノム（設計図）をどうやって解読するのかに焦点をあてて、一般の人向けに文章を書いてみた。

最近、量子コンピュータの話とか、プログラミングの話ばっかりしているが、僕の専門は、ゴリゴリの生物系。生物系の話を全然していないので、たまにはします。

blog.sun-ek2.com

僕は、東京に住んでいて、今いる下宿と研究室は、結構遠い。電車で下宿―研究室を平日は毎日往復しているが、人がたくさんいる駅を通るし、電車は満員なので新型肺炎にかからないかちょっと心配。

読んだ論文。

題目。

Complete genome characterisation of a novel coronavirus associated with severe human respiratory disease in Wuhan, China

www.biorxiv.org

日本語訳は、「中国・武漢で発生した深刻なヒト呼吸器疾患の原因である新型コロナウイルスの全ゲノム解析」といった感じだと思う。この論文は、誰でもpdf形式でダウンロードできるので、もし興味があればぜひ読んでみてください。

掲載されているのは、BioRxivというプレプリントサーバー。これは、学術雑誌に掲載される前の論文がアップロードされているサーバーである。通常、論文を学術雑誌に投稿すると、査読というプロセスが待っている。その査読段階で、投稿された論文がちゃんとしているのか、していないのかが判断されて、ちゃんとしているのが認められたら、やっと雑誌に載って、研究成果が世界に公開される。

論文の投稿プロセスはものすごく長い。生物系かつ実験系の場合、論文が投稿されて、数か月たたないと研究成果が世に出ない。しかし論文の中には、何が何でも研究成果をいち早く世に出さないといけないものがある。今回の新型コロナウイルスのゲノム（設計図）が解読できたという論文がまさにそうである。論文が世に出るのが早ければ早いほど、多くの命を救うことができるからである。そんなときにプレプリントサーバーはものすごく役に立つのである。

物理系の分野とかだと、論文は学術雑誌に投稿する前にプレプリントサーバーに投稿するのが一般的なような気がするが、生物系だと実はこの文化はあんまり浸透していない。物理系の有名なプレプリントサーバー「arXiv」が1991年から始まったのに対し、「BioRxiv」は2013年から始まった。両者には、20年以上差がある。

著者。

Fan Wu, Su Zhao, Bin Yu, Yan-Mei Chen, Wen Wang, Yi Hu, Zhi-Gang Song, Zhao-Wu Tao, Jun-Hua Tian, Yuan-Yuan Pei, Ming-Li Yuan, Yu-Ling Zhang, Fa-Hui Dai, Yi Liu, Qi-Min Wang, Jiao-Jiao Zheng, Lin Xu, Edward C. Holmes, Yong-Zhen Zhang

主に中国・武漢の大学・研究所・病院に所属している研究者・医師の方々が著者に名を連ねている。北京や上海、それにオーストラリアの機関も協力している。

論文をまとめると…。

新型コロナウイルスのゲノム（設計図）は、2002年～2003年に流行したSARS（重症急性呼吸器症候群）を引き起こすコロナウイルスのゲノム（設計図）とよく似ている。

感染源や新型肺炎の症状など。

この論文のデータは、2019年12月の中旬から下旬にかけて入院した患者から得られたものなので、情報が古いかも。詳しい症状とかは、最新の情報を確認してください。

感染源。

この論文で取り上げられている全ての患者は、海鮮市場で働いていた。海鮮市場なのだが、魚の他に、色々な野生動物も売られている。先ほど、新型コロナウイルスは、SARSのコロナウイルスに似ているといったが、この市場にはSARS様のウイルスを持っているコウモリは売られていない（SARS様の様は、「さま」とは読まない。「様」は、「SARSっぽい」って意味）。

この論文では、海鮮市場で野生動物を取り扱ったことが原因じゃないかとほのめかしている。けれども結局は、どこからウイルスがやってきたのかは、この論文内では特定されていない。

症状。

主な症状は、熱と咳。僕は、肺炎の症状について詳しくないが、多分、普通の肺炎と同じような症状が新型肺炎の場合にも出るのだと思う。

新型肺炎の患者の胸のレントゲンを撮ってみると、肺のところに白い影がうつっている。まあ、そりゃ、そうですよね。論文にレントゲン写真（Figure 1）が掲載されているが、素人でも分かるくらいの異常な白い影。

患者は入院して、インフルエンザの検査を受けるも、結果は陰性。その他、一般的な呼吸器疾患の病原体検査をするも、結果は陰性。

この未知の病原体は一体何者？

病原体のゲノム（設計図）を解読して、正体を突き止める。

まずは、必要な前提知識から説明。

DNA複製。

下の動画の最初の2分間の内容が分かれば、十分だと思う。

www.youtube.com

DNAは、二重らせん構造をとっている長いひも状の分子で、A、T、G、Cと略される4種類の塩基が数珠のようにならんだものである。二重らせんの内部では、AとT、GとCが互いにゆるく結合している。例えば、ATGCTというDNA配列は、TACGAという配列と緩く結合して二重らせんになっている。

ちゃんと言うと、DNA配列には読む向きがあって、二重らせんをつくっている2本のDNA配列の読む向きは逆である。TACGAというとDNA配列を逆向きに読んでいることになるので、ATGCTは、TACGAじゃなくて、AGCATと二重らせんを形成しているというのが正しい。そしてAGCATのことをATGCTの相補鎖という。

DNA複製は、ATGCTというDNA配列情報から、その相補鎖となるAGCATを合成することである。もちろん5塩基で複製が終わることはない。ヒトの細胞が分裂する前には、120億塩基もの情報が複製される。（ヒトのゲノム（設計図）は30億塩基。父親と母親からそれぞれ1セットずつ受け継いでいるので、ヒトが持っているゲノムは2セット。そしてゲノムの相補鎖も複製されるので、30億×2セット×2本）

DNA複製は、DNAポリメラーゼというタンパク質によって行われるのだが、DNAポリメラーゼはすでにあるDNAの鎖に塩基を新たに繋げることしかできない。つまりDNAポリメラーゼは、DNAを複製することはできるが複製を「開始」することができないのである。複製を開始するのは、DNAプライマーゼというタンパク質。DNAプライマーゼは、複製の始まりの地点にプライマーと呼ばれる短いRNA断片を合成する。本当は違うけど、RNAはDNAとほぼ同じ。DNAポリメラーゼは、合成されたプライマーにどんどんと塩基をつなぐことによってDNAを複製する。

DNAシーケンシング。

生物のゲノム（設計図）は、DNAの上に書かれている。その情報（A、T、G、Cの並び）を解読するのが、DNAシーケンシング。DNAの情報を解読する装置のことをシーケンサーと言う。

今まで散々、DNA複製の話をしたのは、DNAシーケンシングにDNA複製反応を使うから。DNAシーケンシングの技術は、第一世代から第五世代に大きく分けることができて、第一世代から第三世代までの技術でシーケンシングする際には、DNA複製が必要である。市場に出回っているのが第四世代までで、第五世代は、まだ基礎的な研究段階である。

ちょっと横道に逸れるが、第五世代のDNAシーケンシング技術は、DNAシーケンシングの最終形態と呼ばれていて、量子トンネリング電流を使って、DNAの配列情報を読み取る。STMっぽいかもって言うと物理系の人には伝わると思う。最終形態のDNAシーケンシング技術の研究には、大阪大学の先生が深く関わっている。

www.nature.com

新型コロナウイルスのゲノム（設計図）の解読に使われたのは、第二世代のDNAシーケンサー。よく第一世代と対比させて、「次世代シーケンサー」と呼ばれている。

次世代シーケンサー（イルミナ株式会社、Illumina）。

次世代シーケンサーで有名なのは、イルミナ株式会社のシーケンサーだと思う。イルミナ株式会社は、アメリカの会社。この論文に使われたものイルミナ社製のシーケンサー。

専門用語がたくさん出てくるので、内容は分からなくても大丈夫。どんな映像が出てきたかを何となく覚えているだけで十分だと思う。1:00~4:10の約3分間の映像を見るだけでいい。

www.youtube.com

まず大事なことは、次世代シーケンシング技術には、たくさんの短いDNAの鎖が生えた板を使うことである。この板に生えたDNAが先ほど説明したプライマーとなる。生物で使われているプライマーはRNAだが、シーケンシングに使うのはDNAプライマーである。これは、細かい話なので、どっちだっていいが。

配列情報が知りたいDNAの両端に板に生えている短いDNA断片と相補的な配列をくっつけておく。DNAの両端に短いDNAをつなぐために必要な試薬一式は、キットとして売られていて、取扱説明書を読みながら試薬を混ぜたりすれば、誰でもできる。

両端に短いDNAをくっつけたDNAを次世代シーケンサーの板に撒くと、調べたいDNAと板に生えた短いDNA断片がくっついて二本鎖になる。そこにDNAポリメラーゼを加えると、板に生えた短いDNA断片（プライマー）に塩基をつないで、DNA複製を行う。プライマーは、板に生えていたので、複製されたDNAも板に生えた状態である。しばらくすると複製されたDNAの反対側の端っこと板に生えたDNA断片がくっついて二本鎖になり、またDNA断片からDNAが伸びて、先ほどのDNAと相補なDNA鎖が板から生える。これがずっと繰り返され、配列を知りたいDNAが板に生えた状態で増幅されるのが「ブリッジPCR」という手法である。この文章を読んで、再度動画を眺めると、よく分かると思う。

動画では、ランダムに板から短いDNA断片が生えているが、実際にはクラスターを形成している。つまり板の上には、短いDNA断片が生えているところと生えていないところがあって、板の上に短いDNA断片が水玉模様のように生えているといった感じである。

板から生えた調べたいDNAは、せいぜい近場の短いDNA断片（プライマー）としかくっつかない。そのため、ブリッジPCRで増幅された後のそれぞれのクラスターには、同一の配列を持ったDNAとその相補的な配列を持ったDNAしか生えてこない。そして、一方の鎖は切り取られてしまうので、最終的には一つのクラスターに生えているDNAはすべて同一の配列を持ったものになる。

板の上に調べたいDNAの密集林ができると、いよいよ配列情報の読み取りが行われる。

この時に行われるのがDNA複製。DNAの材料は、ATP、TTP、GTP、CTPと呼ばれる分子。4つをまとめてNTPという。DNA複製は、NTPが取り込まれてDNAの鎖につながれることによって起こる。

配列情報を読むためのDNA複製の材料に使われるNTPには、2つの細工が仕込まれている。

1つ目は、蛍光分子。配列を読むために使われるNTPには蛍光分子がくっついている。そして、NTPがDNAの鎖に使われると、蛍光分子はNTPから分離して、蛍光を発するようになる。

2つ目は、3’のキャップ。3’という言葉は、場所の名前。DNA複製は、DNAの3’という部分にNTPの5’という部分がくっつくことによって行われる。そしてくっついたNTPの3’部分に新たなNTPがくっつく。しかし、配列を読むために使われるNTPの3’部分には、キャップがついている。このNTPを使って、DNAの一塩基分伸ばすことができるが、一塩基伸びた後は、3’にキャップがついているのでDNA複製が進まない。キャップを外す試薬が必要なのである。

配列を読むためのDNA複製は、

NTPが一分子だけDNA鎖に取り込まれる。

蛍光分子が分離して、蛍光を発するようになる。

3’のキャップを試薬を使って外す。

また、新たなNTPが一分子だけ取り込まれる。

というサイクルがグルグルと回るのである。それぞれ違う色の蛍光を発する蛍光分子をATP、TTP、GTP、CTPにくっつけておいて、蛍光をカメラで撮っておけば、どのNTPがDNA鎖に取り込まれたか分かる。こうやって、DNA複製の各段階で発される蛍光をカメラで撮りまくることによって、DNAの配列を読む。

先ほど、ブリッジPCRによって、調べたいDNA配列をクラスター上に増幅した。クラスター内は、全て同一配列を持っているDNAであり、一緒のタイミングで同じ色の蛍光を発するので、カメラで撮れるぐらいの明るい光になるのである。

ちなみにブリッジPCRは、150塩基ぐらいの短いDNAしか増幅できない。そのため本当のことを言うと、調べたいDNAは、あらかじめ短く分割しておかなければいけない。ランダムにDNAを短く分割しておき、その混ぜ物を板の上に撒くのである。板の上に生えている短いDNA断片がクラスター状になっていなければ、「調べたいDNAがランダムに分割されたDNA断片の混ぜ物」の蛍光シグナルは、ぐちゃぐちゃに混ざって訳がわからなくなる。しかし、実際はきちんと板に生えている短いDNA断片がクラスター化されていて、一つのクラスター内では同一の配列を持つDNAしか増幅されないようになっている。そのため、色々な配列のDNAが混ざった溶液を板の上に撒いてもちゃんとシグナルがぐちゃぐちゃに混じりあうことなく、同時並行で膨大な種類のDNA配列を読むことができる。

調べたいDNAは、あらかじめランダムに短く分割されているので、次世代シーケンサーから出てくる配列情報は、膨大なDNA断片の情報。シーケンシング後は、専用のソフトウェアを使ってこの膨大なDNA断片の情報をつなぎ合わせて、調べたいDNAの配列情報を復元する（アセンブリング）。

新型コロナウイルスのRNA-seq。

前提知識の説明が終わったので、再び論文の話。ここから新型コロナウイルスのゲノム（設計図）の解読。先ほど、ひたすらDNAシーケンシングの話をしてきた。生物の多くは、DNAに自身のゲノム（設計図）を保存しているので、DNA配列を読めば、ゲノム（設計図）が分かる。

しかし、新型コロナウイルスは、DNAではなくてRNAというDNAとよく似た分子にゲノム（設計図）を保存している。そのため、まず初めにそのゲノムDNAに変換しなければいけない。（HIVウイルスのゲノム（設計図）なんかもDNAではなくてRNAに保存されている）

RNAは、肺炎患者の気管支肺胞洗浄液、肺炎になった肺を洗った液体から取っている。こういった色々な物が混じった液体からRNAを取り出すのは、そんなに難しくない。RNA精製用のキットは、売られていて取扱説明書を読めば、誰でもできる。

新型コロナウイルスの抽出に使われたのは、Qiagenという会社が売っているRNeasy Plus Universal Mini Kitという製品。（僕もQiagen社の製品にものすごくお世話になっています）

www.qiagen.com

このキットを使えば、RNAを抽出することができる。抽出した溶液に含まれているのは、おそらく主に、ヒトの細胞が作っているmRNA、rRNA、コロナウイルスの遺伝子が載っているmRNAと目的のゲノムRNA。

次に行うのがRNAからそれと対応するDNAを合成すること（逆転写）。DNAじゃないと次世代シーケンサーで配列を読むことができない。そして、そのDNAの両端には、次世代シーケンサーの板から生えている短いDNA断片と相補的なDNA断片をくっつけておかないといけない。先ほども言ったが、専用のキットが売られているので、取扱説明書を読めば、誰でもできる。

この論文で使われているのがタカラバイオ株式会社のSMARTer Stranded Total RNA-Seq Kit v2という名前の製品。論文には、TaKaRa, Dalian, Chinaと書かれてあるが、タカラバイオ株式会社は滋賀県にある会社である。中国・大連に拠点を持っている。（Qiagen社に加えて、タカラバイオ株式会社の製品もよく使います）

catalog.takara-bio.co.jp

このキットを使うことでRNAに対応するDNA（cDNA、complementary DNA）を得ることができる。それだけではなくcDNAの両端に次世代シーケンシングに必要な短いDNA断片もくっつけることができる。抽出溶液には、mRNA、rRNA、コロナウイルスの遺伝子が載っているmRNAと目的のゲノムRNAが入っている。そして、rRNA由来の配列を持つcDNAを壊すタンパク質を加えることにより、rRNA由来のcDNAが取り除かれる。

最終的にできるのは、ヒトのmRNA、コロナウイルスのmRNA、ゲノムRNA由来のcDNAの混ざりもの。

その後、上海にある復旦大学公共衛生学院でDNAシーケンシングを行っている。使われたのは、先ほど説明した次世代シーケンサー。イルミナ株式会社が売っているMiniSeqという製品。

DNAシーケンサーを各研究室ごとに持つのは、ちょっと辛い。装置代も高いし、維持費もかかる。そのため、生物系の研究室は、DNAシーケンシングを自分のところでやるのではなく、装置を持っている研究機関や企業に外注する。

アセンブリング。

先ほども言った通り、DNAシーケンサーから出てくるデータは、膨大な短いDNA配列情報。それをどうにかこうにか組み合わせて、もとのRNA配列を構築しないといけない。そういうソフトウェアは、世の中にたくさんあって、この論文では念のためにMegahitとTrinityという2つのソフトウェアを使い、配列を組み立て、ちゃんと組み上がっているか、両者の結果を比較して確認している。

組み上がった配列に混ざっているのは、ヒトのmRNAとコロナウイルスのmRNAと目的のゲノムRNA。ヒトゲノム（設計図）は、昔に読まれているので、その情報を頼りに配列の中から、ヒトのmRNA由来っぽい配列データを取り除く。残ったのは、コロナウイルスのmRNAとゲノムRNA。mRNAには、遺伝子は（詳しくないのでよく分からないが、多分）1個しか載っていない。一方で、ゲノムRNAはコロナウイルスが持つ遺伝子が全て載っている。そのため、ゲノムRNAの方が断然長い。そんなわけで、どの配列がゲノムRNAを表しているのかは、何となくわかる。とりあえず、長いやつを探せばいいのである。こうして得られたゲノムRNAの長さは、3万塩基ぐらい。そして、新型コロナウイルスのゲノム（設計図）がコウモリ由来のSARS様コロナウイルスのゲノム（設計図）とよく似ていることが分かった。

得られたゲノム（設計図）を使った色々な解析。

ゲノム解析。

得られた新型コロナウイルスのゲノム（設計図）から遺伝子領域や転写制御領域を推定。コウモリ由来のSARS様コロナウイルスにむちゃくちゃ似ているということが分かっているので、ヒトのSARSウイルスとコウモリのコロナウイルスの情報を元に各領域を推定している。

系統樹解析。

系統樹とは、進化系統樹のこと。ゲノム（設計図）配列を元にして、新型コロナウイルスがどのウイルスと進化的に近い位置にあるか調べている。

「知られているウイルスと新型コロナウイルスがどれだけ進化的に近いか？」というのは、それぞれのゲノム配列がどれだけ似ているかで判断される。要は、A、U、G、Cという4文字で書かれたゲノムという文章が互いにどれだけ似ているか判定しているのである（RNAの場合、TじゃなくてU）。

大学生が他の文章をコピペしたレポートを提出するのは、あるある。学生が出したレポートが他の文章と似ていないか、つまりコピペしていないかチェックするツールがあるのだが、やっていることはそれと同じである。

このゲノム配列比較、文章比較の根っこには、動的計画法というものが使われている。文章比較の他にも、Google mapで最短経路を表示するのにも多分使われているような気がする。

この論文では、ゲノムの全配列を使った類似性判定に加えて、特定の遺伝子配列だけを使った類似性判定も行い、それぞれの系統樹を作っている。使っている配列によって、系統樹の形が変わる。遺伝子Aは、コウモリのコロナウイルスと進化的に近いが、遺伝子BはヒトのSARSウイルスに近いっていう感じ。

スパイクタンパク質の受容体結合領域の立体構造推定。

ウイルスは、トゲトゲしているってイメージを持っている人が多いと思う。そのトゲトゲのトゲのことをスパイクタンパク質って呼ぶらしい。受容体結合領域の受容体という言葉は、ヒトの受容体のことで、ヒトの細胞の細胞膜に突き刺さっているタンパク質（膜タンパク質）のことを指している。

スパイクタンパク質の立体構造の推定によって、新型コロナウイルスは、スパイクタンパク質の受容体結合領域をACE２受容体という膜タンパク質と結合させることによって、細胞の中に侵入するんじゃないかってことが分かった。SARSウイルスと一緒。

タンパク質の立体構造の決定法は、X線結晶構造解析、核磁気共鳴分光法（NMR）、クライオ電子顕微鏡観察なんかがあるが、どれもタンパク質を精製したりしなければいけないので、時間がかかる。

この論文では、これら手法でタンパク質の立体構造を「決定」するのではなく、ソフトウェアを用いて、コンピュータ上で立体構造を「推定」している。

タンパク質は、アミノ酸という分子が数珠のようにつながったもの。ヒトの細胞に侵入するために必要なスパイクタンパク質の遺伝子配列が次世代シーケンサーによって、解読された。その遺伝子配列とコドン表というものを使えば、スパイクタンパク質のアミノ酸配列が分かる。

この論文では、こうして得られたスパイクタンパク質のアミノ酸配列をSWISS-MODELというwebサーバーに送って、ホモロジーモデリングを行っている。ホモロジーモデリングとは、ざっくり言うと、「互いに似ているアミノ酸配列は、きっと互いに立体構造も似ているはず」という仮定のもとに行う推定法である。「立体構造を推定したいタンパク質のアミノ酸配列」とよく似ている「立体構造がきちんと決定されている（推定ではない）タンパク質のアミノ酸配列」をデータベースの中から見つけて、それをもとに立体構造を推定する。

推定したスパイクタンパク質の受容体結合領域の立体構造は、X線結晶構造解析という手法で昔に得られていたSARSウイルスのものととてもよく似ていることが分かった。

組み換え位置解析。

ある生物に色々な種類のウイルスが同時に感染すると、感染した生物の中で、複数種類のウイルスのゲノム（設計図）が組み換わって、新たなウイルスが誕生することがある。まさに新型コロナウイルスがその一例であると思う。一番厄介なのが、「毒性は低いがヒトにも感染できるウイルス」と「毒性は高いがヒトには感染できないウイルス」のゲノム（設計図）が混じりあって、「毒性が高くて、ヒトにも感染できるウイルス」が誕生することである。

最後に新型コロナウイルスと別のコロナウイルスのスパイクタンパク質の遺伝子配列の類似度を塩基ごとに出している。具体的なアルゴリズムは知らないが、多分n番目の塩基±x塩基の領域が比較されて、その結果がn番目の塩基における類似度になるんじゃないかって思う。

解析の結果、新型コロナウイルスのスパイクタンパク質の遺伝子配列は、ほとんどコウモリ由来のコロナウイルスのものと同じような遺伝子配列なのだが、遺伝子配列の真ん中あたりは、ヒトのSARSウイルスの遺伝子配列に似ていることが分かったらしい。つまり、これから新型コロナウイルスのスパイクタンパク質の遺伝子配列は、コウモリ由来のコロナウイルスの遺伝子配列の真ん中あたりがヒトのSARSウイルスの遺伝子配列に組み換わった可能性がある。ちなみに、この遺伝子配列の真ん中あたりは、ちょうどスパイクタンパク質の受容体結合領域の部分に対応する。

コウモリ由来のコロナウイルスのスパイクタンパク質の遺伝子配列の真ん中がヒトのSARSウイルスのものに組み変わり、受容体結合領域がSARS由来のものになったので、ヒトの受容体に結合できるようになり、ヒトに感染できるようになったんだろう。