Ngram Viewerでくらべよう

さて、医療英語についていろいろしらべるうえでの情報ソースでどうしても紹介したものがあります。それは、Google Books Ngram Viewerです。これは、とても便利で、知っている人は知っているのですが、日本語版がまだないので、なかなか浸透していないようですね。

Googleは世界中のあらゆるものをデータ化(デジタル化)するというミッションにもとづいて事業をおこなっています。書籍も同様で、出版された書籍すべてのデジタル化をすすめています。そして、デジタル化された書籍は、出版年代ごとに整理されています。Ngram Viewerをつかうと、どのようなことばがどの年代にどの程度つかわれていたのかということが明らかになります。

こう説明しても、ピンとこないでしょう。それでは、cancer(がん)とtuberculosis(結核)ということばをつかって、Ngram Viewerで検索してみましょう。結果、このようなグラフをえることができました。1800年代の半ばから、1950年代の後半まで、tuberculosisということばが、cancerを上まわって、書籍にでてきたことがわかります。その後、登場頻度が逆転すると、1960年代以降は、その差が急速にひろがっていたことがわかります。あくまで、英語の書籍をもとにしたものでありますが、がんのほうが肺炎よりも今では登場頻度がはるかに高いということは実感覚としても「やっぱり」とおもうのではないでしょう。

Ngram Viewerは、単語だけでなく、単語列についても書籍への登場頻度をしらべ、比較することができます。一例をあげましょう。医療英語をまなぶ人からよく出る質問に、分泌腺の「松果体」はpineal glandなのか、pineal bodyなのか、どちらなのか、というものがあります。どちらも正解なのですが(松果体をあらわすことばには、ほかにもconariumとepiphysis cerebriがあります)、pineal glandとpineal bodyはどちらも人体図鑑とかによくでてきますし、pinealということばの後に「体」をあらわすbodyと「分泌腺」をあらわすglandがつづく2つのことばをみて、ことばと意味の食いちがいに頭をひねってしまうひとがおおいようです。ちなみにWikipediaの日本語版に載っている松果体の項目には、英語でpineal bodyというとでています。

さて、Ngram Viewerで松果体をあらわすことばをしらべてみましょう。結果はこちらです。いまでは、pineal glandが圧倒的におおくつかわれていることがわかります。ところが、1940~1960年くらいはpineal bodyの登場頻度もおおく、pineal glandとほぼおなじくらいだったことも結果はしめしています。これは、勝手な予想ですが、pineal bodyが比較的ひろくつかわれた時期に松果体ということばができたんじゃないでしょうか。

もう一つ、例をあげてみましょう。hay fever(花粉症)です。feverとなっているので、不定冠詞の「a」をつけるべきか、どうか、気になる人もいるでしょう。Googleで不定冠詞をつけて検索すると、日本語のウェブサイトがぞろぞろとでてきて、「花粉症です」は”I have a hay fever”っていうんだよと説明しています。

これをNgram Viewerで、不定冠詞をつけた表現とつけなかった表現で検索してみます。なんと、つけた表現はまったくでてきません。以前、「病名とか症状って可算名詞、それとも不可算名詞?」でもふれたとおり、病名であるhay feverは、単なるfeverとはあつかいがちがうんだということです。

こんな日本人が不得意な冠詞のあつかいなどもNgram Viewerをつかうとみえてきます。とても、便利ですので、つかってみてください。