Ngram Viewerでくらべよう

さて、医療英語についていろいろしらべるうえでの情報ソースでどうしても紹介したものがあります。それは、Google Books Ngram Viewerです。これは、とても便利で、知っている人は知っているのですが、日本語版がまだないので、なかなか浸透していないようですね。

Googleは世界中のあらゆるものをデータ化(デジタル化)するというミッションにもとづいて事業をおこなっています。書籍も同様で、出版された書籍すべてのデジタル化をすすめています。そして、デジタル化された書籍は、出版年代ごとに整理されています。Ngram Viewerをつかうと、どのようなことばがどの年代にどの程度つかわれていたのかということが明らかになります。

こう説明しても、ピンとこないでしょう。それでは、cancer(がん)とtuberculosis(結核)ということばをつかって、Ngram Viewerで検索してみましょう。結果、このようなグラフをえることができました。1800年代の半ばから、1950年代の後半まで、tuberculosisということばが、cancerを上まわって、書籍にでてきたことがわかります。その後、登場頻度が逆転すると、1960年代以降は、その差が急速にひろがっていたことがわかります。あくまで、英語の書籍をもとにしたものでありますが、がんのほうが肺炎よりも今では登場頻度がはるかに高いということは実感覚としても「やっぱり」とおもうのではないでしょう。

Ngram Viewerは、単語だけでなく、単語列についても書籍への登場頻度をしらべ、比較することができます。一例をあげましょう。医療英語をまなぶ人からよく出る質問に、分泌腺の「松果体」はpineal glandなのか、pineal bodyなのか、どちらなのか、というものがあります。どちらも正解なのですが(松果体をあらわすことばには、ほかにもconariumとepiphysis cerebriがあります)、pineal glandとpineal bodyはどちらも人体図鑑とかによくでてきますし、pinealということばの後に「体」をあらわすbodyと「分泌腺」をあらわすglandがつづく2つのことばをみて、ことばと意味の食いちがいに頭をひねってしまうひとがおおいようです。ちなみにWikipediaの日本語版に載っている松果体の項目には、英語でpineal bodyというとでています。

さて、Ngram Viewerで松果体をあらわすことばをしらべてみましょう。結果はこちらです。いまでは、pineal glandが圧倒的におおくつかわれていることがわかります。ところが、1940~1960年くらいはpineal bodyの登場頻度もおおく、pineal glandとほぼおなじくらいだったことも結果はしめしています。これは、勝手な予想ですが、pineal bodyが比較的ひろくつかわれた時期に松果体ということばができたんじゃないでしょうか。

もう一つ、例をあげてみましょう。hay fever(花粉症)です。feverとなっているので、不定冠詞の「a」をつけるべきか、どうか、気になる人もいるでしょう。Googleで不定冠詞をつけて検索すると、日本語のウェブサイトがぞろぞろとでてきて、「花粉症です」は”I have a hay fever”っていうんだよと説明しています。

これをNgram Viewerで、不定冠詞をつけた表現とつけなかった表現で検索してみます。なんと、つけた表現はまったくでてきません。以前、「病名とか症状って可算名詞、それとも不可算名詞?」でもふれたとおり、病名であるhay feverは、単なるfeverとはあつかいがちがうんだということです。

こんな日本人が不得意な冠詞のあつかいなどもNgram Viewerをつかうとみえてきます。とても、便利ですので、つかってみてください。

Google検索でクオーテーションマークをつかう

自分が医療英語・医療通訳をまなび、それをこういったブログなどで発信していくなかで、なるべく情報ソースは明かしていきたいとかんがえています。まなびというものは、基本的に切磋琢磨することで積みかさなっていくものだとおもいます。ですので、自分もいろいろなことを他の方からまなびたいですし、自分のまなんだことや方法をつたえることで、他の方のまなびのお手伝いをできればとかんがえています。

とはいえ、いろいろとあちこち調べて、いろいろとメモ書きをした自分のノートをみていると「あれっ、これどこでみつけたんだっけ?」とおもうことがすくなくありません。たとえば、自分のノートに、こんなことが書かれていました。

「障害(disorder): 機能の混乱もしくは異常」

どこで、この定義をみつけたのか、まったくおぼえていません。

「Wikipediaだったかな」などとおもいながら、こんなときは、インターネット時代の情報ソースその1、Googleです。ググってみると、このページが引っかかりました。全然おぼえがありません。こまったものです。でも、ウェブページを読むと「障害(disorder)」とあり、その説明として、ズバリ「機能の混乱もしくは異常のこと」とあります。おぼえてないんですよね。同じ情報ソースをつかっているのか、それとも、ここが情報ソースだったのか。

ところで、こういった一文をしらべたいときは、クオーテーションマーク(”)をつかいましょうね。「機能の混乱もしくは異常」という文を一かたまりとしらべたいときは、こんな風にクオーテーションマークでかこむんです。しっている人はしっているのですが、しらない人もけっこういるようなので、情報ソースその2ということでおつたえします。

クオーテーションマークでかこむのと、かこまないのと、そのちがいはなにか、上の例にそって説明します。かこんだ場合は「機能の混乱もしくは異常」という文が一かたまりでのっているウェブページをさがしてくれるんです。かこまない場合は、「機能」とか「混乱」、「異常」なんて言葉が、バラバラに持っているウェブページも検索結果にでてくるんです。

日本語は助詞でくっついているんでわかりづらいかもしれませんね。英語でみてみましょう。たとえば、「development disorder」(発達障害)という言葉を検索してみます。Googleでクオーテーションマークでかこんで検索すると、「development disorder」という言葉のでているウェブページを探していることがわかります。一方、かこまないで検索をすると、developmentとdisorderの2つの言葉がバラバラにのっているウェブページも検索結果にでてきます。ですので、どうしても「development disorder」(発達障害)という言葉をしらべたければ、クオーテーションマークでかこむほうがべんりです。

しっている人にしてみれば、なんてことない話なんですけど、しらなかった方は便利ですから、ぜひおためしあれ。