Argonauta 1: 9-14 (1999)
書評 'Experiments in Ecology' A. J. Underwood
今回は、一昨年出版されたA. J. Underwoodの 'Experiments in Ecology' (Cambridge University Press, 1997)を紹介する。この本は、ANOVAを主に扱う生態学の教科書である。ANOVA (Analysis of variance, 分散分析)は、複数サンプル集団の内部と集団間の分散をもとに、集団相互の位置の差を検出する統計手法で、2集団の特別な場合が有名なt検定に相当する。海洋生態関係の論文にもよく出てくるので、私も以前から多少なじみはあった。しかし、それが母集団の正規分布性や等分散を仮定していること、またANOVAのバリエーションである2元配置分散分析(two-way ANOVA)や、入れ子型ANOVA(nested-ANOVA)に至っては、条件設定が複雑すぎて野外調査には向かないと思っていた。きわめて理想的に条件が整った時や、生理学など実験条件を人為的にコントロールできる場合には使えるだろうが、自分には関係なさそうだという程度の認識である。その、ANOVAに興味のない私が今回この本を読む気になったのは、海洋生態学の分野で現在最も引用率が高いとされる雑誌の一つに論文を投稿した際の、あるreviewerのコメントがきっかけである。イントロとして、まずそのいきさつから述べたい。
われわれの調査は、ある海岸の岩盤約4500・の範囲を8m×8mのコドラート約70に分割し、その中のすべての貝類種をリストアップしたものである。これを集計すると、出現全種の、岩盤上での分布が市松模様のようになって示される。これを毎年1回10年間行い、各種の分布変化をもとに貝類群集の経年変動傾向を論じた。これに対して4人のreviewerのうちの1人がrejectの判断を示し、いくつかの理由を書いてきたが、私が注目したのはその最初の2つである。
(1) It is pseudoreplicated, with only one site studied; the quadrats were not randomly selected; all the quadrats were contiguous and cover the whole
of the study area.
(2) The parametric statistics are not applicable given that the stations were not randomly selected.
つまり、全部見てしまってはだめだと言うのである。なぜならその結果すべてのコドラートはくっついて、pseudoreplication(replicateをとったよう見えるが、実際にはそうなっていない…
replicateは同等の条件のコドラートを複数設置すること)になり、1ヶ所で調べたにすぎなくなる。ランダムサンプリングではないから統計も使えない。ただし我々の論文ではparametricな検定はしていないのだが、きちんと読んでいなかったようだ。あとの2つのコメントも簡単というか、どちらかというとそっけないもので、どうやら海岸調査のイロハも知らない素人が、場ちがいなところに投稿してきたと思われたらしい。これに対して、次のように反論した。
'The purpose of our study is not to estimate the state of whole from limited number of samples, but to reveal what happened all over the study area. It is possible to select 20 or 30 quadrats randomly from our 69 quadrats and again estimate the state of 69 quadrats using statistical methods, but it seems meaningless.'
英語は少しおかしいかもしれないが、意味は通じているだろう。つまり、全部調べるのが良くないなら、調べた69のコドラートからランダムサンプリングをやって、もういっぺん全体を推定しなおしてみましょうか。でもそんなことしても意味ないでしょう、と言ったのである。これが相手を刺激したらしい。editorから再考を促された当該reviewerは、他のreviewerのコメントも参照して、そこに書かれた原稿の欠点、ミスをすべて並べた上、この論文の掲載はありえないと断言してきた。このあとさらにやりとりは続くが、それは今回の本題ではない。
このreviewerと、これから紹介する 'Experiments in Ecology' の著者A. J. Underwoodとの関係について、いくつか推測できる根拠はあるが、憶測を交えることになるのでここでは差し控える。しかしこの時のコメントの内容は、まさに本書の力説するところに沿ったものであることは以下で明らかになるだろう。他のreviewerの中にも、本書の中の文を引用してコメントしたり、'Underwood's new book' の引用はMUSTである、と述べる人もいて、この時の一連のやりとりは、欧米の海岸生態学においてこの本の影響が増大しつつある様をうかがわせるに十分だった。
ANOVAに興味のない私が、この本をここで取り上げる主な動機はここにある。今日我々が海岸生態の論文を書いて、いわゆる‘一流国際誌’に投稿すれば、Underwoodないしその主張に賛同する研究者のreviewを受けるのは必至の情勢であり、'Experiments in Ecology' の論旨を支持するか否かはともかく、この本の内容を踏まえないことには議論にならないであろう。私などは、自分の研究は‘実験’ではないからこの本は関係ないと思っているが、‘彼ら’はそう思っていない。何かの目的を持って観察を行えばそれは実験なのであり、当然その実験理論の適用を受けると考えている。まさに「振りかかる火の粉は払わねば」ならないのである。
以下、具体的な書評に入るが、はじめに全体的印象を述べると、この本はかなり読みづらい。大部であることもさることながら、文章に二重否定などの修辞的用法や、たぶんあらかじめ反論を予想したための付加的表現、( )
付きの記述が多く、文意をたどりにくいことがしばしばあった。統計理論の説明だけならSokal & Rohlfの、有名な 'Biometry'などのほうが、よほどすっきりしていて明快である。著者の価値観による「個人的見解」ががちりばめられているところも気になる。とりわけ、自らの主張に賛同しない者に対する感情的、嘲笑的表現(arrogant, ignorant, unprofessional, complacency, lemming-like…)は、教科書としては異例であろう。一方、この本が全体として論じていることは明快といえる。それは結局、科学とは実験することであり、生態学的研究のほとんどはANOVAに収斂するはずだということだと思われる。ではなぜそういうことになるのか、その論理構成を分析してみる。
本書における議論の流れを図に示した。生態学の研究は、従来の常識からは記載、比較(場所的、時間的)、実験の3者(もしくは3段階)に分かれると考えるのが自然である。しかし著者はこれを仮説検証を意図した活動とそうでないものに分け、Hurlbert (1984) にならって、仮説検証のための比較観察をmensulative experiment、検証のための操作的手段(狭義の実験)をmanipulative experiment呼んで、ともに 'experiment' に包含する。experiment以外のものは、イギリスの哲学者Francis Baconの名を借りた'Baconian' という言葉を用いて厳しく批判し、排除する(1章)。2章では帰無仮説や反証可能性など、仮説検証の理論的枠組みが述べられる。'experiment' にくくられた、比較観察、操作実験を実行する手段としては、サンプリングと統計しかないと力説し、parametricsの検定理論を論ずる(3−5章)。ここではnon-parametrics(順位化検定)についても少しふれられている。著者はそれを否定するわけではないが、non-parametricsがかつて考えられていたように制限のゆるい手法ではなく、parametricsに劣らぬきびしい前提を伴うことを述べ、検出力の高いparametricsを推奨している。第6章は、実例に基づく対応型t検定の説明である。ここで著者は、実際の野外実験では、実験区とコントロールだけでなく、実験に用いた操作が生物に及ぼす影響を調べるための 'procedural control' が必要なこと、また、生態現象に影響を与える要因は、場所的、時間的に変動し、多要因が同時進行するため、3群以上の比較になることが多いとし、2群比較は実際には適用範囲が狭く、結局ANOVAを用いることになると結論する。7章以下は、13章の回帰と共分散分析の説明を除いて、実例を用いたANOVAの具体的な説明に当てられている。その中で、ANOVA使用上の様々な制限、つまり母集団の正規分布性、等分散性、要因間の独立の配慮、危険率だけでなく検出力も定量化すべきこと、ランダムサンプリングとreplication、コントロールの設定は当然のこととして、しかも各集団内のreplicateの数が等しく(=balanced data)なければならないこと…などが述べられる。これら複雑で厳しい条件を満たすための対策についても論じられている。
本書の強みは、一般の統計の理論書とちがい、生態学の実例に基づいて書かれていることだろう。実際に研究を行ったとき、どのような批判を受けるか予想する上で参考になる。また、検出力の定量化やANOVAの適用条件をここまで徹底して検討した文献は、これまでなかったのではないか。実験や統計処理とはどういうものか、その理論的到達点を知り、自分が行う場合にあたっての覚悟を新たにするには好適な本である。私個人は、本書の中のType
I, II errorの整理(p88)、検出力の評価(p90)、U検定の制限条件(p131)、不等分散の場合の変換操作(p187)などが、知識を整理する意味で役立った。そういう細かい所の記述もていねいである。ただし、統計検定にあまりなじみのない読者は、わかりやすい統計理論の教科書を前もって読んでから本書を手にされることを勧める。
しかし、多様な生態学の研究をANOVA一点に収斂させようとすれば、どうしても無理が出る。それはまず、記載主義への批判に現れる。著者は 'Baconian'
とは、'once information is gathered, it will turn out to be useful for something'(p29)と考えている人たちであるとし、くり返し批判するが、強弁に近い。なぜそうした立場がありえないかを筋道立てて述べているわけではない。それだけではだめだということは、そういうことが全くあってはならないということを意味しない。著者は分類学では単なる記載がありうると認めているが(p21)、仮説検証を意図しない記載がのちに重要な役割を果たす例は、古生物学や生物地理学をはじめとして、生物学の様々な分野に及んでいる。
仮説の検証が、必然的にサンプリングと推測統計につながるという主張にも無理がある。著者はそのために、森の中の木の葉を全部調べることはできないという例をあげるが(p30)、「すべて見る」ことができる例は、案外多いものである。基本的に言えば、推測統計はすべて見ることができない時に用いる次善の策である。しかし統計を専門に扱う人々は次第にこれを絶対視し、手段は目的にすりかわって、本来無関係な分野にまでその前提条件を当てはめようとするかもしれない。ここから、先のreviewer氏の「全部見てしまうと統計が使えなくなるからだめ」という批判までは、あと一歩にすぎない。統計には統計の利点があり、より少ない労力で広い範囲に起こっていることを、信頼限界つきで表示できる。全部見るのは正確だが、労力的に調査範囲が限られ、また調査精度が落ちる場合もある。相互の長所と短所を補い合って使い分けるところから、多様な成果が生まれてくる。
このことに関連するが、この本では調査区のスケールの問題が扱われていない。調査範囲のサイズのちがいによる結果の変化を検討する手法についてはnested-ANOVAのところ(p275)で述べられているが、基本的には50cm×50cmでも、10m×10mでも1つは1つという扱いである。単純に言えば、50cm×50cm3つはよいが、10m×10m1つはだめということになる。では、その50cm×50cmのコドラートが、10m×10mの中に含まれていたらどういうことになるだろうか。この論法をつきつめると、前者のほうが後者より客観的で正しいという結論が導かれる。先に記した、我々の論文に対するreviewerの考え方がこれなのである。思うに、小さいコドラートでもランダムに設定すれば、そのまわりのぼんやりとした範囲の状態を客観的に推定できるという感覚が快いのだろう。そのため、狭い範囲内でも複数設定してあれば満足し、大きなコドラートでも、1つでは不安になって複数設定するように要求する。同じ面積ならコドラートは多い方が情報が増えるのは確かだが、問題は調査者が何を調べようとしているかということである。単純に1つより3つがよいという話ではない。
著者Underwoodは、研究過程での主観の混入を徹底して排除する。有意水準ばかりでなく、検出力も定量化すべきと説くのはその一環である。別のところでは、こういう可能性もあるのではないか、と批判された研究者が、経験的に言ってそれは些細なことにすぎない、と反論するようなケースについて、わかっているならそもそもはじめから研究する必要はないと一蹴している(p133)。しかし、主観を全く排除して研究は成り立たない。そもそも仮説検証の出発点において、他の仮説でなくある仮説を選択する基準は何なのか。著者はこれを重要な問題であると認めつつ、この本のテーマではないとして議論を避けているが(p11)、それは結局、経験から来る主観でしかないはずである。だから何でも主観でやってよいとは言わないが、どの程度主観に依存するかにはいろいろな判断がありうるのであって、著者の引いた線の位置が絶対であるという保証はない。「この程度に客観的でなければ認められない」という判断自体が著者の主観である。
この本で用いられている論法は、程度問題の二者択一へのすりかえ、極論による対立意見全体の否定など、首をひねるところがいくつかある。しかしそれは、自分の意見を強く主張しようとする場合にはありうることで、一つのレトリックとして受け取るべきだろう。ただ、予備知識のない場合は本当にそれがすべてであるかのように錯覚し、不本意に著者の論法に巻き込まれる恐れがある。先の、木の葉の例から推測統計を導く例がそれにあたる。あるいは、季節変化を見るのに各季節1回づつの調査では不正確であると説明する際、具体的な動物名を記さずにコドラート内の個体数が日々激しく変動する例をあげ(p281)、nested-ANOVAの必要性へ話を進める。確かにそういう場合もあるが、フジツボなどなら、定着期を除けば個体数変動がそれほど激しくないから、もっと粗い調査が許される場合もあろう。また、気になるなら毎日数えてしまえばよく、nested-ANOVAの出る幕はない。
この本で主張されている実験手法は、著者自身がくり返し述べるように、たいへんきびしく労力のかかるものであって、有り体に言えばほとんど実行不能である。具体例について、本書を引用しながら述べよう。ある日本中部太平洋岸の岩礁で、巻貝の1種の行動が、波当りのちがいによって影響されるかどうかを調べることにした。そこで、波あたりの強いexposeされた場所と、波から保護(shelter)されたところ各1地点に、幅50cmのベルトトランゼクトを海岸線に垂直に設定し、その中を10cmきざみの水平の帯状区に分けて、各帯の中の個体数を毎日記録した。同時に、波の到達高度を知るための装置をトランゼクトの横に設定して、潮位や波浪の高さも知ることができるようにした。その結果、exposeされた所では波の高さに規制された動きが見られ、shelterされた所では大潮−小潮の潮汐サイクルに連動した垂直的な動きが観察された。従って、前者では波、後者では潮汐が、本種の垂直移動に影響を与えていると推定した。――これは本書的基準で言えば、お話にならないずさんな研究である。まず、この貝の横方向の動きが考慮されていない。たとえばshelterされた所では、小潮時に下の方に、大潮時に上の方に、横から貝が移動してきて見かけの上下動が起こったとも考えられる。経験によればそれぞれの場所で幅広く平行した上下動が見られるから、どこにトランゼクトを設けても同じだ、と反論するなら、そもそも研究などやる必要がないことになる(p133)。従って、ベルトを何本か密着させたコドラートを設けると同時にマーキングも行って、横方向の動きもモニターする必要があろう。もちろん、このままではコドラートが密着してpseudoreplicationであり(p245)、1ヶ所で調べたにすぎないから、調査区は、exposed、sheltered両地点に複数(最低3ヶ所ずつ?)設置することが必須である。マーキングによる貝の行動への影響を調べるためにprocedural control(p134)を設定することになるから、調査区の数はさらに増える。波以外の影響もあるかもしれない(confound influences, p104)。風や雨の当り方、付着藻類の生え方など、付随する要因を相殺するために、exposed観察区、sheltered観察区、それらのprocedural control区を、相互散在するように設定することになる(12章)。しかしそのような理想的な設定を許す地形が、どこかに存在するだろうか? 調査区の数は合計9にはなり、これを一人で干潮時に見るのは時間的に無理だが、信頼度の低い調査ならやらない方がまし(p127)と言われてしまっては、人数を頼んででもやらねばなるまい。そしてこうした努力は、いったん始めたからには死ぬまで(p19)続けないといけないらしい。いくら苦しくても「成功すれば地位と名声は思いのまま」(p8, 91)と夢見ながら…。
私なら、初めの1本ずつのトランゼクトで結果が出た段階でやめる。求められれば論文の中に、それぞれの場所では広く同じような動きが見られ、その中の調べやすい地点を選んだ、ぐらいのことは書くが、それを疑う人を説得しようとも思わない。他の要因もあるかもしれないが、「本研究は波と潮汐がこの貝の行動に影響している可能性を示す」とまとめておけば十分だろう。気になる人がいれば、その人が厳密にやり直せばよいのである。地位と名声はいらない。
ここにあげた例の出発点のデータは、本書流に言えば 'mensulative experiment’(私は単純にcomparison, comparative observationの方を好む)なので、そこでやめても、少なくともその地点ではそうでした、という結果だけは残る。しかし操作的な実験(manupulative experiment)は危うい。アリの一穴から実験体系全体が瓦解する危険が常にあり、そうなれば後に残るのはコントロールの方の観察結果だけということにもなりかねない。'all
or nothing' に近いのである。私がこれまで、自分の研究で実験的手法を避けてきた理由の一つはそこにある。まして、本書のような主張が現れて厳密主義が徹底されれば、あえて実験生態学に力を注ごうとする研究者が今後出てくるかどうか。著者が昨今の生態学の実験的手法のずさんさを嘆き(Hurbert [1984] によると、潮間帯と哺乳類は実験計画が最もいいかげんな分野らしい)、より着実な生態学の進歩のためにこの本を著したことは疑わないが、その意に反して、この本は事実上、実験生態学への死刑宣告になる可能性を秘めている。
目的にそぐわない調査計画や結果の不等な拡大解釈は排除されねばならないし、こうした面での研究者の鍛錬は常に必要である。しかし一方、研究成果においては様々な信頼度が認められてよい。より正しいもののみが正しく、より正しくないものは何の価値もないという考え方は妥当でない。出した結果がどの程度の信頼度なのかを明示することは必要だが、必ず有意水準や検出力のような形で数値化できるとも限らない。そこに一般的な常識や主観が援用されてもよいと考える。ANOVAは近代生態学の一つの理論的到達点だが、それのみで自然を見れば、ANOVAでわかることしかわからなくなるだろう。厳密な実験計画によらずとも理論が発展してきた例は、ダーウィン・ウォレスの進化論をはじめ生物学の歴史の中に満ちている。今までそうだったし、これからもそうであるはずである。
(C) Kansai Marine Biological Seminar Series. All rights reserved.