最近学んだ統計についてまとめます。
記述統計と推測統計について
統計学とは
不確実性や多様性を伴ったデータから、何かしらの傾向や法則性を見出し、合理的な推論を行う学問
記述統計descriptive statistics
データを視覚化
体系づけてまとめる。以下の4点に注意する。
視覚化:棒グラフ、ヒストグラム、箱ひげ図、バブルチャートなど
要約統計量:中心(平均値、中央値、最頻値)
広がり(範囲、四分偏差、分散、標準偏差)
ひずみ、ゆがみ
データの種類を見極める
データの種類とは
名目データ:グループや属性を表す。値の大きさに意味はない。
(性別でいえば0:男性、1:女性、など)
順序データ:グループ間に自然な順序。しかし、値の大きさには意味がない。
(重症度 0:なし、1:軽度、2:中等症、3:重症、4:致死的)
順位データ:大きさに従って順位変換したデータ
(データ(3.5, 4, 2)を順位に変換→(2, 3, 1))
離散データ:順序と値に意味あり。中間値を取らない
(自動車事故の件数:月の件数が41.2件などという小数点を入れた数字では意味をなさなくなる)
連続データ:連続的に測定可能な(少数をとる)データ。値の大きさ、2データ間の距離に意味がある
(体重 A:72.3kg, B:61.5kg, C:100.1kg)
データの集計を行う
【表にまとめる】
名目データや順序データ→頻度分布、相対頻度、累積相対頻度
離散データや連続データ→区間ごとにグループ化
(ただし、グループ化個々のグループは臨床的に意味のあるグループとする:作り方がおかしいと分布の様相が変わる)
【グラフにまとめる】
名目データ・順序データ→棒グラフなど
横軸:グループや属性
縦軸:観測値の頻度、相対頻度
離散データ・連続データ→ヒストグラムなど
横軸:区間を区別する値
縦軸:区間に入る頻度、相対頻度
データの分布に対する把握
単峰性:分布が一山か→複峰性の場合にはいくつか異質なグループが混在している状況である
(例:小学生の身長と大学生の身長の集計結果)
歪み:中心に対して左右対象か→正規分布を基本とするため、右に歪む場合は右に裾を引き、左に歪む場合は左に裾を引く
中心の位置はどこか:平均値。データの分布が対象なら良いが、そうでない場合は中央値。最近はLancetなどにおいても平均を採用しない。平均値は外れ値の影響を受けやすい。
*中央値とは:データの50%点。奇数個の場合:(n+1)/2番目のデータ、偶数個の場合:n/2とn/2+1番目のデータの平均
最頻値:頻度が最も高い観測値
広がり・バラツキ↓
標本分散:データ値と平均の距離の平方和をデータ数-1で割った値
*平均±分散はなにがおかしいか?:分散は2乗しているので単位が二乗される。
(例:2.5cm±4cm2)
よって分散をそのまま用いることはできず平方根をとる必要がある
標本標準偏差standard deviation:標本分散の平方根
相対的に大きさを比較
大きな値はばらつきが大きいこと、データが広範に分布することを意味する。
平均値と同様に外れ値の影響を受けやすい。
よってより用いられやすいのが
四分位数
25%点:第1四分位値
50%点:第2四分位値(中央値):Lancet oncologyはこちらを求める
75%点:第3四分位値
q分位数:(1-q+qn)番目のデータ。この値が自然数でない場合は内分点
ヒンジ:四分位数の簡単な算出方法
下側ヒンジは中央値以下のデータの中央値
上側ヒンジは中央値以上のデータの中央値
範囲:最大値-最小値(外れ値の影響を受けやすい)
四分範囲:75%点-25%点(50%のデータ含まれる範囲)
箱ひげ図生成の際の外れ値の定義
第1四分位値から第3四分位値の範囲(距離)をIQR(Inter quantile range)という。
それぞれ上下において第1四分位値からIQR*1.5の距離、第3四分位値からIQR*1.5の距離を取り(箱ひげ図のひげにあたる)、
それを超えたデータを外れ値として扱う。
最後にひげ内における末端データまでひげを縮める。
推測統計
点推定:未知母数の値を確からしく点で推定する
区間推定:バラツキを考慮し、未知母数を含むと思われる区間を推定(ある値±α)
仮説検定:偶然な事象か?未知母数が興味のある集合に含まれるか?否かを判定(decision makingをするためのもの)
統計的仮説検定の種類
Fisher流検定:帰納的推論(良い/悪いを結論づけられない方法)
・P値をデータ解析の結果を「報告」するときのモノサシとし、対象とする疾患や症例数などを吟味して総合的に「判断」する。
・数学的に不完全
Neyman-Pearson流の仮説検定:意思決定・演繹的推論(日本で多い)
・事前に定めれた有意水準より決定される棄却限界値と結果を比較して、仮説を棄却するか採択するかを意思決定する。
・制約付き最小化問題として定式化。数学的に確立した方法。
・信頼区間の構成法と表裏一体。サンプルサイズ設計の基礎。
・現在の医・歯・薬学系における基礎教育
検定前に行うこととしての「背理法」
ある事柄Aを証明したい場合に、
1、Aを否定した仮説Bを立てる
2、Bでは矛盾が起きる
3、Aが正しいと結論づける
検定の基礎概念
①帰無仮説と対立仮説
実験の目的の明確化:仮説の検定
・「実役がプラセボより血圧を降下させるか否か」を確かめること。
対立仮説(alternative hypothesis)Ha:研究者が検証した仮説(研究者が示したいこと)
帰無仮説(null hypothesis)Ho:対立仮説を否定した作業仮説(偽と仮定するほう)
片側の仮説とは
対立仮説:実薬はプラセボより血圧を降下させる(P-A>0)(下がる方にしか興味がない)
帰無仮説:実薬はプラセボより血圧を降下させるとはいえない(P-A≦0)
両側の仮説とは
対立仮説:実薬はプラセボと異なる(P-A≠0)
帰無仮説:実薬はプラセボと異なるとはいえない(P-A=0)
②棄却限界値と判断
有意水準(significant level) αを定める。
経験的に5%に設定することが多い。理論的根拠なし。
帰無仮説が真と仮定して、棄却限界値(critical value)を求める。
棄却限界値<実現値
・帰無仮説が真なあrば非常に稀
・統計学的に有意な違いあり。帰無仮説を棄却。対立仮説を受容。
・実薬はプラセボより血圧を降下させる。
棄却限界値>実現値
・帰無仮説が真ならばしばしば起こる
・帰無仮説を消極的に受容
・実薬はプラセボより血圧を降下させるとはいえない。
③p値と判断
p値:帰無仮説が真と仮定したときに、実験結果より極端な事象が起こる確率
p値<0.05:棄却限界値<実現値
p値>0.05:棄却限界値>実現値
*極端とはどういった場合か?
帰無仮説と実験結果の乖離が大きい場合、またはバラツキが小さい場合
検定統計量とは(t検定の統計量)
Z=(Xの平均-μ) / σ/√n
X:平均値 μ:帰無仮説の値
上段(Xの平均-μ)が帰無仮説と実験結果(対立仮説)の平均の乖離度合いの指標であり、ここが大きいとZは大きくなる
下段が(σ/√n)のσ(ばらつき)が小さければ、Zは大きな値となる。
ちなみに…有界な分散をもつならば、データ数nを十分に大きくすると、Zの分布は標準正規分布に近づく(中心極限定理)
④p値の解釈
p値は、帰無仮説などの様々な仮定が正しい時に、実際に得られた実験結果より極端な結果が得られる可能性を表現したもの。
→帰無仮説が起こりにくいという根拠の強さを表現した値
つまり、p値が小さいからといって、期待される薬効差があることを示しているわけではない。
練習問題1
【母分散既知の片側検定】
対象:高濃度の鉛に暴露された6歳以下の子供
評価項目:ヘモグロビン値
一般の6歳以下の子供の母平均:12.29mg/100mL
研究の目的:高濃度の鉛に暴露された子供のヘモグロビン値は、一般の子供と比べて平均値に低値になるか?
Step1:帰無仮説と対立仮説の設定
対立仮説:μ<12.29
帰無仮説:μ≧12.29
Step2:74例を対象に調査
標本平均:10.6mg/100mL
母標準偏差(既知):0.85mg/100mL
Step3:検定統計量の計算
Z=(Xの平均-μ) / σ/√n=(10.6-12.29)/0.85/√74=-17.1
*帰無仮説が正しかったら分子は0に近い値がでてくる
Step4:p値の算出
pr(Z<-17.1)<0.001
*Zが低いということは帰無仮説から乖離しているということ
Step5:結果の解釈
帰無仮説の下では起こりえない稀な結果
高濃度の鉛に暴露された6歳以下の子供のヘモグロビン値の平均は、一般の子供の平均12.29と比べて低いことが示唆された(p<0.001)
練習問題2
【母分散既知の両側検定】
対象:喫煙習慣のある高血圧症男性
評価項目:血清コレステロール(TC)値
一般男性の母平均:211mg/100mL
研究の目的:喫煙習慣のある高血圧症男性のTC値は一般男性と異なるか?
Step1:帰無仮説と対立仮説の設定
対立仮説:μ≠211
帰無仮説:μ=211
Step2:12例を対象に調査
標本平均:217mg/100mL
母標準偏差(既知):46mg/100mL
Step3:検定統計量の計算
Z=(Xの平均-μ) / σ/√n=(217-211)/46/√12=0.45
Step4:p値の算出
pr(|Z|≧0.45)=Pu+PL=2*0.326=0.652
Step5:結果の解釈
喫煙習慣のある高血圧症男性のTC値の平均は、一般男性の平均と異なるとはいえない(P=0.652)。
*ここで同じだとはいえないことに注意
区間推定について
区間推定とは
・ある信頼の程度を伴って、興味のある母数を含むと考えれる区間を推定
・信頼係数と信頼区間の定義
Pr ( L(X) ≦μ≦ U(X) ) ≧ 1-α
という性質をもつ区間を、信頼係数1-αの信頼区間という。
・信頼区間:confidence interval(CIと略すことがある)
・信頼係数:confidence coefficient
・しばしば、信頼係数を95%とした、95%CIが用いられる。
信頼区間を構成することを、区間推定interval estimationという。
実際には、区間(X-α, X+α)で母平均μを覆うことができるか?
・αの値を大きく→高頻度でμを被覆する
・αの値を小さく→低頻度でμを被覆する
うまいこと、Pr ( X-α ≦μ≦ X+α ) ≧ 0.95
となるように、αの値を決定する。
この「0.95」は確信度とも言われ、含むか含まないかの0か1かである。
「95%の確率で含む」は誤りである。
100回のうち95回は真の値を含むという解釈が正しい。
信頼係数95%の信頼区間と有意水準5%の仮説検定
区間推定は、応用上は点推定を補う形で用いられるが、Neyman-pearson流の仮説検定論と表裏一体をなすもの。
・帰無仮説が棄却される⇔信頼区間が帰無仮説の値を被覆しない
・帰無仮説が受容される⇔信頼区間が帰無仮説の値を被覆する
例:喫煙習慣のある高血圧症男性のTC値の調査
帰無仮説:μ=211 vs. 対立仮説:μ=211
P値=0.652
喫煙習慣のある高血圧症男性のTC値は、一般男性のTC値の平均211mg/100mLと異なるとは言えない
95%信頼区間は(192, 243)であり、一般男性のTC値の平均211を含む。
仮説検定の乱用とASA声明
Neyman-pearson流検定とp値の妥当性
Neyman-pearson流の仮説検定が妥当な状況
・「医学的に意味のある違い」とみなせる主要評価小目の差δを定める
・有意水準5%, 検出力80%で差δを検出するための症例数を算定する
・無作為化(単群の場合いは無作為抽出、2群の場合には無作為抽出および無作為割付)を行う
・両群の成績からp値を算出
・p値≦0.05のとき、有意水準5%で効果あり、そうでないときは効果ありとはいえないと判定する
症例数設定をせずに、あらかじめ設定した有意水準を適用して機械的に判定するNeyman-pearson流検定は不適切である。
すなわち、多くの臨床研究では、推定の方が重要である。
統計学的有意性とp値に関するASA声明
・p値はデータと特定の統計モデルが矛盾する程度を示す指標
・p値は調べている仮説が正しい確率や、データが偶然のみで得られた確率を図るものではない
・科学的な結論や、ビジネス、政策における決定は、p値がある値をこえたかどうかにのみ基づくべきではない
・適正な推測のためには、全てを報告する透明性が必要
・p値や統計的有意性は、効果の大きさや結果の重要性を意味しない
・p値は、それだけでは統計モデルや仮説に関するエビデンスのよい指標にはならない
終わり