PressWalker エミュイン合同会社統計ソフト Reactive stat の変数変換に、Box-Cox 変換と Yeo-Johnson 変換の機能を追加しました

統計ソフト Reactive stat の変数変換に、Box-Cox 変換と Yeo-Johnson 変換の機能を追加しました

システム・通信デジタル

Reactive stat は、ブラウザだけで使える無料統計ソフトです。信頼性の高い R で統計解析し、その結果を AI が解説します！

ブラウザだけで使える無料統計ソフト Reactive stat の変数変換に、Box-Cox 変換と Yeo-Johnson 変換の機能を追加しました。これらの手法は、非正規分布のデータを正規分布に近づけ、分散を安定化させる効果があります。

変数変換

変数変換機能は、データセット内の特定の列（カラム）の値を様々な方法で変換する強力なツールです。この機能により、ユーザーはデータ分析や可視化の前に、効果的なデータ前処理を行うことができます。適切な変数変換は、データの特性を改善し、統計的手法の適用を容易にし、結果の解釈を深めるための重要なステップです。

データの分布を理解することで、その本質的な意味をより明確に把握できます。データの性質と分析目的に応じて適切な変換を選択することが、信頼性の高い統計的分析を行う上での鍵となります。例えば、本質的に指数関数的な振る舞いが予想される数値（特定の腫瘍マーカーなど）に対しては、対数変換を事前に適用することで、より正確な解釈につながります。

このたびサポートいたしました Box-Cox 変換と Yeo-Johnson 変換 は、高度な変換処理を自動設定にて実行し、正規分布にできるだけ近づけることが可能ですから、応用範囲の広い手法です。

変数変換の適用により、以前は見過ごされていた有意差が明らかになり、より重要な結論が導き出されることがあります。逆に、元々有意差があったデータでも、正規分布に近づける変換を行った結果、有意差が消失する場合もあります。このような場合、結果の意義を慎重に再検討する必要があります。

変数変換の意義と必要性

統計処理において変数変換は重要な役割を果たし、特にデータの分布形状や統計的手法の前提条件に深く関連しています。

正規分布への調整

多くの統計的手法は、データが正規分布（ガウス分布）に従っていることを前提としています。しかし、実際のデータはしばしば非正規分布を示します。変数変換（例：対数変換、平方根変換、Box-Cox変換）を適用することで、データを正規分布に近似させることが可能な場合があります。これにより、線形回帰、ANOVA（分散分析）などの統計手法をより効果的に適用できます。

正規分布への近似ができない場合

データが正規分布に従わない場合や、変数変換による正規分布への近似が適切でない場合、ノンパラメトリック（非パラメトリック）手法が適用されます。これらの手法はデータの分布形状に依存せず、順位や中央値などの要約統計を利用します。このような場合でも、変数変換を行うことでデータの構造をより明確にし、ノンパラメトリック手法の解釈を容易にすることができます。

データのスケーリングと正規化

正規化（値を0から1の範囲にスケーリング）や標準化（平均0、標準偏差1にスケーリング）といった変数変換は、異なるスケールの変数を持つデータセットを同一グラフ上に表示する場合や、機械学習モデルの入力データとして使用する際に特に重要です。これらの変換により、特徴のスケールがモデルの性能に与える影響を軽減し、より公平な比較や分析が可能になります。

外れ値の影響の軽減

特定の変数変換は、データ内の外れ値の影響を軽減するのに役立ちます。例えば、対数変換はデータの範囲を縮小し、極端な値の影響を減少させることができます。これにより、データセット全体の傾向をより明確に把握することが可能になります。

変数変換機能の使用方法

元データの列 (カラム) 選択

ページの上部にある「元データの列」のセクションから、変換したいデータの列を選択できます。
列の一覧はドロップダウンメニューで表示されます。
をクリックすると、選択された列のプレビューが可能です。

変換設定

「変換設定」セクションでは、適用したい変換関数を選択できます。利用可能な変換とその特徴は以下のとおりです：

対数変換: 指数的な変化を線形に変換します。極端な値や偏りを緩和し、指数関数的な成長や減少を示すデータに特に有効です。
自然対数変換: 底がeの対数変換で、連続的な成長率のモデル化に適しています。
平方根変換: 外れ値の影響を減らし、データセットの分散を緩和します。カウントデータや比率スケールデータに有効です。
絶対値変換: 負の数値を除去し、データの解釈を容易にします。
2乗変換: データポイント間の違いを強調し、小さい値と大きい値の差を拡大します。
逆数変換: 大きな数値データの影響を緩和し、データセットのばらつきを均一にします。
標準化: 平均が0で標準偏差が1のデータセットを生成します。異なる尺度のデータを比較する際に有用です。
正規化: 値の範囲を0から1の間に変換します。異なる尺度のデータの比較に適しています。
平均値調整: データの平均値を0に調整し、中心位置を標準化します。
分散調整: データセットの標準偏差で除算し、分散を1に調整します。
Box-Cox変換: 正の値のみを含む非正規分布データを正規分布に近づけます。環境データや製品寿命データなどに適しています。
Yeo-Johnson変換: Box-Cox変換の拡張で、負の値を含むデータセットにも適用可能です。金融リターンデータや気温変化データなどに有効です。
時間単位の変換: 時間関連データの単位を変更します。秒・分・時・日・週・月・年の間で変換が可能です。

空白と数値以外の文字列の処理

空白および数値以外の文字列（数値として認識できない文字列）の処理方法を設定できます：

事前に変換しない: 元の文字列をそのまま新しいカラムに代入します。
数値の 0 に事前に変換する: 数値の 0 に変換し、変数変換を適用します。
非数値を表す NaN に事前に変換する: 非数値を表す “NaN” に変換します。R の標準的な非数値表現に準拠しています。

計算結果プレビュー

変換結果のプレビューが表示されます。ヒストグラムと基礎的な統計量により、変換後のデータ分布の概要を即座に確認できます。この機能により、選択した変換手法の効果を視覚的に評価し、最適な変換方法を迅速に決定できます。

新しい列 (カラム) 名の設定と実行

新しい列 (カラム) 名 セクションで、変換結果を格納する新しいカラムの名前を設定します。
変換方法の選択時に自動的にカラム名が提案されますが、必要に応じて変更可能です。
既存のカラムに上書きすることはできません。

Box-Cox変換

Box-Cox変換とYeo-Johnson変換は、データの正規性を改善し、線形モデルの前提条件を満たすために使用される高度な統計的変換手法です。これらの手法は、非正規分布のデータを正規分布に近づけ、分散を安定化させる効果があります。

本ソフトウェアでは最適なλ値を自動的に選択します。これにより、ユーザーは複雑な計算を行うことなく、データに最適な変換を適用できます。

理論的背景

Box-Cox変換は、統計学者のGeorge Box と David Coxによって1964年に提案された手法です。この変換は、以下の数式で表されます:

ここで、Y は元のデータ、λ（ラムダ）は変換パラメータです。

適用条件

データは正の値のみを含む必要があります。
連続的な数値データに適しています。

利点

データの正規性を大幅に改善します。
分散の均一性（等分散性）を向上させます。
線形回帰モデルなどの統計手法の適用を容易にします。

Yeo-Johnson変換

理論的背景

Yeo-Johnson変換は、In-Kwon Yeo と Richard Johnsonによって2000年に提案された手法で、Box-Cox変換を拡張したものです。この変換の数式は以下の通りです:

適用条件

正の値と負の値の両方を含むデータに適用可能です。
連続的な数値データに適しています。

利点

Box-Cox変換の利点を全て含みます。
負の値を含むデータセットにも適用できるため、より汎用性が高いです。
ゼロや近似的にゼロの値を含むデータにも適用可能です。

Box-Cox変換とYeo-Johnson変換における変換パラメータ (λ) の選択

両変換手法において、最適なλ値の選択が重要です。本ソフトウェアでは、この最適なλ値を自動的に計算し選択します。

具体的には:

λ値は最尤法を用いて推定されます。
ソフトウェアは複数のλ値を試行し、データの対数尤度を最大化する値を選択します。

この自動選択により、ユーザーは手動でλ値を指定する必要がなく、常に最適な変換が適用されます。

λ値と一般的な変換の関係は以下のようになります:

自動選択されたλ値は、これらの特殊なケースに限らず、データに最適な任意の実数値となる可能性があります。

自動λ選択の利点

使いやすさ: ユーザーは複雑な統計的知識がなくても、最適な変換を適用できます。精度: 人間の判断による誤りを排除し、常に数学的に最適なλ値が選択されます。効率性: 多数のデータセットや変数に対して、迅速に最適な変換を適用できます。再現性: 自動選択により、異なるユーザー間で一貫した結果が得られます。