工場用語辞典
散布図 【よみ】 さんぷず 【英語】 Scatter plot
布図(さんぷず、Scatter plot)とは、二つの異なる量的データの関係性を視覚的に表現するために用いられるグラフです。横軸(通常はx軸)と縦軸(通常はy軸)を取り、それぞれのデータの値を座標として平面上に点をプロットすることで、二つの変数間にどのような関連性があるのか、あるいは関連性がないのかを直感的に把握することができます。ビジネス、科学、統計学など、幅広い分野でデータ分析の基礎的なツールとして活用されています。
1. 散布図の基本的な要素と読み方
散布図は、シンプルな構成ながら多くの情報を読み取ることができます。その基本的な要素と、そこからどのような情報を読み取ることができるのかを解説します。
- 1.1 散布図の構成要素:
- 横軸(x軸)と縦軸(y軸): それぞれ異なる量的データを表します。軸には適切な単位と目盛りが振られます。どちらの変数をどちらの軸に取るかは、分析の目的や慣例によって決まりますが、原因と考えられる変数を横軸に、結果と考えられる変数を縦軸に取ることが一般的です。
- データ点(プロット): 一つのデータにおける二つの変数の値を座標として平面上に描かれた点です。それぞれの点の位置が、そのデータの持つ二つの値の組み合わせを示しています。
- タイトルと軸ラベル: グラフ全体の目的や、各軸が何を表しているのかを明確にするために記述されます。
- 凡例(必要に応じて): データ点を異なる色や記号で区別した場合、それぞれの意味を示すために凡例が用いられます。
- 1.2 散布図から読み取れる情報: 散布図にプロットされた点の分布を見ることで、二つの変数の間に以下のような関係性があるかどうかを推測できます。
- 正の相関: 一方の変数の値が増加するにつれて、もう一方の変数の値も増加する傾向がある場合、点は右上がりの分布を示します。
- 負の相関: 一方の変数の値が増加するにつれて、もう一方の変数の値が減少する傾向がある場合、点は右下がりの分布を示します。
- 相関なし: 二つの変数の間に明確な関係性が見られない場合、点は全体にランダムに分布します。
- 強い相関と弱い相関: 点が直線に近いほど相関は強く、ばらつきが大きいほど相関は弱いと判断できます。
- 非線形の相関: 点の分布が直線的ではなく、曲線的なパターンを示す場合、非線形の相関が存在する可能性があります(例:二次関数的な関係)。
- 外れ値: 他の点から大きく離れた位置にプロットされた点は、異常値(外れ値)である可能性があります。外れ値は、データの入力ミスや特殊な状況を示唆している場合があります。
- クラスタリング: 点がいくつかのグループにまとまって分布している場合、データが何らかの要因によってグループ化されている可能性を示唆しています。
2. 散布図の活用例
散布図は、様々な分野でデータの関係性を理解し、分析を進めるための強力なツールとして活用されています。
- 2.1 ビジネス分野:
- 広告費と売上の関係: 広告費の増加が売上にどのように影響するかを分析する。
- 従業員の残業時間と生産性の関係: 残業時間の長さが生産性に与える影響を評価する。
- 顧客満足度とリピート率の関係: 顧客満足度の高さがリピート率にどのように繋がるかを調べる。
- 株価と取引量の関係: 株価の変動と取引量の増減の関連性を分析する。
- 2.2 科学・研究分野:
- 気温と植物の成長の関係: 気温の変化が植物の成長速度に与える影響を調べる。
- 薬の投与量と効果の関係: 薬の投与量とそれによる効果の大きさを分析する。
- 物理実験における二つの変数の関係: 実験で測定された二つの物理量の間の関係性を検証する。
- 遺伝子発現量と疾患の関係: 特定の遺伝子の発現量と疾患の発症リスクの関連性を調べる。
- 2.3 社会科学分野:
- 教育年数と収入の関係: 教育を受けた年数が収入にどのように影響するかを分析する。
- 犯罪率と失業率の関係: 失業率の変動が犯罪率に与える影響を調べる。
- 投票率と年齢層の関係: 年齢層ごとの投票率の違いを分析する。
- 2.4 品質管理:
- 製品の特性値間の関係: 製品の二つの異なる品質特性値の間に相関があるかどうかを確認する。
- 製造条件と製品品質の関係: 製造時のパラメータと製品の品質との関連性を分析する。
3. 散布図を作成する際の注意点
効果的な散布図を作成し、誤った解釈を防ぐためには、いくつかの点に注意する必要があります。
- 適切な軸の選択と目盛り: 分析の目的に合った変数を軸に選び、データの範囲を適切に表現できる目盛りを設定することが重要です。目盛りの単位や間隔が不適切だと、データの分布や関係性を誤って認識する可能性があります。
- データの正確性: 散布図は元のデータの正確性に大きく依存します。誤ったデータを使用すると、誤った結論を導き出すことになります。データの入力ミスや欠損値の処理には注意が必要です。
- 第三の変数の考慮: 散布図は二つの変数の関係性しか示しません。実際には、第三の変数が両方の変数に影響を与え、見かけ上の相関関係を作り出している可能性(擬似相関)も考慮する必要があります。必要に応じて、色や記号などを使い、第三の変数を加味した表現を試みることも有効です。
- 相関関係と因果関係の混同: 散布図で相関関係が見られたとしても、それが必ずしも因果関係を意味するわけではありません。「AとBに相関がある」からといって、「AがBの原因である」あるいは「BがAの原因である」とは断定できません。
- 外れ値の扱い: 外れ値は重要な情報を含む可能性もありますが、他のデータの傾向を歪めてしまうこともあります。外れ値の原因を調査し、必要に応じて分析から除外したり、別途分析したりするなどの適切な対応が必要です。
- サンプルの偏り: 分析に使用するデータが特定の条件に偏っている場合、散布図から得られる結論も偏ったものになる可能性があります。データの代表性を考慮することが重要です。