こちらは単元のポイントなどをまとめた記事になります。
データの分析の特徴
データの分析では数値に意味を持たせています。
数学の中に位置するものの、数学を利用しているという点で物理等のイメージが近いかもしれません。
また当単元はセンター試験などで必答問題として出題されています。
用語と数式さえ覚えれば比較的得点しやすいと思います。
模試の度に復習して覚えることもできてしまうでしょうから「簡単だし良いや」と蔑ろにはしないでほしいと思います。
何がうれしいのか
特徴のとおり、数学を利用しているものですから、より生活には近い分野になります。
データにどのような傾向があるかを客観的に分析する際に有効でしょう。
「数学ってこうやって使える(使われる)んだ」という数学が便利なものということも学べるかもしれません。
中央値と四分位数
すべてのデータの値を小さい順に並べたとき、中央の順位に来る値を中央値と言います。
中央値はデータの個数が偶数で2n個の場合、n番目とn+1番目の平均を中央値とすることがポイントになります。
データにはない値をその値とすることがあるという点がポイントです。
更に四分位数というものは4つに区切るわけですが、中央値同様に存在しない場合はデータにはない値をとるという点がポイントになります。
箱ひげ図
まずは最小値、最大値、四分位数で区切られているという定義はパッと見てわかると良いですね。
更に、どのあたりにデータが集中しているのかというのも見てイメ-ジできるようになると良いです。
分散と標準偏差
データがどれくらい散らばっているかを表す事を考えて生まれた数式に着けられた用語と理解しています。
データがすべて平均値位だと小さい値に、平均値とはかけ離れた値ばかりだと大きい値になるためには、平均値からの差をとればよいですよね。
でも上回っているものと、下回っているものを、差として等しく評価したいですよね。
絶対値をとるか二乗をとれば良いですね。
平均値で考えたものもあるのですが、二乗の方が高校数学として採用されているようですね。
二乗の方が離れたデータをより重み付けできるのでバラバラ度合いとして都合も良く、「色々便利」だから高校生の数学として相応しいからだと思います。
数式
分散:
標準偏差:
意味が分かると数式も覚えやすいのではないかなと思います。
データの相関と相関係数
1つの種類のデータ(例えば「体重」)だけを扱うと「バラバラ具合」位の性質に留まってしまいます。
しかし複数の種類のデータ(例えば「体重」と「身長」)があると、両者の関連性を調べたくなりますね?
両者の関係性として、一方が増えると一方が増えるような関係、もしくは一方が増えると一方が減るような関係が思いつきますね。
それを相関係数として数値化する方法を学びます。
が正のデータは正の相関があり、負のデータは負の相関があるという点を理解できると、共分散も数式を覚えやすいと思います。
ちなみに、一方が大きくなるほどもう一方がばらけやすくなる、みたいな性質も数式化できたりしますかね?
もちろん高校数学には出て来ないのですが、時間があれば検証してみたくなるテーマをぱっと思いついてしまいました。
計算が少し大変
分散、標準偏差、相関係数は少し計算が大変です。
センター試験等ではこの計算に時間を取られたくないですね。
まとめ
演習問題では正答率8割以上を目指したいところです。
分散と共分散の式の意味を理解すると数式を覚えやすいと思います。
また、長い時間を変える必要はないと思いますが、模試の際には簡単に復習しておくと良いと思います。