Chapter 6 データのハンドリング

6.1 データ

Rはデータ分析（統計解析）を行うのが主な機能
- それ以外も色々できるが…

6.1.1 データとは？

構造化データと非構造化データ
- 構造化：定義済みの形式に整理されている（行列で定義できる）
- 非構造化：形式化が難しい（テキストデータ、音声データなど）
- 半構造化データ：ある程度の構造は持つが、データベースのような形式になっていないもの（例：xml, json)
Rでは基本的に構造化データを扱う
- テキストデータなども扱えるが、授業では扱わない

6.1.2 データフレーム

Rでは基本的にデータをデータフレームという形で扱う
データフレームは行と列を持つ形式

6.1.3 行と列

行と列は方向が決まっている。横が行(row)、縦が列(column)である。

行と列の覚え方

6.1.4 きれいなデータ？

人間の見やすいデータ形式(表)とコンピュータが処理しやすいデータ形式は異なる。
同じ情報をもつデータフレームであっても、形式が異なるものがあることを理解しよう。
冒頭で出た武蔵大学経済学部の学生数のデータを見てみよう。

6.2 データの読み込み

データはデータファイルから読み込む
- ファイルがある場所のpathを指定する。
データファイルの形式はExcel(.xlsx)や.csv, .dta, .rdsなど様々
- 形式によって使う関数が異なる。
例えば
- RDSなら、readRDS()
- Excelなら、readxlパッケージのread_excel()
- csvなら、readrパッケージのread_csv()
  - readrパッケージはtidyverseパッケージ群に含まれている

ここでCSV形式について説明するが、その他のファイル形式については私達のRの第8章を参照してほしい

6.2.1 演習: データの読み込み

csvを読み込むにはread_csv()関数を使う。この関数はreadrパッケージ含まれている。

readrパッケージをインストールする。(tidyverseをインストールしたならば、新たにインストールする必要はない。)
r_renshuフォルダにdataフォルダを作成し、武蔵大学経済学部の学生数データをこちらからダウンロードして保存するか、以下のコードを実行する。

# data ディレクトリの作成
fs::dir_create("data")

# データのダウンロードと保存
download.file(url="https://keita43a.github.io/regression_tutorial/data/musashi_keizai_students_2025.csv",
              destfile = "data/musashi_keizai_students_2025.csv")

Rスクリプトを作成し、data_mgt.Rという名前をつけて保存する。
Rスクリプトの冒頭でパッケージを読み込む

library(tidyverse)
library(readxl)

Rスクリプトに以下のコードを書きこみ、データを読み込む。

data_634 <- read_csv("data/musashi_keizai_students_2025.csv")

Error: path does not exist:’というエラーが出る場合は、ファイルの相対パスが間違っている可能性がある
- r_renshuプロジェクトを開いていることを確認する
- getwd()で自分がr_renshuフォルダにいることを確認する
- musashi_keizai_students_2023.xlsxがきちんとdataフォルダに入っていることを確認する

6.2.2 日本語のデータを読み込む際の注意点

日本語のファイルを読み込む時に、問題になる可能性があるのがエンコーディングである。

エンコーディングとは、データを一定の規則に従って目的の情報に変換することで、とくに文字を扱う上で、それぞれの文字に番号を割り当てる符号化を行っている。

最近ではよりグローバルなUnicodeが使われており、tidyverseのパッケージもunicodeあるUTF-8をデフォルトとして使用する。しかし、日本語のファイルの中にはShift-JISというエンコーディングで作成されているファイルもある。

例えば、こちらのファイルをそのまま読み込んで見る。

product_cp932 = read_csv("data/Products_cp932.csv")
product_cp932

## # A tibble: 6 × 6
##    ...1 ProductID ProductName Price Category               CreatedDate
##   <dbl>     <dbl> <chr>       <dbl> <chr>                  <date>     
## 1     1         1 YKDJw        1122 "\x83w\x83\x8b\x83X&\… 2005-08-30 
## 2     2         2 ftKQ7        1877 "\x83w\x83\x8b\x83X&\… 2006-07-01 
## 3     3         3 l8lqm        3754 "\x89\xc6\x8b\xef\x81… 2005-05-26 
## 4     4         4 8ntvc        8242 "\x89\xd4\x81E\x83O\x… 2005-09-06 
## 5     5         5 HhDBS        4461 "\x90H\x95i"           2010-12-28 
## 6     6         6 PKIs3        4963 "\x8eG\x89\xdd\x81E\x… 2005-02-09

Categoryという変数が文字化けしてしまっているのがわかる。

ファイルのエンコーディングを調べることができる。 readrパッケージもに入っているguess_encodingを使うと、Shift-JISである可能性が高いことがわかる。

guess_encoding("data/Products_cp932.csv")

## # A tibble: 3 × 2
##   encoding     confidence
##   <chr>             <dbl>
## 1 Shift_JIS          1   
## 2 windows-1252       0.31
## 3 windows-1250       0.31

read_csvのオプションを使って、encodingを指定する。Shift-JISはCP932というエンコーディングになっている。

product_enc = read_csv("data/Products_cp932.csv", locale=locale(encoding="CP932"))
product_enc

## # A tibble: 6 × 6
##    ...1 ProductID ProductName Price Category               CreatedDate
##   <dbl>     <dbl> <chr>       <dbl> <chr>                  <date>     
## 1     1         1 YKDJw        1122 ヘルス&ビューティー    2005-08-30 
## 2     2         2 ftKQ7        1877 ヘルス&ビューティー    2006-07-01 
## 3     3         3 l8lqm        3754 家具・インテリア・家電 2005-05-26 
## 4     4         4 8ntvc        8242 花・グリーン           2005-09-06 
## 5     5         5 HhDBS        4461 食品                   2010-12-28 
## 6     6         6 PKIs3        4963 雑貨・日用品           2005-02-09

文字化けなく読み込めた。

6.2.3 readrのその他のオプション

readrでは以下のオプションを引数に指定することで設定できる。

引数	デフォルトの値	意味
col_names	TRUE	1行目を列名にするか
na	c(““,”NA”)	欠損値を表す文字列
comment	“”	コメント開始文字
skip	0	先頭何行を無視するか
n_max	Inf	何行目までを読み込むか
trim_ws	TRUE	前後の空白文字を無視するか

6.3 tidy data (整然データ)

武蔵大学経済学部の学生数データを見てみよう。

学科	性別	4年	3年	2年	1年
経済学科	男	156	131	135	123
経済学科	女	60	38	33	37
経営学科	男	139	126	108	92
経営学科	女	61	62	73	61
金融学科	男	105	92	94	87
金融学科	女	33	36	34	37

## エクセルからデータを読み込み
data_634 <- read_csv("data/musashi_keizai_students_2025.csv") 

knitr::kable(data_634) ## kableは見やすい表を出力する関数

このデータは、人間の目に見やすい形式になっている。学科・性別と学年がクロス表形式になっているため、何年生の何学科の男女が何人いるか見やすい表になっている。このような形のデータは横型(wide型)と呼ばれる。

同じデータを、異なる形式で表示したものが以下である。

print(as.data.frame(data_634_long))

##        学科 性別 学年 学生数
## 1  経済学科   男  1年    123
## 2  経済学科   男  2年    135
## 3  経済学科   男  3年    131
## 4  経済学科   男  4年    156
## 5  経済学科   女  1年     37
## 6  経済学科   女  2年     33
## 7  経済学科   女  3年     38
## 8  経済学科   女  4年     60
## 9  経営学科   男  1年     92
## 10 経営学科   男  2年    108
## 11 経営学科   男  3年    126
## 12 経営学科   男  4年    139
## 13 経営学科   女  1年     61
## 14 経営学科   女  2年     73
## 15 経営学科   女  3年     62
## 16 経営学科   女  4年     61
## 17 金融学科   男  1年     87
## 18 金融学科   男  2年     94
## 19 金融学科   男  3年     92
## 20 金融学科   男  4年    105
## 21 金融学科   女  1年     37
## 22 金融学科   女  2年     34
## 23 金融学科   女  3年     36
## 24 金融学科   女  4年     33

このデータでは「人数」という一つの変数のみの列があり、その他の属性もすべて縦の項目で表されている。これは、コンピューターによって処理しやすい形式であり、ベクトルの処理が得意なRでは縦長の形式が扱いやすい。

この縦長形式のデータをtidy data(整然データ)と呼ぶ

tidy dataの定義

一つの列が一つの変数を表す
一つの行が一つの観測を表す
一つのテーブルが一つのデータセットだけを含む

Rの中でもtidy dataでないデータが好ましい場合もある。しかし、tidy dataを基本にしておけば、そこから加工することは容易である。

6.4 データフレームを扱うテクニック：パイプ

データフレームを操作する関数の共通点

第１引数がデータフレーム
第２引数以降はそのデータフレームに対する操作
結果がデータフレームとして返される

6.4.1 パイプ

パイプ(|>)は「これまでの処理を次の第１引数として引き渡す」という機能を持つ。パイプはかつて%>%と書かれていて、tidyverse群の一つであるmagrittrパッケージの関数であった。新しい|>という演算子はRにネイティブで入っているため、パッケージをロードしなくても使える。少し前のコードだと未だに%>%と書いてあるかもしれないが基本的に同じ意味である（阿部はまだ癖で書いてしまう時がある）。

x1 <- c(1,2,3,4,5)

## 以下の２つは同じことを行っている。
mean(x1)

x1 |> mean() ## |> はパイプと呼ばれるもの

6.5 tidyでないデータとtidyデータの変換

学科	男	女
経済学科	545	168
経営学科	465	257
金融学科	378	140

今から横型（wide型）のデータを縦長（long型）に変換する。上のようなデータを下のようなデータに変換したいとする。

学科	性別	人数
経済学科	男	545
経済学科	女	168
経営学科	男	465
経営学科	女	257
金融学科	男	378
金融学科	女	140

6.5.1 long型データへの変換

tidyrというパッケージのpivot_longerという関数はtidyでないデータ(wide型)をtidyなデータ(long型)に変換する。

まずパイプ(|>)でdata_634というwide型のデータをpivot_longer()関数に引き渡す。

pivot_longer() 関数には、まず以下の3つの引数が重要である。

colsは、どの列(column)の変数を使うかを指定する
names_toは、新たに生成されるカテゴリ用の列の名前を指定する
values_toは、数値が入る列の名前を指定する

さらに複雑な操作をする場合は他にも引数を使うことがあるが、基本的な変換は上の三つできちんと指定されていればうまくいくはずだ。

data_634_long <- data_634 |> 
  ## long型に変換。1年〜４年の列(cols)を学生数という列にvalues_toでまとめる。各行に何年生かnames_toで記録する。
  pivot_longer(
    cols=c("1年","2年","3年","4年"),
    names_to ="学年",
    values_to = "学生数")

6.5.2 データを見てみる

右上のEnvironmentペーンにdata_634_longというオブジェクトが生成される。クリックしてみると、エクセルのような画面が現れる

またView()という関数をつかっても、同じようにデータを見ることができる。

## data_634_longを見るビューワーがRstudio上で開く
View(data_634_long)

6.5.3 データを一部だけみたい場合

また、データの最初だけみたいときは、head(), また後ろだけ見たいときはtail()関数を使う。デフォルトでは、6行だけ表示されるが、行数は引数nで調整できる。

## data1の最初の10行がコンソールに表示される
head(data_634_long, n=10)

## # A tibble: 10 × 4
##    学科     性別  学年  学生数
##    <fct>    <fct> <fct>  <dbl>
##  1 経済学科 男    1年      123
##  2 経済学科 男    2年      135
##  3 経済学科 男    3年      131
##  4 経済学科 男    4年      156
##  5 経済学科 女    1年       37
##  6 経済学科 女    2年       33
##  7 経済学科 女    3年       38
##  8 経済学科 女    4年       60
##  9 経営学科 男    1年       92
## 10 経営学科 男    2年      108

6.6 データの「大きさ」

データの行数や列数を調べるときにはdim()関数を使う。

dim(data_634_long)

## [1] 24  4

24行、4列だとわかる。 RStudioではdata.frameオブジェクトは右上ペーンにも表示されている。

6.7 列の名前一覧

データの各変数名（列名）の一覧を見たい場合はnames()かcolnames()

names(data_634_long)

## [1] "学科"   "性別"   "学年"   "学生数"

6.8 変数の要約

含まれている変数の基本統計量を見たい場合はsummary()関数を使う。

summary(data_634_long)

##        学科   性別     学年       学生数      
##  経済学科:8   男:12   1年:6   Min.   : 33.00  
##  経営学科:8   女:12   2年:6   1st Qu.: 37.75  
##  金融学科:8           3年:6   Median : 80.00  
##                       4年:6   Mean   : 81.38  
##                               3rd Qu.:111.75  
##                               Max.   :156.00

定性的なデータ（カテゴリ変数）は、入っているカテゴリとその数
- もしcharacterと表示されていたら、単なる文字列と認識されている
定量的なデータは以下のような統計量が計算される。

Min.	nth Qu.	Median	Mean	Max.
最小	n分位	中央値	平均	最大

6.9 変数の取り出し

データから変数を一つ取り出すときは$マークを使う。

## データフレーム$変数 で変数の列をベクトルとして取り出す
 data_634_long$学年

##  [1] 1年 2年 3年 4年 1年 2年 3年 4年 1年 2年 3年 4年 1年 2年 3年 4年
## [17] 1年 2年 3年 4年 1年 2年 3年 4年
## Levels: 1年 2年 3年 4年

6.10 変数の取り出しと計算

## 平均 mean()関数
mean(data_634_long$学生数)

## [1] 81.375

## 中央値 median()関数
median(data_634_long$学生数)

## [1] 80

## 分散 var()関数
var(data_634_long$学生数)

## [1] 1572.679

## 合計 sum()関数
sum(data_634_long$学生数)

## [1] 1953

6.11 データの操作

データを編集したいことはたくさん出てくる。

列の名前を変えたい
データの特定の列だけ抽出したい
データの特定の行だけ提出したい
- 例：男性だけのデータ
データの順番を並び替えたい
データの列を並び替えたい
新しい変数を作りたい
データを集計したい

6.11.1 データの操作

tidyverseシリーズであるdplyrパッケージに入っている関数で操作することができる。

6.11.2 元のデータの見た目確認

print(data_634_long)

## # A tibble: 24 × 4
##    学科     性別  学年  学生数
##    <fct>    <fct> <fct>  <dbl>
##  1 経済学科 男    1年      123
##  2 経済学科 男    2年      135
##  3 経済学科 男    3年      131
##  4 経済学科 男    4年      156
##  5 経済学科 女    1年       37
##  6 経済学科 女    2年       33
##  7 経済学科 女    3年       38
##  8 経済学科 女    4年       60
##  9 経営学科 男    1年       92
## 10 経営学科 男    2年      108
## # ℹ 14 more rows

6.11.3 列の名前を変えたい: rename()

列（変数）の名前を変更する

data_634_long_eng <- data_634_long |>
  rename(department = 学科, 
         grade = 学年,
         gender = 性別,
         stu_num = 学生数)

print(data_634_long_eng)

## # A tibble: 24 × 4
##    department gender grade stu_num
##    <fct>      <fct>  <fct>   <dbl>
##  1 経済学科   男     1年       123
##  2 経済学科   男     2年       135
##  3 経済学科   男     3年       131
##  4 経済学科   男     4年       156
##  5 経済学科   女     1年        37
##  6 経済学科   女     2年        33
##  7 経済学科   女     3年        38
##  8 経済学科   女     4年        60
##  9 経営学科   男     1年        92
## 10 経営学科   男     2年       108
## # ℹ 14 more rows

6.11.4 特定の列だけ抽出する: select()

データのうち、学科と性別という変数だけ抽出したいとする

data_634_long_select <- data_634_long |> 
  select(学科, 性別)

print(data_634_long_select)

## # A tibble: 24 × 2
##    学科     性別 
##    <fct>    <fct>
##  1 経済学科 男   
##  2 経済学科 男   
##  3 経済学科 男   
##  4 経済学科 男   
##  5 経済学科 女   
##  6 経済学科 女   
##  7 経済学科 女   
##  8 経済学科 女   
##  9 経営学科 男   
## 10 経営学科 男   
## # ℹ 14 more rows

6.11.5 特定の行だけ抽出する: filter()

データのうち、女性のデータだけを抽出したいとする

data_634_long_filter <- data_634_long |> 
  filter(性別 == "女")

print(data_634_long_filter)

## # A tibble: 12 × 4
##    学科     性別  学年  学生数
##    <fct>    <fct> <fct>  <dbl>
##  1 経済学科 女    1年       37
##  2 経済学科 女    2年       33
##  3 経済学科 女    3年       38
##  4 経済学科 女    4年       60
##  5 経営学科 女    1年       61
##  6 経営学科 女    2年       73
##  7 経営学科 女    3年       62
##  8 経営学科 女    4年       61
##  9 金融学科 女    1年       37
## 10 金融学科 女    2年       34
## 11 金融学科 女    3年       36
## 12 金融学科 女    4年       33

6.11.6 データの順番を並び替える: arrange()

データの順番を学年->性別の順番で並び替える

data_634_long_arrange <- data_634_long |> 
  arrange(学年, 性別)

print(data_634_long_arrange)

## # A tibble: 24 × 4
##    学科     性別  学年  学生数
##    <fct>    <fct> <fct>  <dbl>
##  1 経済学科 男    1年      123
##  2 経営学科 男    1年       92
##  3 金融学科 男    1年       87
##  4 経済学科 女    1年       37
##  5 経営学科 女    1年       61
##  6 金融学科 女    1年       37
##  7 経済学科 男    2年      135
##  8 経営学科 男    2年      108
##  9 金融学科 男    2年       94
## 10 経済学科 女    2年       33
## # ℹ 14 more rows

6.11.6.1 降順の並びにする

デフォルトは昇順だが、desc()で降順で並び変えることもできる

data_634_long_arrange2 <- data_634_long |> 
  arrange(desc(学年), 性別)

print(data_634_long_arrange2)

## # A tibble: 24 × 4
##    学科     性別  学年  学生数
##    <fct>    <fct> <fct>  <dbl>
##  1 経済学科 男    4年      156
##  2 経営学科 男    4年      139
##  3 金融学科 男    4年      105
##  4 経済学科 女    4年       60
##  5 経営学科 女    4年       61
##  6 金融学科 女    4年       33
##  7 経済学科 男    3年      131
##  8 経営学科 男    3年      126
##  9 金融学科 男    3年       92
## 10 経済学科 女    3年       38
## # ℹ 14 more rows

6.11.7 データの列を並び替える: relocate()

学年の列を性別の前に持ってくる

data_634_long_relocate <- data_634_long |> 
  relocate(学年, .before=性別)

print(data_634_long_relocate)

## # A tibble: 24 × 4
##    学科     学年  性別  学生数
##    <fct>    <fct> <fct>  <dbl>
##  1 経済学科 1年   男       123
##  2 経済学科 2年   男       135
##  3 経済学科 3年   男       131
##  4 経済学科 4年   男       156
##  5 経済学科 1年   女        37
##  6 経済学科 2年   女        33
##  7 経済学科 3年   女        38
##  8 経済学科 4年   女        60
##  9 経営学科 1年   男        92
## 10 経営学科 2年   男       108
## # ℹ 14 more rows

6.11.7.1 列の後ろに持ってくる場合

学年の列を学科の後に持ってくる

data_634_long_relocate2 <- data_634_long |> 
  relocate(学年, .after=学科)

print(data_634_long_relocate2)

## # A tibble: 24 × 4
##    学科     学年  性別  学生数
##    <fct>    <fct> <fct>  <dbl>
##  1 経済学科 1年   男       123
##  2 経済学科 2年   男       135
##  3 経済学科 3年   男       131
##  4 経済学科 4年   男       156
##  5 経済学科 1年   女        37
##  6 経済学科 2年   女        33
##  7 経済学科 3年   女        38
##  8 経済学科 4年   女        60
##  9 経営学科 1年   男        92
## 10 経営学科 2年   男       108
## # ℹ 14 more rows

6.11.8 データの列を追加する: mutate()

新しく、学生数を100で割った数値を作るとする

data_634_long_mutate <- data_634_long |> 
  mutate(学生数100 = 学生数/100)

print(data_634_long_mutate)

## # A tibble: 24 × 5
##    学科     性別  学年  学生数 学生数100
##    <fct>    <fct> <fct>  <dbl>     <dbl>
##  1 経済学科 男    1年      123      1.23
##  2 経済学科 男    2年      135      1.35
##  3 経済学科 男    3年      131      1.31
##  4 経済学科 男    4年      156      1.56
##  5 経済学科 女    1年       37      0.37
##  6 経済学科 女    2年       33      0.33
##  7 経済学科 女    3年       38      0.38
##  8 経済学科 女    4年       60      0.6 
##  9 経営学科 男    1年       92      0.92
## 10 経営学科 男    2年      108      1.08
## # ℹ 14 more rows

6.11.9 データの列を編集する: mutate()

存在する変数名にすると、新しく変数(列)を作らずに上書きする

data_634_long_mutate2 <- data_634_long |> 
  mutate(学生数 = 学生数/100)

print(data_634_long_mutate2)

## # A tibble: 24 × 4
##    学科     性別  学年  学生数
##    <fct>    <fct> <fct>  <dbl>
##  1 経済学科 男    1年     1.23
##  2 経済学科 男    2年     1.35
##  3 経済学科 男    3年     1.31
##  4 経済学科 男    4年     1.56
##  5 経済学科 女    1年     0.37
##  6 経済学科 女    2年     0.33
##  7 経済学科 女    3年     0.38
##  8 経済学科 女    4年     0.6 
##  9 経営学科 男    1年     0.92
## 10 経営学科 男    2年     1.08
## # ℹ 14 more rows

6.11.10 データを集計する

任意を列を集計したり統計量を計算する。

data_634_long_summarise <- data_634_long |> 
  summarise(学生数合計 = sum(学生数),
            学生数平均 = mean(学生数))

print(data_634_long_summarise)

## # A tibble: 1 × 2
##   学生数合計 学生数平均
##        <dbl>      <dbl>
## 1       1953       81.4

6.11.11 データ操作の応用：パイプによる引き渡し

ある操作を行った結果をパイプで次の関数に引き渡す。

## 女性の合計だけを知りたい
data_634_long_female <- data_634_long |>
  filter(性別=="女") |>
  summarise(女性学生数合計 = sum(学生数))

print(data_634_long_female)

## # A tibble: 1 × 1
##   女性学生数合計
##            <dbl>
## 1            565

6.11.12 データ操作の応用：グループごとの集計

グループごとに集計したい場合はgroup_byでグループ情報を与える

## 学科ごとに合計を計算
data_634_long_dept <- data_634_long |>
  group_by(学科) |>
  summarise(学生数合計 = sum(学生数))

print(data_634_long_dept)

## # A tibble: 3 × 2
##   学科     学生数合計
##   <fct>         <dbl>
## 1 経済学科        713
## 2 経営学科        722
## 3 金融学科        518

6.12 練習問題: データ操作

武蔵大学経済学部の学生数データを使って、女性のみの合計学生数を学年別で計算せよ。結果をdata_634_long_female_gradeというオブジェクトに格納し、結果をコンソールに表示せよ。
同じデータを使って、１,２年生のみ合計学生数を男女別・学年別で計算せよ。結果をdata_634_long_1_2_gradeというオブジェクトに格納し、結果をコンソールに表示せよ。

6.13 データの結合

２つのデータフレームを結合したい場合

縦に結合したい場合
横に結合したい場合

6.13.1 準備

新たにデータを2つダウンロードする

人文学部の学生数データ。人文学部のデータはこちらからもダウンロードできる。

# データのダウンロードと保存
download.file(url="https://keita43a.github.io/regression_tutorial/data/musashi_jinbun_students_2025.csv",
              destfile = "data/musashi_jinbun_students_2025.csv")

経済学部の各学科の定員データ。経済学部の各学科の定員データはこちらからもダウンロードできる。

# データのダウンロードと保存
download.file(url="https://keita43a.github.io/regression_tutorial/data/musashi_keizai_teiin_2025.csv",
              destfile = "data/musashi_keizai_teiin_2025.csv")

6.13.2 データの縦の結合

例えば人文学部のデータと結合したいとする。

## エクセルからデータを読み込み
data_634_jinbun <- read_csv("data/musashi_jinbun_students_2025.csv") 

knitr::kable(data_634_jinbun) ## kableは見やすい表を出力する関数

学科	性別	4年	3年	2年	1年
英語英米文化学科	男	76	53	83	40
英語英米文化学科	女	88	57	83	61
ヨーロッパ文化学科	男	45	67	59	55
ヨーロッパ文化学科	女	69	57	57	75
日本・東アジア文化学科	男	55	44	57	57
日本・東アジア文化学科	女	83	74	61	68

変数の順番などが同じことを確認した上で、bind_rows()を使う

data_634_keizai_jinbun <- bind_rows(data_634,data_634_jinbun)

print(data_634_keizai_jinbun)

## # A tibble: 12 × 6
##    学科                   性別  `4年` `3年` `2年` `1年`
##    <chr>                  <chr> <dbl> <dbl> <dbl> <dbl>
##  1 経済学科               男      156   131   135   123
##  2 経済学科               女       60    38    33    37
##  3 経営学科               男      139   126   108    92
##  4 経営学科               女       61    62    73    61
##  5 金融学科               男      105    92    94    87
##  6 金融学科               女       33    36    34    37
##  7 英語英米文化学科       男       76    53    83    40
##  8 英語英米文化学科       女       88    57    83    61
##  9 ヨーロッパ文化学科     男       45    67    59    55
## 10 ヨーロッパ文化学科     女       69    57    57    75
## 11 日本・東アジア文化学科 男       55    44    57    57
## 12 日本・東アジア文化学科 女       83    74    61    68

6.13.3 データを横に統合

新しい変数を含んだデータを既存のデータに統合したい

## エクセルからデータを読み込み
data_634_keizai_teiin <- read_csv("data/musashi_keizai_teiin_2025.csv") 

knitr::kable(data_634_keizai_teiin) ## kableは見やすい表を出力する関数

学科	定員
経済学科	560
経営学科	560
金融学科	400

6.13.4 データを横に統合：join()関数

ここではleft_joinを使う。学科という変数をキーとして、左側に存在するすべての行にデータを統合する。

## 学科の人数と学科の定員を統合する
data_634_long_keizai <- data_634_long |>
  left_join(data_634_keizai_teiin, by=c("学科"="学科"))

print(data_634_long_keizai)

## # A tibble: 24 × 5
##    学科     性別  学年  学生数  定員
##    <chr>    <fct> <fct>  <dbl> <dbl>
##  1 経済学科 男    1年      123   560
##  2 経済学科 男    2年      135   560
##  3 経済学科 男    3年      131   560
##  4 経済学科 男    4年      156   560
##  5 経済学科 女    1年       37   560
##  6 経済学科 女    2年       33   560
##  7 経済学科 女    3年       38   560
##  8 経済学科 女    4年       60   560
##  9 経営学科 男    1年       92   560
## 10 経営学科 男    2年      108   560
## # ℹ 14 more rows

6.13.5 join関数一覧

上で使用したleft_join以外にもいくつかのjoin関数が用意されている。

関数名	説明
`inner_join()`	どちらのデータフレームにも存在するキーの行のみ返す
`left_join()`	左のデータフレームに存在するキーの行を返す
`right_join()`	右のデータフレームにも存在するキーの行を返す
`full_join()`	いずれかのデータフレームに存在するキーの行を返す