Tableauで相関行列を作成したかったのですが、作成にやや手間取ったため方法をまとめます。
使用データ
今回は、政府統計の総合窓口(e-Stat)で公開されている「都道府県・市区町村のすがた(社会・人口統計体系)」の市区町村データを使用します。
以下のサイトから関東(東京、神奈川、埼玉、千葉、茨城、群馬、栃木)の市区町村別人口データをcsvファイルに出力し、一部項目削除等の加工を行った上で集計に利用しました。
https://www.e-stat.go.jp/regional-statistics/ssdsview/municipality
Tableauからファイルへの接続
Tableau Desktop(2020.4.1)から出力したcsvファイル(city_data.csv)に接続します。1980年から5年ごとに市区町村別の総人口、15歳未満人口、15~64歳人口、65歳以上人口が格納されています。各都道府県の総人口の間に相関があるか確認するため、相関行列を作成します。

ここで、相関行列を作成するための準備として、もう一つcity_data.csvをテーブルとしてドラッグします。追加したテーブルは自動的にcity_data.csv1という名前が付与されますが、今回はこのままにします。リレーションシップの編集で調査年で結合するように設定します。
これにより、同じ調査年のレコードはすべての組合せで結合されることになります。

データソース上で相関を求めたい2値を横にもっている場合(例えば今回のデータですと「総人口と15未満人口の相関を求めたい場合」など)は、このような自己結合を作成する必要はなく、単純に「総人口」と「15歳未満人口」の相関係数を求める計算フィールドを作成すれば、相関行列を作成できます。
相関行列の作成
データソースの準備ができましたので、ワークシートで都道府県の総人口の相関行列を作成してみます。ワークシート上でcity_data.csvの「都道府県」を列シェルフに設定し、 city_data.csv1の「都道府県」を行シェルフに設定します。

続いて、総人口の相関係数の計算フィールドを作成します。調査年ごとに都道府県別総人口を計算するため、INCLUDEを用います。

作成した計算フィールドをマークのテキスト、および色に設定し、マークを四角に変更します。

以上により、都道府県ごとの総人口の相関行列を作成することができました。作成した相関行列を確認すると、総人口の変化としては「東京、神奈川、埼玉はそれぞれの相関が高い」、「茨城、群馬、栃木はそれぞれの相関係数が0.98以上と非常に高い」、「東京は茨城、群馬、栃木との相関が低い」といったようなことがわかります。
まとめ
Tableauで相関行列を作成するためには、データソースにおいて多少の工夫が必要でした。データソースのレコードが多いと結合が多くなるため、レスポンスが悪くなるかもしれませんので注意が必要です。
Tableau おすすめ書籍
つまづきやすいポイントの紹介などしてくれています。
Pythonによる機械学習とTableauの連携まで学べます。