データの収集方法について

今使用しているデータはすべてWikipediaからの引用です。

各期ごとのページがあり、そこにある入団者の一覧を利用しています。

 

105期=105ページ分あるので、RPAツールを使ってコピーし、Excelに各期ごとのシートに張り付けて、

後はExcel上で上手いことデータを整理して形を整えて、1つのテーブルにまとめました。

 

作業時間は、自動化の準備(テスト含む)に2時間、実行に1時間、Excelでのデータ成型に4時間くらいです。

Wikiの各ページで表の形式が違うことがあったので、データ成型は3割関数・7割手作業でした。