Doorkeeper

データサイエンス徹底演習(初心者向け)

2016-02-13(土)13:45 - 16:45 JST

ハロー貸会議室東京駅八重洲北口 1F

東京都中央区八重洲1-1-8 コンタツビル 1階

詳細

【2016年2月13日(土曜日)にデータサイエンス講習会を開催します!】
 今回公開するレクチャーは、Bizjapanの理系大学院生により、文系の学生が大半を占めるBizjapanメンバーにデータサイエンスを導入するために作成し使用しているものです。内容的には、データサイエンス概略、機械学習概略、データ解析を行うためのツール比較(Excel、R、Python) 、Excelのヘルプの使い方、Excelによるデータの視覚化、線形回帰・曲線回帰とその最適な回帰式の選択方法、ソルバーでの最適化問題の解法、統計ソフトRの基本操作とRStudio、使用するデータについての解説、Rでのデータ操作、help関数の使い方とhelp画面の見方、CRANの見方、パッケージのインストール・実行方法、グラフィクスパッケージ、各種機械学習関数の使い方とformulaについて、機械学習のパッケージを用いた機械学習例、データの読み込みと書き出し,
を予定しています。

【イベント趣旨】
・データサイエンス・機械学習の概要を理解する。
・Excel, Rでのデータの可視化と機械学習をできるようにする。
・CRANの各種パッケージを利用できるようにする。

【当初の目的と現在の方針決定に至った経緯】
 もともとはDeepLearningを着地点としたレクチャーコースでしたが、Rでもh2oパッケージにより容易にDeeplearningは実行できること、またPreferred Infrastructure.Inc が提供するDeepLearningのフレームワークchainerにより、比較的容易にDeeplearningを実行でき、そのチュートリアルは様々な形で開催されていることを考えていると、そこはあえて我々が開催するものではないと判断しました。
むしろ、実際に役に立つ、単純なデータの可視化や、回帰、クラスタリングが実行できるようにするレクチャーコースの方が、一般の方々にとって重要であり、またそこから入門したほうが、最終的に現在ホットな分野であるDeepLearningやRecurrent Neural Network、ベイズ統計学に行くのにも近道であると判断し、今回のようなレクチャーコースを作成するに至りました。

【ExcelとRを使う理由】
今回前回や前々回のように言語としてPythonを選択しなかった理由は、Excelの方がGUIで初心者にとって扱いやすいこと、Rの方がチュートリアルが充実しておりまた、チュートリアルの和訳もPythonに比べれば充実していることが挙げられます。またRでの機械学習ができるようになれば、基本的に同じ仕組みでPythonの機械学習ライブラリScirkit-learnも動いているため、Pythonへの移行もより容易に行えると考えています。

【Rとは?】
 オープンソースで無償である高機能な統計ソフト。世界中のRユーザが開発したRプログラム(パッケージ)がCRAN(The Comprehensive R Archive Network)というネットワークにより提供されています。プログラミング初心者でも扱いやすく、Referenceが充実しています。Excelと比べデータ可視化のツールのレパートリーが圧倒的に豊富です。R言語によりプログラムを記述します。

【タイムライン】
13:15~ 開場
13:15~13:45 自宅で開発環境設定がうまくいかなかった方への対応
13:45~14:15 データサイエンス・機械学習・ディプラーニングについての講義
14:15~14:20 質疑応答
14:20~14:50 Excelによるデータ解析入門(演習)
14:50~15:00 質疑応答
15:00~15:10 トイレ休憩
15:10~16:20 Rによるデータ解析
16:20~16:30 質疑応答
16:30~16:45 解散
17:00 完全撤収   

【会場】
ハロー貸会議室東京駅八重洲北口 1F
【アクセス】
東京都中央区八重洲1-1-8 コンタツビル 1階
http://www.hello-mr.net/detail/?obj=127
東京メトロ半蔵門線 三越前駅 B3出口 徒歩1分
東京メトロ東西線 大手町駅 B9出口 徒歩2分
東京メトロ銀座線 日本橋駅 A1番出口 徒歩2分
JR山手線 東京駅 八重洲北口 徒歩5分
【対象層】
・Excel, Rでのデータ解析の初歩を学びたい方
・プログラミングを初めて学びたい方
・データの可視化や機械学習に興味ある方
・実際に自分の手で一通りデータ解析ができるようになりたい方
※講師はBizjapan内でデータサイエンス部門を統括している東大院生修士2年生が行いますが、データサイエンスは大学で専攻しているわけではなく、専門ではありません。一応本講義は、前回と前々回の講師である徐さんをはじめとした、データサイエンティスト数名のチェックは受けていますが、専門的な質問には答えられない可能性が高いです。それを許容できる方のみご参加ください。
【参加方法】
Doorkeeperにて参加登録お願いします。当日受付にて、参加用のQRコードをお見せください。

【参加費】
学生1500円
社会人3000円
(当日受付にてお支払ください。Doorkeeperの価格表示は社会人用です。学生の方は当日学生証を受付にてご提示ください。)

【当日の持ち物・必要なPCのスペック・必要なソフトウェア】

ご自身のノートPCを必ずお持ちください。
・OSについて
Windows 10
Mac OSX以降
以上の環境では動作を確認しております。

・ソフトウェアについて
Microsoft Office Excel(2013以上)
R(ver3.2.3)※Rは事前にダウンロードしてきてください。
Windows
https://cran.r-project.org/bin/windows/base/
のDownload R 3.2.3 for Windows (62 megabytes, 32/64 bit)をクリックして、ダウンロード・インストールを進めてください。
Mac
https://cran.r-project.org/bin/macosx/
のR-3.2.3.pkgをクリックし、ダウンロード・インストールしてください。
RStudio
https://www.rstudio.com/products/rstudio/download/
に移動し、自分のOSのものを選択してください。たとえば、
Windowsは、
RStudio 0.99.878 - Windows Vista/7/8/10 をクリックしてください。ダウンロードが始まります。インストールも行ってください。
Macは、
RStudio 0.99.878 - Mac OS X 10.6+ (64-bit) をクリックしてください。ダウンロードが始まります。インストールも行ってください。
(※当日のパソコン貸し出しは行いません。もし動作がうまくいかない場合、講義を聞くだけになる可能性があります。その旨ご理解いただける方のみご参加ください。すでにwindows5台、Mac5台において各箇所でエラーが出るか否か試しましたが、Rにおいて、解決不能なエラーが2~3個出ました。)
無線LAN搭載
HDD空き容量1GB以上

【開発環境設定】
前回のアンケート結果を踏まえ、当日の運営を円滑に行うため、環境設定はできるだけご自身で事前に行ってください。
※このダウンロード・インストール(当日の各種Rのパッケージのインストール含む)で生じたマシーンのすべての不具合に関しては私たちは責任を負いかねます。

【お願い】
当日、一部でネット環境を必要とします。会場のWi-Fi回線は混みあうことが予想されますので,お持ちの方はモバイルルーターなどをご持参ください(こちらでも用意していますが足りなくなる可能性があります)。

【内容詳細】
データサイエンス概略(15分)
機械学習概略(15分)
データ解析を行うためのツール比較(Excel、R、Python) (5分)
Excelのヘルプの使い方(5分)
Excelによるデータの視覚化(10分)
線形回帰・曲線回帰とその最適な回帰式の選択方法(10分)
ソルバーでの最適化問題の解法(10)
統計ソフトRの基本操作とRStudioについて(5分)
使用するデータについての解説(5分)
Rでのデータ操作(10分)
help関数の使い方とhelp画面の見方(5分)
CRANの見方(5分)
パッケージのインストール・実行方法(5分)
グラフィクスパッケージ(10分)
各種機械学習関数の使い方とformulaについて(10分)
機械学習のパッケージを用いた機械学習例(10分)
データの読み込みと書き出し(5分)

【講師紹介】
・ 鈴木瑞人(東京大学大学院新領域創成科学研究科 メディカル情報生命専攻 修士2年)
2015年3月東京大学理学部生物学科卒業
専門は、生物学・脳科学・ゲノム科学であり、修論はDNAシーケンサーMinIONを用いた、ゲノム情報解析。大した計算はしていないものの一応スパコンを用いて解析を行った。
一般社団法人Bizjapanの立ち上げに4年前参画し、団体内でデータサイエンス部門を総括し、東大の文系を中心とした各メンバー(60名中15人)にデータサイエンスを導入した。

【お問い合わせ先】
svsec@bizjapan.org

【運営団体、一般社団法人Bizjapanについて】
Bizjapanは2012年に設立され、東大慶応早稲田の大学生と大学院生合計60名によって運営されている団体です。日本の経済の伸びしろを、海外の学生を日本に招待することで世界に発信する活動を行ってきましたが、今では、運営メンバー自らが大学で最先端技術を学び日本の経済の伸びしろを作る活動を行うようになってきています。また、新しい産業育成のための若手教育にも力を入れています。本データサイエンスのレクチャーコース作成はその活動の一環です。

【主催】
一般社団法人Bizjapan(http://bizjapan.org/)

コミュニティについて

機械学習・ディープラーニング勉強会

機械学習・ディープラーニング勉強会

東大生・早稲田生・慶大生約60人からなる団体Bizjapanが主催する、機械学習とDeepLearningの勉強会のコミュニティです。 将来の新しい産業で活躍するエンジニアを増やす目的のプロジェクト”次世代のスティーブ・ジョブズ育成計画”の一環です。(http://bizjapan.org/oculus-project) 東大のエンジニア集団UT-Hacksさん(http://ut-hack...

メンバーになる