日本データベース学会

dbjapanメーリングリストアーカイブ(2017年)

[dbjapan] DBSJ Newsletter Vol. 10, No. 6: インターンシップ体験記, VLDB突破会


┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
┃ 日本データベース学会 Newsletter
┃ 2017年11月号 ( Vol. 10, No. 6 )
┗━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

秋の長雨も一段落し,道路には街路樹の落葉が舞い散り始めました.そろそろ冬
の足音が聞こえ始める季節になりましたが,お健やかにお過ごしのことと存じま
す.

本号はインターンシップ特集号として,学生の皆様に今年の夏に行われたインタ
ーンシップの体験記についてご寄稿頂きました.データベース分野の研究に関わ
る方々にお願いしましたが,日立製作所,KDDI,NTTなど日本を代表する企業に
おけるインターンシップについてご寄稿頂きました.来年以降インターンシップ
に参加することを考えている学生の方のご参考になればと思います.

また2020年のVLDBが日本で開催されることとなりましたが,日本から多くの論文
が採録されることを目的として立ち上げられた「VLDB突破会」について大阪大学
の鬼塚先生から記事をご寄稿頂きました.

本号ならびにDBSJ Newsletterに対するご意見あるいは次号以降に期待する内容
についてのご意見がございましたら news-com [at] dbsj.org までお寄せくださ
い.

                          日本データベース学会 電子広報編集委員会
                          (担当編集委員:藤原 靖宏)

=======================================================================

----
目次
----

1. 自分の知らない分野への挑戦
    栗田 いずみ 東京理科大学

2. 日本の企業へ飛び込んで
    劉 智仁 西安交通大学

3. 新しい環境から刺激を受けて
    河部 瞭太 早稲田大学

4. VLDB 突破会へのお誘い
    鬼塚 真 大阪大学

----------------------------------------------------------------------

■1■ 自分の知らない分野への挑戦 栗田 いずみ(東京理科大学)

私は日立製作所の中央研究所のインターンシップに参加しました.大学では隔
年結実現象のモデル化と対策について研究しています.隔年結実現象とはウン
シュウミカンなどの果樹において収穫量が全国的に同調しつつ隔年で増減を繰
り返す現象のことで,農業経営の不安定化を招いている要因になっています.

インターンシップでは日立製のデータベース (HADB: Hitachi Advanced Data
Binder) の性能要因分析を行うためにログ解析を行いました.インターンシッ
プに応募したのは早い段階で就職活動を経験してみたかったからです.また研
究所や研究職がどのようなものであるのかという関心もあり,職場環境を体験
してみたかったこともあります.インターンシップのテーマは資格試験の勉強
で興味を持ったデータベースを選択しました.

プロジェクトに取り組んでいる中で楽しかったのはオープンスペースで気分転
換しながら社員の方とインターンシップのテーマについて議論したことです.
フリーのコーヒーやお菓子などを食べながら今後の作業方針や研究の背景や普
段大学では聞けない会社のことなどを聞かせていただきました.

プロジェクトに取り組んでいる中で大変だったのは性能要因分析を行うために
大規模なログ解析を行ったことです.HADBのログはテーブル数53総列数719と
膨大で,この中から性能に有意な影響を及ぼすパラメータを特定する必要があ
りました.データセットはTPC-Hベンチマークを用い,クエリ1~22を異なる環
境でそれぞれ500回実行した結果を用いました.この調査を通してデータベース
の性能について理解が深まりました.また最終日の成果発表の準備はやりがい
がありました.自分自身のバックグラウンドが違うことや知識の無さから研究
の目的や流れがうまく飲み込む必要があったからです.

インターンシップの前後で成長したと思うことは,データベースのログ解析を
通じて操作方法やコンピュータのハードウェアスペックが性能に与える影響な
どについて理解が深まり,さらに使ったことのないコマンドを覚えるなどして
情報系の知識が増えたことです.また期限に合わせて計画を立てて作業を行う
習慣をつけることができるようになりました.インターンシップ先では週報を
書く決まりがあるのですが,細かく報告書の書き方を指導していただき,以前
より要点をうまく伝えられるようになったと思います.生活面では遅刻しない
ために規則正しい生活を送り,週末にはスーツのアイロンがけなどができるよ
うになりました.

インターンシップは長い期間のものを選んだほうがさまざまな体験ができてよ
いと思います.会社の中で実際に働いてみることで,社会人の実態を知ること
ができます.さらに発表スライドの作成で何度も社員の方が確認してくださっ
たり,報告書の書き方も指導していただけるので,プレゼンテーションや報告
書作成の技術も高めることができます.またいろいろな社員の方々から自身の
研究内容について尋ねられることがあり,説明する技術が高まるとともに,自
身の研究を見直す機会にもなります.そのためもし機会があればぜひインター
ンシップは経験したほうが良いと思います.

(栗田 いずみ 東京理科大学)

---------------------------------------------------------------------

■2■ 日本の企業へ飛び込んで 劉 智仁(西安交通大学)

私は機械学習とその実践というテーマでKDDI総合研究所のインターンシップに
参加しました.インターンシップに応募したのは興味がある研究分野に勉強し
たく,また日本文化の体験ができると考えたためです.私は世界で最も熱い研
究分野である機械学習とディープラーニングに興味を持っています.国際交流
の促進を目的にKDDI総合研究所が西安交通大学に対してインターンシッププロ
グラムを提供しているのですが,ちょうどインターンシッププログラムとして
私が興味をもっている機械学習とディープラーニングが課題に設定されていま
した.そのためインターンシップを通じてこの分野でのスキルアップとコーティ
ング経験ができると思って応募しました.またインターンシッププログラムに
よって,自分がこの分野の仕事に向いているかを確かめられるとも思いました.
またインターンシップを通して日本の社会や会社の文化を経験し、日本の友達
を作って現地で様々なことを味わうことで日本を深く理解できると思いました.

プロジェクトではいろいろと努力して結果を得るという経験をしたことが一番
楽しかったです.インターンシップの前に私はPythonを少し触ったことがあっ
たのですが,機械学習の知識はあまりありませんでした.インターンシップの
課題に対してほぼゼロから取り組んだのですが,まずチューターの方と一緒に
計画を立て基礎知識を勉強し,Kaggleで他者の解決事例を学んだりしました.
その後,大量データのハンドリング・特徴量生成・モデリングなどを少しずつ
実践しました.いろいろと努力して生成したモデルを用いて初めて推定結果が
出た時はとても楽しかったです.

プロジェクトに取り組んでいる中ではデータハンドリングが大変でした.機械
学習モデルを訓練する時は学習しやすい形にデータを整えなければなりません.
その形に整えるために様々なデータハンドリングのスキルが必要になります.
しかしはじめは経験がなかったため大量データに対してどこから着手するか全
然分かりませんでした.そのためまずは少量のデータを用いて考えたアイデア
を試し,うまくいったら規模の大きいデータセットに適用するという進め方を
しました.もし問題があればネットを検索したり他の人に聞いたりして解決し
ました.データセットが複雑すぎてデータ結合・メモリエラーなど多くの問題
が出て結構手間がかかることもありました.振り返るとデータハンドリングは
インターンシップ全体の70%以上を占めていたと思います.

インターンシップで特にKDDI総合研究所の良い会社文化が一番印象に残ってい
ます. KDDI総合研究所は雰囲気がよく,社員の皆さんが一丸となって仕事を進
めていると感じました.特に社内成果交流会など社員・グループ間の協調を促
進する仕組みがたくさんあり,それが仕事をより効率的にしていると思います.
私は社内成果交流会に1回参加したのですが,社員同士が活発な議論と意見交
換をしていました.交流会の後は懇親会があって,社員間で良い関係構築の機
会が設けられていると思いました.また皆さんは優しくお互いに思いやりの心
を持っていると思いました.最初はこのインターンシップが私の初めての海外
生活になる事もあり,とても不安に感じていました.そんな私に対してグルー
プのメンバの方々は食事に誘って頂き,音楽や映画などの日本文化を紹介して
くれました.また週末はスカイツリーや花火大会にも連れて行ってくださり,
とても貴重な生活経験になったと思っています.

インターンシップに参加しPythonにおける機械学習スキル及び仕事能力が成長
したと思っています.インターンシップの前はPythonの基本的な構文とデータ
処理・機械学習についての少しの理論的な知識しか持っていませんでしたが,
インターンシップを終えてPythonデータ処理・機械学習のライブラリを把握し,
データクリーニング・統計レポート・テーブルマージやその他のスキルを習得
しました.その結果,実際に機械学習を用いて問題を解決する事に対してモデ
リングとパラメータチューニングができるようになりました.機械学習を用い
て問題解決する事とともに機械学習そのものにも興味が増しました.

また仕事能力も成長したと考えています.特に将来の仕事に対して自分なりの
考えを持つことができました.仕事においてはすべてに慎重に進めなければな
らず,小さな間違いにも大きな代価を払わないといけないかもしれないと分か
りました.また実際の仕事と本での知識のギャップに気付きました.インター
ンシップのプログラムにより実践的な能力を磨き実践的な経験を積むことによ
りそのギャップを狭めることができたので,卒業後の仕事に自信を持てるよう
になりました.

来年インターンシップを受ける方はPythonの基本的な知識があったほうが良い
と思います.インターンの時間を節約できるからです.また仕事を進める上に
おいては問題があったらすぐに先輩に聞くのではなく,まず自律的に問題解決
に取り組むことにベストを尽くした方が良いと思います.どうしても解決でき
ない場合はチューターと同僚に聞くと良いと思います.またもしインターンシッ
プを受ける方が日本人でない場合は会話のための基本的な日本語はいくらか覚
えておいたほうがよいと思います.私の経験が来年インターンシップを受ける
方々の助けになればと思います.

(劉 智仁 西安交通大学)

---------------------------------------------------------------------

■3■ 新しい環境から刺激を受けて 河部 瞭太(早稲田大学)

今年の8~9月にNTTソフトウェアイノベーションセンタのインターンシップ
に参加させていただきました.インターンシップではプロパティグラフに基づ
く推薦アルゴリズムの実装とそれを通じた課題抽出を行いました.NTTでのイ
ンターンシップは指導教員からの紹介がきっかけで知りましたが,調べていく
内にインターンシップのテーマが面白そうで是非参加したいと思いました.ま
たもともと研究所に興味を持っていたので実際の企業の研究の場ではどのよう
に研究が進められているのか,どのような雰囲気なのかを知りたいという思い
もありました.

インターンシップでは今まで持っていなかった知識を取り入れることができま
した.インターンシップを通じて取り組んだテーマに関する知識のみならず,
成果発表の資料づくりに関することや論文の書き方に関する知識も得られまし
た.また異なる環境に一ヶ月以上身を置いて研究をしていたという体験そのも
のが新鮮で楽しく感じました.社員の方々から色々なアドバイスを頂いたり社
員同士で議論している様子を見たりして,活発に議論できる環境が大事だと感
じました.

また大学ではベイジアンネットワークを用いた購買行動の分析を行っているの
ですが,普段扱わないグラフデータベースを用いてプロジェクトを進めていく
ため,はじめの数日は知識が足りずその操作に四苦八苦していました.頂いた
資料などから自分で調査して進めていき,どうしても詰まったときはメンター
の方にアドバイスを頂いたり,相談したりしてどうにか進めていくことができ
ました.

社員のみなさんが暖かく受け入れてくださったことがインターンシップで特に
印象的でした.毎日,昼食に誘っていただきそこで色々と企業に関することや,
研究に関わることなど貴重なお話を聞かせていただきました.また学会で発表
を行ってきた社員の方の報告会も大変興味深く拝聴させていただきました.学
会にどういう傾向があり何が興味深かったかなど,普段聞くことのできない研
究者の方の意見を聞くことができ,大変刺激を受けました.

インターンシップを通じて自分の成長を感じたとともに,より向上心を持って
取り組む必要性を感じるとても良い体験をさせていただきました.インターン
シップでは普段大学で取り組んでいる時間以上に密度が濃い時間を過ごし,成
長をすることができます.それと同時に企業の実際の空気を感じることもでき
るので積極的に参加したほうが良いと思います.

(河部 瞭太 早稲田大学)

---------------------------------------------------------------------

■4■ VLDB 突破会へのお誘い 鬼塚 真(大阪大学)

VLDB国際会議が2020年に東京で開催されることが決定され,これをきっかけと
して日本のデータベース研究コミュニティの研究力・技術力を強化する取り組
みとして「VLDB突破会」を開始することとしました.データベース系の3大国
際会議(SIGMOD/VLDB/ICDE)の日本開催は,1986年のVLDB,2005年のICDE以来で
あり,日本から多くの論文を投稿・採択されることが日本の国際的な存在感を
示す上で重要になります.

VLDB突破会は,その名が表す通り「VLDBを突破する(acceptを勝ち取る)」こ
とを直近の目標と定め,以下の3点を運営方針としています.
1.SIGMOD/VLDBあるいはそれらに準じるレベルの国際会議において採択経験の
   ある方々に,VLDB突破会への参加・メンターとしての協力をお願いする.
2.メンターによるサポートの元,若手研究者のSIGMOD/VLDBへの論文投稿を支
   援する.
3.SIGMOD/VLDB の投稿締め切り一か月前後の時期を含めて,年に3-4回のVLDB
   突破会(研究会)を開催する.特に,投稿締め切り1か月前のVLDB突破会では,
   参加者が投稿論文を完成させ参加することで,論文執筆・採択ノウハウに関
   するアドバイスを得て,締め切りまでに投稿論文の質を改善できるよう運営
   する.

VLDB突破会はこれまで2回実施してきています(8/7 決起集会,10/12 SIGMOD2018
投稿に向けた会).会の構成としては,石川佳治(名大)先生から PVLDB の
reviewer の立場から査読の状況に関して共有して頂き,藤原靖宏(NTT)さん・
井上拓(IBM)さんからはアルゴリズム系・システム系の研究テーマで
VLDB/SIGMOD での採択に至った経験談を共有頂きました.会のメインパートで
は,メンターを除いた全参加者が投稿論文の内容を発表し,質疑を行ってきて
います.質疑では,SIGMOD/VLDB の reviewer 目線で厳しいコメントが飛び交
い,また「reviewer に対してどのようにアピールするべきか」を議論するなど,
研究会として本来あるべき姿(の1例)が実現できていると考えています.更に,
研究論文だけではなく開発事例に関する発表もあり,SIGMOD/VLDB の
industrial paper 採択も支援します.

最終的にVLDB2020 で論文発表するためには,2019/3/1 が最終の投稿締め切
りであり(実際には,3/1閉め切りは採択率が厳しいので,1/1 あるいは 2/1
閉め切りを目指すのが望ましい),今から2年強の期間があるものの,2-3回程
度の reject の可能性を考慮すると,まさに今から準備を始める必要があり
ます.
VLDB突破会の今後の計画としては,11/27 には VLDB2018 投稿に向けた会を
予定しており,特に VLDB2018 への投稿を考えている方は,是非ご参加くだ
さい(VLDB突破会に登録していない参加希望者は鬼塚(onizuka [at] ist.osaka-u.ac.jp)までご連絡ください).また,来年度に向けてSIGMOD/VLDB にチャ
レンジしたい方は,extended abstract の形で論文を準備して頂き,現在の
アイデアのブラッシュアップをする機会としてVLDB突破会をご活用ください.
(鬼塚 真 大阪大学)

========================================================================

--
Yasuhiro Fujiwara, Ph.D.
NTT Software Innovation Center
Tel: +81 422 59 2824