CUEBiC TEC BLOG

キュービックTECチームの技術ネタを投稿しております。

デブサミ2023の登壇資料の構成をデータ分析で作成してみた_その1

キュービックでテックリードをやっている尾﨑です。Developers Summit 2023にCTO加藤と以下のテーマで登壇します。

2023年2月10日(金)11:50 : データウェアハウス構築時のアンチパターンを克服したサクセスストーリー

  • 登壇にあたって、単にやったことを発表したのでは面白くない
  • 何か今まで学んだデータサイエンスを活かしつつ登壇資料を作れないだろうか?

ということで今回は、登壇資料の構成をデータ分析でやったら面白いのでは?という仮説の基、 構成を考えたプロセスをご紹介します。

以下の流れで実施しました。

1.企画のスコープを決める
2.検討/導入/運用/改善の4工程のイベントを洗い出す
3.工程ごとのデータの散らばりを観測する
4.データを可視化する
5.企画で取り上げるべきイベントを可視化する
1.企画のスコープを決める

以前、採用施策を企画した際に活用させていただいたマケフリさんの4象限を使用。

makefri.jp

ここで、私なりに仮説を立てました。

結果、スコープはいかに限定して進めました。

③正解がないが、自分が体験したこと
④正解があり、自分が実践していること(あれば)
2.検討/導入/運用/改善の4工程のイベントを洗い出す

イメージのように以下の項目をそれぞれ洗い出してマッピングしました。

フロー
問題となった種別
問題の原因となった種別
企画の4象限
工程の4象限

ちなみに問題となった種別と問題の原因となった種別に関しては、技術負債の洗い出しマニュアルを 部署内で作成して運用を開始したので、技術負債の13の種類を応用しました。

3.工程ごとのデータの散らばりを観測する

データが洗い出せたので、工程ごとにデータの散らばり具合をみていきます。

工程は以下の不確実性とコストを4象限で表すことにします。

ここに、2で洗い出した結果を重み付けして散布図で表すと以下のようになりました。

※母集団とのずれを小さくするためにコストと不確実性の重みの平均を軸で表現しています。

導入/運用フェーズにデータのばらつきが見られますね。 既存システムの運用課題に対しての導入検討と導入フェーズでの課題が見えてきました。 さぁここからどのように分析していくのか。 続きは、その2でお伝えしたいと思います。

面白そう!と思ったらエントリーしてもらえると嬉しいです。 対象のエンジニアはデータエンジニア、データサイエンティスト、バックエンドエンジニア、データベースアドミニストレータ、Webアプリケーションエンジニアとなります。是非エントリーお願いします。

2023年2月10日(金)11:50 : データウェアハウス構築時のアンチパターンを克服したサクセスストーリー


speakerdeck.com


尾﨑 勇太(おざき ゆうた)

プログラミング未経験から金融系のSierを3年経て、教育関係のWEBベンチャーを1年、品質管理を3年、キュービック(現在)と業界歴9年目。 結婚・子育てで開発を離れていたが、自社開発をしたいという思いが募り、キュービックに参画。 残される側の立場を複数社で経験し、技術負債の返済と再構築を実施してきたためマイナスからゼロ。ゼロからイチが得意。 現在はDWHの基盤構築をしながら新規プロダクトのデータ分析などを中心に実施。