募集要項
【グループIT推進本部】(ソフトウェアエンジニア / 機械学習基盤の開発〜運用)機械学習を“裏側から”支えるエンジニアを募集!
会社名
ポジション名
ソフトウェアエンジニア / 機械学習基盤の開発〜運用
仕事内容
機械学習基盤である ML Platformの開発から運用を行い、社内のAI技術者やプロダクトの開発効率化、パフォーマンス向上、コスト削減を支援しています。
当社は技術選定が自由なため、プライベートクラウドのML Platformを選択してもらうため、UXや機能を高いレベルで提供することがミッションとなります。
■業務内容
当社の機械学習基盤「ML Platform」の開発・運用を担当していただきます。社内のAI技術者やプロダクトチームが効率的かつ迅速に機械学習モデルの開発・デプロイを行えるよう、プラットフォームの機能強化や最適化を行います。
具体的な業務としては、
・物理GPUノードのセットアップ(OSインストールやパラメータチューニング)
・Kubernetesクラスタの構築・運用
・定期的なKubernetesクラスタのバージョンアップデート
・最新のKubernetesバージョンへのキャッチアップなど
・NVIDIA H100 / H200 やRoCEv2/RDMA、NCCLなどの技術検証・導入
・GPUインスタンスの提供
・機械学習ジョブの管理
・モデルのデプロイ機能の開発・運用
などを行い、ユーザーのニーズに応じた新機能の追加やUXの改善にも取り組んでいただきます。
サービスは主にKubernetes上で構築されているため、機械学習の知識に加え、Kubernetesカスタムコントローラー(Go言語)の開発など、kubernetesへの深い理解に基づいた学習サービスの開発・運用を担当します。
加えて、Kubeflowなどの機械学習エコシステムの検証・導入・コントリビュートを通じて、基盤の強化と機能拡充を図ります。
■ポジションの魅力
このポジションでは、最先端の技術に挑戦する機会が豊富にあります。最新のGPUハードウェアや機械学習フレームワーク、Kubernetesの新機能など、常に技術の最前線で活躍できます。
ソフトウェア開発からインフラ構築、機械学習の応用まで、多岐にわたる技術領域に携わることで、幅広いスキルを習得・活用することが可能です。
■部署について
社内のAI開発を支える機械学習基盤「ML Platform」の開発・運用を専門とするチームです。メンバーは各自が高い専門性と幅広い技術知識を持ち、協力しながらプラットフォームの強化と機能拡充を進めています。
ユーザーであるプロダクトチームやAI技術者との密なコミュニケーションを重視し、ニーズに即したサービス提供を心がけています。
<技術スタックと開発環境>
■プログラミング言語
Go言語
Python
■プラットフォーム・オーケストレーション
Kubernetes
Docker
■機械学習フレームワーク
TensorFlow
■分散処理技術
MPI
NCCL
RoCEv2/RDMA
■機械学習エコシステム
Kubeflow
Kueue
MPI Operator
■ハードウェア
NVIDIA GPU(H100など最新モデル)
高性能ネットワークインフラ
■開発手法
アジャイル開発
CI/CDの実践
■コミュニケーションツール
Slack
Confluence
JIRAなど
■その他の技術要素
パブリッククラウド(GCP、AWS)の知識活用
OSSコミュニティとの連携
当社は技術選定が自由なため、プライベートクラウドのML Platformを選択してもらうため、UXや機能を高いレベルで提供することがミッションとなります。
■業務内容
当社の機械学習基盤「ML Platform」の開発・運用を担当していただきます。社内のAI技術者やプロダクトチームが効率的かつ迅速に機械学習モデルの開発・デプロイを行えるよう、プラットフォームの機能強化や最適化を行います。
具体的な業務としては、
・物理GPUノードのセットアップ(OSインストールやパラメータチューニング)
・Kubernetesクラスタの構築・運用
・定期的なKubernetesクラスタのバージョンアップデート
・最新のKubernetesバージョンへのキャッチアップなど
・NVIDIA H100 / H200 やRoCEv2/RDMA、NCCLなどの技術検証・導入
・GPUインスタンスの提供
・機械学習ジョブの管理
・モデルのデプロイ機能の開発・運用
などを行い、ユーザーのニーズに応じた新機能の追加やUXの改善にも取り組んでいただきます。
サービスは主にKubernetes上で構築されているため、機械学習の知識に加え、Kubernetesカスタムコントローラー(Go言語)の開発など、kubernetesへの深い理解に基づいた学習サービスの開発・運用を担当します。
加えて、Kubeflowなどの機械学習エコシステムの検証・導入・コントリビュートを通じて、基盤の強化と機能拡充を図ります。
■ポジションの魅力
このポジションでは、最先端の技術に挑戦する機会が豊富にあります。最新のGPUハードウェアや機械学習フレームワーク、Kubernetesの新機能など、常に技術の最前線で活躍できます。
ソフトウェア開発からインフラ構築、機械学習の応用まで、多岐にわたる技術領域に携わることで、幅広いスキルを習得・活用することが可能です。
■部署について
社内のAI開発を支える機械学習基盤「ML Platform」の開発・運用を専門とするチームです。メンバーは各自が高い専門性と幅広い技術知識を持ち、協力しながらプラットフォームの強化と機能拡充を進めています。
ユーザーであるプロダクトチームやAI技術者との密なコミュニケーションを重視し、ニーズに即したサービス提供を心がけています。
<技術スタックと開発環境>
■プログラミング言語
Go言語
Python
■プラットフォーム・オーケストレーション
Kubernetes
Docker
■機械学習フレームワーク
TensorFlow
■分散処理技術
MPI
NCCL
RoCEv2/RDMA
■機械学習エコシステム
Kubeflow
Kueue
MPI Operator
■ハードウェア
NVIDIA GPU(H100など最新モデル)
高性能ネットワークインフラ
■開発手法
アジャイル開発
CI/CDの実践
■コミュニケーションツール
Slack
Confluence
JIRAなど
■その他の技術要素
パブリッククラウド(GCP、AWS)の知識活用
OSSコミュニティとの連携
求める経験
【必須の経験・スキル】
以下全てを満たす経験をお持ちの方
・計算機科学に対する基本的な知識および理解
・機械学習や GPU に対する基本的な知識および理解
・Linux 環境における開発および運用経験
・Kubernetes などのコンテナオーケストレーションツールを用いた運用経験
・プログラミング言語を用いた 3 年以上の開発経験(Go が望ましい)
【歓迎する経験・知識】
以下の経験・知識を一つでもお持ちの方
・Kubernetes カスタムコントローラーの開発経験
・Kubernetes 各種認定資格の取得(CKA/CKAD/CKS/KCNA)
・最新の機械学習やフレームワークに対する知識および理解
・HPC を目的とした大規模計算クラスタに対する知識および理解
・MLOps の知識・実践経験
・Kubeflow, Kueue, MPI Operator の知識・運用経験(分散学習の経験)
・Web API におけるセキュリティ対策の経験
・パブリッククラウド(GCP/AWS/etc.)の AI 系サービスを用いた開発経験
・フロント(React)の開発経験
・OSS コミュニティでの開発経験
【求める人物像】
・多岐にわたる技術領域に好奇心を持ち、積極的に学習・挑戦できる方
・最新技術を常にキャッチアップしている方
・他者との協力を重視し、円滑なプロジェクト推進に貢献できる方
以下全てを満たす経験をお持ちの方
・計算機科学に対する基本的な知識および理解
・機械学習や GPU に対する基本的な知識および理解
・Linux 環境における開発および運用経験
・Kubernetes などのコンテナオーケストレーションツールを用いた運用経験
・プログラミング言語を用いた 3 年以上の開発経験(Go が望ましい)
【歓迎する経験・知識】
以下の経験・知識を一つでもお持ちの方
・Kubernetes カスタムコントローラーの開発経験
・Kubernetes 各種認定資格の取得(CKA/CKAD/CKS/KCNA)
・最新の機械学習やフレームワークに対する知識および理解
・HPC を目的とした大規模計算クラスタに対する知識および理解
・MLOps の知識・実践経験
・Kubeflow, Kueue, MPI Operator の知識・運用経験(分散学習の経験)
・Web API におけるセキュリティ対策の経験
・パブリッククラウド(GCP/AWS/etc.)の AI 系サービスを用いた開発経験
・フロント(React)の開発経験
・OSS コミュニティでの開発経験
【求める人物像】
・多岐にわたる技術領域に好奇心を持ち、積極的に学習・挑戦できる方
・最新技術を常にキャッチアップしている方
・他者との協力を重視し、円滑なプロジェクト推進に貢献できる方
語学力
英語力:
不要
勤務時間
勤務時間:10:00~19:00(休憩1時間)
残業時間:有
10:00~19:00(休憩1時間)
職種によっては裁量労働制適用
残業時間:有
10:00~19:00(休憩1時間)
職種によっては裁量労働制適用
勤務地
東京都
勤務地詳細
東京都渋谷区宇田川町40番1号 Abema Towers
東京本社
※屋内の受動喫煙対策 有(喫煙室あり)
東京本社
※屋内の受動喫煙対策 有(喫煙室あり)
転勤
転勤の有無:無
雇用形態
正社員
試用期間
試用期間の有無:
無
給与
給与形態:
年俸制
応相談
※年俸制
※経験・能力を考慮の上、当社規定により優遇します。
※半期ごとの目標管理制度を導入しており、評価に応じて年俸を見直します。
※選考の中で最終的なスキル・経験を加味した後、正社員・契約社員どちらかでの採用となります。
応相談
※年俸制
※経験・能力を考慮の上、当社規定により優遇します。
※半期ごとの目標管理制度を導入しており、評価に応じて年俸を見直します。
※選考の中で最終的なスキル・経験を加味した後、正社員・契約社員どちらかでの採用となります。
この求人にご興味をお持ちの方は
「転職支援サービス」にお申し込みください。
求人情報は変更が入り次第速やかに更新しています。また定期的(1~3ヵ月毎)に最新情報を確認し、更新しています。