トレーニング > AI /機械学習 > Deploying Small Language Models (LFWS307)
インストラクター主導のコース

Deploying Small Language Models (LFWS307)

実世界における小規模言語モデルの導入を習得することで、MLOpsおよびAIインフラストラクチャにおける重要な役割を担うための準備を整えます。Hugging Face、llamafile、PAIMLを使用して、ラップトップ、サーバー、エッジ、ブラウザ環境にSLMを導入します。

対象者

ノートパソコン、サーバー、エッジ、ブラウザーのターゲット全体で小規模な言語モデルを実行するための移植可能で本番環境対応のアプローチを必要とする、実際の環境に AI を導入する MLOps エンジニア、バックエンド エンジニア、プラットフォーム エンジニア、開発者向けです。
折りたたむ 続きを読む
学習内容

Hugging Face、llamafile、PAIML Rust スタック (RAG パイプライン、ストリーミング API、ブラウザベースの WASM デプロイメント、可観測性など) を使用して、モデルのソーシングとパッケージ化から実稼働ワークロードの提供、スケーリング、監視まで、小規模言語モデルをエンドツーエンドでデプロイする方法を学習します。
折りたたむ 続きを読む
身につく知識

サーバー、エッジ、ブラウザ環境全体にわたるエンドツーエンドの SLM 展開を習得し、Phi、Gemma、Llama、Qwen、Mistral を使用してスケーラブルでコスト効率の高い AI を構築することで、新たな AI キャリア チャンスに備えることができます。
折りたたむ 続きを読む
おもなテーマ
すべて展開
すべて折りたたむ
コースの紹介
Hugging Faceモデル エコシステム
ラボ2.1。Phi-3-miniとQwen2.5-1.5Bをダウンロードする。モデルカード、ライセンス、ファイルサイズを比較する。セーフテンソルをGGUFに変換する。
Llamafile:ゼロ依存デプロイ
ラボ3.1. Phi-3-mini GGUFからllamafileを作成する。CLI補完とHTTP APIをテストする。CPUとGPUのトークン/秒ベンチマークを行う。
llama.cpp による量子化
ラボ4.1. Qwen2.5-1.5BをQ4/Q5/Q8に量子化する。サイズ、速度、パープレキシティ(perplexity)をベンチマークする。8GB RAM搭載のターゲットに最適な量子化を選択する。
Llamafile HTTP サービング
ラボ5.1。llamafileサーバーをデプロイする。Python/curlクライアントを構築する。ストリーミング補完をテストする。10人の同時ユーザーによる負荷テストを行う。
Batutaによるプロダクションサービング
ラボ6.1。Batuta推論パイプラインを構築する。レイテンシをllamafileと比較し、連続バッチ処理によってp99で100ms未満を達成する。
Patcha + Hugging Face埋め込みモデルによるRAG
ラボ7.1。all-MiniLM-L6-v2埋め込みを用いて1000件のドキュメントをインデックス化する。Phi-3を用いてRAGパイプラインを構築する。RAGと純粋な生成の精度を比較する。
エッジ デプロイメント
ラボ8.1. Q4量子化モデルをARMデバイス(またはエミュレータ)にデプロイする。4GBのRAM制約下でインタラクティブな推論を実現する。
Presentar によるブラウザ展開
ラボ9.1。Presentar経由でPhi-3 Q4をブラウザにデプロイする。最初のトークンのレイテンシを500ミリ秒未満にする。ストリーミング機能を備えたチャットインターフェースを構築する。
Entrenarによるモニタリング
Kubernetes デプロイメント
Capstone:マルチターゲット デプロイ
コース概要

前提条件
知識/スキルの前提条件:

受講者は、Linuxコマンドラインスキル、大規模言語モデル(プロンプト、トークン、推論を含む)の基礎知識、HTTP/REST APIの概念に精通している必要があります。必須ではありませんが、Rustの基礎知識(PAIMLスタックのカスタマイズに役立ちます)とDockerの基礎知識(コンテナベースの代替手段を理解するのに役立ちます)も推奨されます。.

ラボ環境の前提条件:

  • Linux/macOS/WSL2
  • 16GB RAM、50GBディスク
  • オプション: NVIDIA GPU 8GB+ VRAM