Microsoft Foundry Local 入門 — ローカル AI 環境をインストーラ1つで社内配布する方法

クラウド AI サービスを使いたいが、社外にデータを出せない——そんなジレンマを抱える企業は少なくありません。データプライバシーの懸念、通信コスト、ネットワークが不安定な現場でのレイテンシなど、クラウド AI には解決しにくい課題があります。

2026 年 4 月、Microsoft がこの課題に正面から応える Foundry Local を GA（一般提供）しました。ローカルデバイス上で AI モデルを動かせるエンドツーエンドのソリューションで、Azure サブスクリプション不要、トークン課金ゼロ、オフラインでも動作します。本記事では、Foundry Local の概要からインストール、基本操作、企業導入の勘所までをまとめます。

Foundry Local とは何か

Foundry Local は、Microsoft が提供するローカル AI 推論ランタイムです。クラウドの Azure AI Foundry と同じモデルカタログの一部を、手元の PC やワークステーションで実行できます。

主な特徴は次のとおりです。

軽量ランタイム — ONNX Runtime ベースの推論エンジンをアプリに約 20 MB で組み込める
厳選されたモデルカタログ — Phi-4、Qwen、DeepSeek、Mistral、GPT OSS、Whisper など、デバイス向けに量子化・圧縮されたモデルを提供
自動ハードウェアアクセラレーション — GPU / NPU を自動検出し、最適な実行プロバイダを選択。GPU がなければ CPU にフォールバック
OpenAI 互換 API — OpenAI SDK をそのまま利用可能。エンドポイントを差し替えるだけで既存コードが動く
クロスプラットフォーム — Windows、macOS（Apple Silicon）、Linux に対応
データがデバイスから出ない — プロンプトも出力もすべてローカルで処理される

Azure AI Foundry のクラウド版と同じ SDK（C#、JavaScript、Python、Rust）を使えるため、「まずローカルで開発・テストし、本番はクラウドにスケール」 というハイブリッド運用がスムーズに行えます。

インストール手順

Windows

Windows では winget コマンド一発でインストールできます。

winget install Microsoft.FoundryLocal

macOS（Apple Silicon）

Homebrew を使います。

brew tap microsoft/foundrylocal
brew install foundrylocal

Linux

GitHub リリースページからインストーラをダウンロードするか、各ディストリビューション向けのパッケージを利用します。

# GitHub リリースページからダウンロード
# https://aka.ms/foundry-local-installer

インストール確認

インストール後、ターミナルで以下を実行して動作を確認します。

foundry --version

サービス接続エラーが出る場合は foundry service restart で解消できます。

対応モデル一覧と選び方

Foundry Local には、ローカル実行向けに最適化されたモデルが揃っています。foundry model list コマンドで一覧を確認できます。

チャット補完（テキスト生成）モデル

モデル	パラメータ数	特徴
Phi-4-mini	3.8B	軽量かつ高精度。メモリ 8 GB 程度の PC でも動作
Phi-4	14B	複雑な推論に強い。GPU 推奨
Qwen 2.5（0.5B / 7B / 14B）	各種	多言語対応。日本語にも比較的強い
DeepSeek-R1（7B / 14B）	各種	推論特化。数学・コーディング向け
Mistral 7B v0.2	7B	バランスの良い汎用モデル
GPT OSS 20B	20B	大規模なオープンソースモデル。高性能 GPU 向け

音声文字起こしモデル

モデル	特徴
Whisper	OpenAI 由来の音声認識モデル。会議録の文字起こし等に利用可能

マルチモーダルモデル

モデル	特徴
Phi-4-multimodal（5.6B）	音声・画像・テキストを統合的に処理

モデルの選び方

メモリが 8 GB 以下の PC → Phi-4-mini や Qwen 2.5-0.5B など軽量モデル
GPU 搭載の PC（VRAM 8 GB 以上） → Phi-4、Qwen 2.5-7B などの中規模モデル
高性能ワークステーション（VRAM 16 GB 以上） → GPT OSS 20B、Qwen 2.5-14B
音声文字起こしが必要 → Whisper
画像認識が必要 → Phi-4-multimodal

モデルは初回利用時に自動ダウンロードされ、ローカルにキャッシュされます。

基本的な使い方

CLI でモデルを試す

最もシンプルな使い方は、CLI でモデルを対話的に実行することです。

# モデル一覧を確認
foundry model list

# GPU モデルだけを絞り込み
foundry model list --filter device=GPU

# モデルを対話モードで実行（初回はダウンロードが走る）
foundry model run phi-4-mini

foundry model run を実行すると、モデルのダウンロード → ロード → 対話セッションの順に進みます。プロンプトを入力すれば、その場で回答が返ってきます。

OpenAI 互換 API として使う

Foundry Local はローカルで OpenAI 互換の REST API サーバーを立ち上げます。既存の OpenAI SDK を使ったコードがほぼそのまま動きます。

# Python での例
from openai import OpenAI

# Foundry Local のエンドポイントに接続
client = OpenAI(
    base_url="http://localhost:PORT/v1",  # PORT は foundry service status で確認
    api_key="not-needed"  # ローカルなので認証不要
)

response = client.chat.completions.create(
    model="phi-4-mini",
    messages=[
        {"role": "user", "content": "社内の情報セキュリティポリシーを要約してください"}
    ]
)

print(response.choices[0].message.content)

ポート番号は foundry service status で確認できます。

SDK を使ったアプリ組み込み

より本格的な開発には、各言語向けの SDK を使います。

# JavaScript
npm install foundry-local-sdk openai

# Python
pip install foundry-local-sdk openai

# C#
dotnet add package Microsoft.AI.Foundry.Local

# Rust
cargo add foundry-local-sdk

SDK を使うと、モデルのダウンロード・ロード・推論をプログラムから制御でき、サーバーを介さずインプロセスで推論を実行することも可能です。

サービス管理コマンド

日常的に使うサービス管理コマンドも覚えておくと便利です。

# サービスの状態確認（エンドポイント URL も表示）
foundry service status

# サービスの再起動
foundry service restart

# ロード中のモデル一覧
foundry service ps

# キャッシュの確認と管理
foundry cache list
foundry cache location
foundry cache remove <モデル名>

ユースケース

Foundry Local が特に威力を発揮する場面を紹介します。

社内チャットボット

社内の問い合わせ対応を AI 化したいが、FAQ データや社内規程をクラウドに送りたくない——そんなケースに最適です。Foundry Local + RAG（検索拡張生成）を組み合わせれば、社内ナレッジに基づく回答をすべてローカルで完結させられます。

機密文書の要約・分析

契約書、財務レポート、人事評価などの機密文書を AI で処理する場合、データ漏洩リスクはゼロにしたいところです。Foundry Local ならネットワークに一切データを流さずに要約や分類ができます。

オフライン環境での推論

工場、医療施設、建設現場など、インターネット接続が制限される環境でも AI を活用できます。モデルを事前にダウンロードしておけば、完全オフラインで動作します。

開発・テスト環境

クラウド API の利用料を気にせず、ローカルで何度でも試行錯誤できます。本番では Azure AI Foundry に切り替えるハイブリッド構成が理想的です。

Ollama / LM Studio との比較

ローカル AI 実行ツールは Foundry Local だけではありません。代表的なツールとの違いを整理します。

比較項目	Foundry Local	Ollama	LM Studio
開発元	Microsoft	Ollama, Inc.	LM Studio
モデル形式	ONNX（厳選カタログ）	GGUF（豊富なモデル数）	GGUF（GUI でブラウズ）
GUI	なし（CLI / API）	なし（CLI / API）	あり（デスクトップアプリ）
OpenAI 互換 API	あり	あり	あり
SDK	C# / JS / Python / Rust	なし（REST API のみ）	なし（REST API のみ）
ハードウェア最適化	自動（GPU / NPU / CPU）	手動設定が必要な場合あり	自動（GPU / CPU）
アプリ組み込み	SDK で直接組み込み可能	サーバー経由	サーバー経由
対応モデル数	少なめ（厳選）	非常に多い	非常に多い
企業向け機能	Microsoft エコシステム連携	コミュニティベース	コミュニティベース
ライセンス	MIT	MIT	独自ライセンス

どれを選ぶべきか

Foundry Local が向いているケース: Microsoft 製品との統合が重要、アプリに直接 AI を組み込みたい、ハードウェアの自動最適化を任せたい、Azure AI Foundry とのハイブリッド運用を見据えている
Ollama が向いているケース: 多種多様なモデルを試したい、API ファーストで開発したい、パフォーマンス（推論速度）を最優先したい
LM Studio が向いているケース: GUI で手軽にモデルを試したい、非エンジニアでも使いたい、初学者がローカル AI に入門する

企業導入時の検討ポイント

IT 管理者や経営者に向けて、導入前に検討すべきポイントをまとめます。

配布方法

Windows: winget に加え、MSIX パッケージが提供されているため、Intune や SCCM などの配布ツールと連携できます
macOS: Homebrew Tap を利用。MDM（モバイルデバイス管理）ツールとの併用が可能です
モデルの事前配布: foundry model download <モデル名> でモデルをダウンロードし、キャッシュフォルダ（foundry cache location で確認）を共有ドライブ経由で配布する運用も考えられます

GPU 要件

GPU	最低要件
NVIDIA	GeForce RTX 30 シリーズ以降（CUDA 12.5、ドライバ 32.0.15.5585 以上）
Intel	第 11 世代（TigerLake）以降の CPU / 第 12 世代以降の内蔵 GPU / 第 15 世代以降の NPU
Qualcomm	Snapdragon X Elite / X Plus（Hexagon NPU）
AMD	Vitis AI 対応 GPU（Adrenalin Edition 25.6.3 以上）
CPU のみ	GPU がなくても CPU フォールバックで動作（軽量モデル推奨）

GPU がなくても CPU だけで動作しますが、推論速度は大幅に低下します。社内配布する場合は、対象 PC のスペックに合わせてモデルサイズを選定することが重要です。

ライセンス

Foundry Local 本体は MIT ライセンス で提供されています
各 AI モデルには個別のライセンスがあります（foundry model info <モデル名> --license で確認可能）
NVIDIA CUDA や Intel OpenVINO などの実行プロバイダにも個別のライセンスがあります
商用利用の可否はモデルごとに異なるため、導入前に必ず確認してください

セキュリティ面の安心材料

プロンプトと出力はすべてローカルで処理され、Microsoft に送信されません
ネットワーク通信が発生するのは、モデルの初回ダウンロード時と実行プロバイダの更新時のみ
Azure サブスクリプション不要のため、クラウドサービスへの依存が発生しません

まとめ

Microsoft Foundry Local は、ローカル AI 実行のハードルを大きく下げるツールです。

インストールはコマンド 1 つで完了
データがデバイスから出ないためセキュリティ面で安心
OpenAI 互換 API があるため既存のコードや知識がそのまま活きる
クロスプラットフォームで Windows / Mac / Linux すべてに対応
Azure AI Foundry との連携でローカルとクラウドのハイブリッド運用が可能

「AI は使いたいが、データを外に出したくない」という企業にとって、Foundry Local は有力な選択肢になるでしょう。まずは winget install Microsoft.FoundryLocal（Windows の場合）でインストールして、foundry model run phi-4-mini で AI との対話を体験してみてください。

AI 環境の導入・構築でお困りの方は、GleamHub にお気軽にご相談ください。

CDN × 画像最適化でWebサイト表示速度を劇的改善 — 実装パターンと費用対効果ガイド

OpenAI Academy を社員研修に組み込む方法 — 無料で始めるAI人材育成プログラム設計

レガシー業務システムを"作り直さず"使いやすくする — UX改善の現実的アプローチ5選

Microsoft Foundry Local 入門 — ローカル AI 環境をインストーラ1つで社内配布する方法

Foundry Local とは何か

インストール手順

Windows

macOS（Apple Silicon）

Linux

インストール確認

対応モデル一覧と選び方

チャット補完（テキスト生成）モデル

音声文字起こしモデル

マルチモーダルモデル

モデルの選び方

基本的な使い方

CLI でモデルを試す

OpenAI 互換 API として使う

SDK を使ったアプリ組み込み

サービス管理コマンド

ユースケース

社内チャットボット

機密文書の要約・分析

オフライン環境での推論

開発・テスト環境

Ollama / LM Studio との比較

どれを選ぶべきか

企業導入時の検討ポイント

配布方法

GPU 要件

ライセンス

セキュリティ面の安心材料

まとめ

Microsoft Foundry Local 入門 — ローカル AI 環境をインストーラ1つで社内配布する方法

Foundry Local とは何か

インストール手順

Windows

macOS（Apple Silicon）

Linux

インストール確認

対応モデル一覧と選び方

チャット補完（テキスト生成）モデル

音声文字起こしモデル

マルチモーダルモデル

モデルの選び方

基本的な使い方

CLI でモデルを試す

OpenAI 互換 API として使う

SDK を使ったアプリ組み込み

サービス管理コマンド

ユースケース

社内チャットボット

機密文書の要約・分析

オフライン環境での推論

開発・テスト環境

Ollama / LM Studio との比較

どれを選ぶべきか

企業導入時の検討ポイント

配布方法

GPU 要件

ライセンス

セキュリティ面の安心材料

まとめ

関連記事

GitHub Copilot CLI 正式リリース — ターミナル AI 補完の始め方と Claude Code との使い分け

RAG最適化パターンカタログ2026 — 迷子にならないための全体マップ

Cursor 3がリリース！Claude Codeとの違い・使い分けを徹底比較【2026年版】