
PEFT(Parameter-Efficient Fine-Tuning)は、Hugging Face社が2023年初頭に公開したPython製ライブラリで、数十億〜数百億パラメータの巨大モデルを「ごく一部のパラメータだけ」更新して微調整する技法をまとめて扱えるようにします。代表的な手法はLoRA・QLoRA・Prefix Tuning・Prompt Tuning・IA3・AdaLoRA・OFTなどで、Transformersのモデルをラップして対象モジュールにアダプターを挿入し、元の重みは固定して追加分のみ学習する構造を共通APIで提供します。コンシューマGPUでもLLM微調整が現実的になった立役者として、生成AIブームを支えた裏方ライブラリです。
この記事の目次
- アダプター挿入で実現する省メモリ学習
- QLoRA登場と2023年以降の急成長
- ドメイン特化LLMでの主な用途
- フル微調整との比較
- まとめ
アダプター挿入で実現する省メモリ学習

PEFTの中心思想は「重み行列Wを直接更新するのではなく、低次元の補助行列を別途用意し、その差分だけを学習する」アプローチです。代表的なLoRA(Low-Rank Adaptation, 2021年マイクロソフトの胡氏らが提唱)は、各線形層に対しA・Bの2つの小さな行列を追加し、ΔW = B·Aで近似します。Aのランクを8〜64程度に抑えるだけで、更新対象のパラメータ数は元モデルの0.1〜1%に減ります。推論時は元のWにΔWを足してマージするだけで、追加の遅延もほぼ発生しません。
Prefix Tuning・Prompt Tuningはモデル入力に学習可能なベクトルを差し込み、IA3はモデル内部の活性化ベクトルを学習可能な拡張ベクトルで再スケールします。PEFTはこれらをすべてPeftModelという共通APIで扱えるようにし、get_peft_model(model, config)の1行で挿入が完了します。学習後の重み(アダプター)はわずか数十〜数百MBで保存でき、複数タスクで切り替えながら使える点も実用上の大きな利点です。
QLoRA登場と2023年以降の急成長

LoRAそのものは2021年6月にマイクロソフトリサーチの胡英東氏らがarXivに発表した手法ですが、各社が独自実装する時代が2022年まで続いていました。Hugging FaceはこれらをまとめるPEFTライブラリを2023年1月に公開し、最初のリリースでLoRA・Prefix Tuning・Prompt Tuning・P-Tuningの4手法をサポートしました。
同年5月、ワシントン大学のティム・デットマーズ氏らがQLoRA(4ビット量子化+LoRA)を発表すると状況は一変します。65BパラメータのLLaMAをコンシューマ向けの48GB GPU 1枚で微調整できることが示され、bitsandbytesと連携したPEFT実装が爆発的に普及しました。2024年以降は研究・実務ともに「LLMを自分のドメインに合わせる第一手段」としてPEFTが標準的に選ばれ、TransformersのTrainerやTRLのSFTTrainerに自然に組み込まれる位置になりました。AdaLoRA・OFT・DoRAなど新手法も続々と取り込まれています。
ドメイン特化LLMでの主な用途

PEFTの主な活躍場面は、汎用LLMを自社固有のデータで微調整するドメイン特化です。オープン重みのLLaMA・Mistral・Qwenなどをベースに、自社の問い合わせログや製品マニュアルでLoRA微調整を施し、「自社の口調と用語で答えるチャットLLM」を構築するパターンが定番化しています。ベースモデルは固定したまま、アダプターだけを差し替えれば部署ごとに別ペルソナを持たせる運用も可能です。
医療・法律のように専門用語が多い領域では、論文・判例コーパスでLoRAを学習することで、用語の取り違えを大きく減らせます。コード補完モデルもPEFTでドメイン特化が一般的になり、社内コードベースに即した補完が現実的なコストで提供できるようになりました。多言語LLMでは「言語ごとに別アダプター」を持たせ、推論時に切り替える設計も登場しており、PEFTは2024〜2026年のLLM応用のほぼ全領域で見かける基盤的存在になっています。
フル微調整との比較

従来のフル微調整は、モデルの全パラメータを学習対象としてGPUメモリに展開する必要があり、65BパラメータLLMのフル微調整には数百GBのVRAMが必要でした。PEFTでは更新対象が0.1〜1%程度に抑えられるため、同じモデルを48GB級のGPU 1枚で扱える計算になります。学習後の保存サイズも数十MB〜数百MBに収まり、Hubでアダプターを配布するエコシステムが成立しました。
性能面では、十分なデータがあればフル微調整の方がやや上回るケースもありますが、現実のドメイン特化タスクでは差はわずかで、コスト効率の差を埋めるほどではないことが多くの論文で報告されています。結果として「最初にPEFTで試して、十分でなければフル微調整」「ベースモデルは1つだけ持ち、アダプターを複数管理する」という運用がデファクトとなり、フル微調整は研究ベンチマークなど限られた場面に役割を絞った形になっています。
まとめ
PEFTはHugging Face社が2023年に公開したライブラリで、LoRA・QLoRA・Prefix Tuningなど省パラメータ微調整を統一APIで提供します。胡英東氏のLoRAやティム・デットマーズ氏のQLoRAの研究を取り込み、コンシューマGPUでも数十Bモデルを微調整できる時代を切り開きました。ベースモデルを固定しアダプターだけ差し替える運用は、ドメイン特化LLMの標準パターンとして定着しています。
※本記事はIT用語辞典の手書きドラフトです。公開前に最新情報・出典を確認のうえ加筆修正してください。

コメント