AI・機械学習・データサイエンス– category –
-
AI・機械学習・データサイエンス
DeepSpeed — 大規模モデル学習を可能にしたMicrosoftの分散基盤
DeepSpeedは、Microsoft Researchが2020年2月に公開したPyTorch向けの分散学習・推論最適化ライブラリで、数十億〜数兆パラメータの巨大モデルを限られたGPU資源で訓練できるようにする一連の技術を提供します。中核となるのが「ZeRO」(Zero Redundancy O... -
AI・機械学習・データサイエンス
TRL — LLMを強化学習・選好学習でしつけるライブラリ
TRL(Transformer Reinforcement Learning)は、Hugging Face社が2020年に公開したPython製ライブラリで、Transformer系言語モデルを強化学習や選好学習でファインチューニングするための実装を集約しています。もともとはレオンドロ・フォン・ヴェラ氏が... -
AI・機械学習・データサイエンス
PEFT — LoRAなど省パラメータ微調整を束ねるライブラリ
PEFT(Parameter-Efficient Fine-Tuning)は、Hugging Face社が2023年初頭に公開したPython製ライブラリで、数十億〜数百億パラメータの巨大モデルを「ごく一部のパラメータだけ」更新して微調整する技法をまとめて扱えるようにします。代表的な手法はLoRA... -
AI・機械学習・データサイエンス
Accelerate — 1コードで分散学習を回すHugging Face製ランチャ
AccelerateはHugging Face社が2021年に公開したPython製の薄いラッパーライブラリで、通常のPyTorch学習コードに数行のラッパを加えるだけで、CPU・単一GPU・複数GPU・複数ノード・TPU・MPS(Apple Silicon)の各環境を切り替えて実行できるようにします。... -
AI・機械学習・データサイエンス
Datasets — Apache Arrow基盤のデータセットHub
DatasetsはHugging Face社が2020年に公開したPython製ライブラリで、機械学習で頻用されるデータセットを統一APIで読み込み・前処理・配布するための土台を提供します。内部はApache Arrowベースで、メモリマップで巨大ファイルを扱うため、数百GBのコーパ... -
AI・機械学習・データサイエンス
Tokenizers — Rust実装で高速化したHugging Face製トークナイザ
Tokenizersは、Hugging Face社がTransformersの周辺ライブラリとして2020年に公開したRust実装のトークナイザ群で、Python・Node.js・Rustから呼び出せるバインディングを備えています。BPE・WordPiece・Unigramといった主要アルゴリズムを単一API(normal... -
AI・機械学習・データサイエンス
SentencePiece — 言語非依存のサブワード分割エンジン
SentencePieceは、Googleが2018年に公開した言語非依存のサブワード分割ツールで、工藤拓氏らによる論文「SentencePiece: A simple and language independent subword tokenizer and detokenizer」と同時にOSSとして発表されました。事前に形態素解析を行... -
AI・機械学習・データサイエンス
Transformers — 事前学習モデルを扱う事実上の業界標準
Transformersは、ニューヨーク発のHugging Face社が2018年に公開したPython製ライブラリで、BERT・GPT・T5・LLaMAなどTransformerアーキテクチャの事前学習モデルを統一APIで扱える点が最大の特徴です。創業者のクレマン・ドラング氏、ジュリアン・ショー... -
AI・機械学習・データサイエンス
NLTK — 教育の場から始まったPython製NLPの古参
NLTK(Natural Language Toolkit)は、Pythonで自然言語処理を学ぶための教科書的ライブラリで、2001年にペンシルベニア大学のスティーブン・バード氏とエドワード・ローパー氏が学部生向け教材として開発を始めました。形態素解析・パージング・分類器・... -
AI・機械学習・データサイエンス
spaCy — 産業向けに振り切ったPython製NLPライブラリ
spaCyは、Pythonで動く自然言語処理ライブラリの代表格で、ベルリン拠点のExplosion AI(マシュー・ホニバル氏とイネス・モンタニ氏が2016年に設立)が2015年に最初のリリースを公開しました。コアはCythonで実装され、形態素解析・品詞タグ付け・固有表現...
