AI・機械学習・データサイエンス– category –
-
AI・機械学習・データサイエンス
DALL·Eとは|OpenAIが切り開いた画像生成AIの系譜
DALL·E(ダリ)は、OpenAIが2021年1月に発表したテキストから画像を生成するマルチモーダルAIです。シュルレアリスム画家サルバドール・ダリと、Pixarのロボット映画WALL·Eを掛け合わせた名前で、12億パラメータのGPT-3派生モデルとして登場しました。2022年... -
AI・機械学習・データサイエンス
Annoyとは何かSpotify製の近似最近傍探索ライブラリ
AnnoyはApproximate Nearest Neighbors Oh Yeahの略で、Spotifyのエンジニアだったエリック・バーンハードソンが2013年に公開したオープンソースの近似最近傍探索ライブラリです。音楽レコメンドにおけるユーザ・楽曲埋め込みの近傍探索を高速化するために... -
AI・機械学習・データサイエンス
Vertex AI — GCP統合ML/生成AIプラットフォーム
Vertex AIは2021年5月のGoogle I/Oで発表された、Google Cloudの機械学習統合プラットフォームである。それまでGCPに散在していたAI PlatformやAutoML、AI Hubといったプロダクトを一つの傘の下に再編し、データ取り込みからモデル学習、デプロイ、監視ま... -
AI・機械学習・データサイエンス
DeepSpeed — 大規模モデル学習を可能にしたMicrosoftの分散基盤
DeepSpeedは、Microsoft Researchが2020年2月に公開したPyTorch向けの分散学習・推論最適化ライブラリで、数十億〜数兆パラメータの巨大モデルを限られたGPU資源で訓練できるようにする一連の技術を提供します。中核となるのが「ZeRO」(Zero Redundancy O... -
AI・機械学習・データサイエンス
TRL — LLMを強化学習・選好学習でしつけるライブラリ
TRL(Transformer Reinforcement Learning)は、Hugging Face社が2020年に公開したPython製ライブラリで、Transformer系言語モデルを強化学習や選好学習でファインチューニングするための実装を集約しています。もともとはレオンドロ・フォン・ヴェラ氏が... -
AI・機械学習・データサイエンス
PEFT — LoRAなど省パラメータ微調整を束ねるライブラリ
PEFT(Parameter-Efficient Fine-Tuning)は、Hugging Face社が2023年初頭に公開したPython製ライブラリで、数十億〜数百億パラメータの巨大モデルを「ごく一部のパラメータだけ」更新して微調整する技法をまとめて扱えるようにします。代表的な手法はLoRA... -
AI・機械学習・データサイエンス
Accelerate — 1コードで分散学習を回すHugging Face製ランチャ
AccelerateはHugging Face社が2021年に公開したPython製の薄いラッパーライブラリで、通常のPyTorch学習コードに数行のラッパを加えるだけで、CPU・単一GPU・複数GPU・複数ノード・TPU・MPS(Apple Silicon)の各環境を切り替えて実行できるようにします。... -
AI・機械学習・データサイエンス
Datasets — Apache Arrow基盤のデータセットHub
DatasetsはHugging Face社が2020年に公開したPython製ライブラリで、機械学習で頻用されるデータセットを統一APIで読み込み・前処理・配布するための土台を提供します。内部はApache Arrowベースで、メモリマップで巨大ファイルを扱うため、数百GBのコーパ... -
AI・機械学習・データサイエンス
Tokenizers — Rust実装で高速化したHugging Face製トークナイザ
Tokenizersは、Hugging Face社がTransformersの周辺ライブラリとして2020年に公開したRust実装のトークナイザ群で、Python・Node.js・Rustから呼び出せるバインディングを備えています。BPE・WordPiece・Unigramといった主要アルゴリズムを単一API(normal... -
AI・機械学習・データサイエンス
SentencePiece — 言語非依存のサブワード分割エンジン
SentencePieceは、Googleが2018年に公開した言語非依存のサブワード分割ツールで、工藤拓氏らによる論文「SentencePiece: A simple and language independent subword tokenizer and detokenizer」と同時にOSSとして発表されました。事前に形態素解析を行...
