AI・機械学習・データサイエンス– category –
-
AI・機械学習・データサイエンス
Datasets — Apache Arrow基盤のデータセットHub
DatasetsはHugging Face社が2020年に公開したPython製ライブラリで、機械学習で頻用されるデータセットを統一APIで読み込み・前処理・配布するための土台を提供します。内部はApache Arrowベースで、メモリマップで巨大ファイルを扱うため、数百GBのコーパ... -
AI・機械学習・データサイエンス
Tokenizers — Rust実装で高速化したHugging Face製トークナイザ
Tokenizersは、Hugging Face社がTransformersの周辺ライブラリとして2020年に公開したRust実装のトークナイザ群で、Python・Node.js・Rustから呼び出せるバインディングを備えています。BPE・WordPiece・Unigramといった主要アルゴリズムを単一API(normal... -
AI・機械学習・データサイエンス
SentencePiece — 言語非依存のサブワード分割エンジン
SentencePieceは、Googleが2018年に公開した言語非依存のサブワード分割ツールで、工藤拓氏らによる論文「SentencePiece: A simple and language independent subword tokenizer and detokenizer」と同時にOSSとして発表されました。事前に形態素解析を行... -
AI・機械学習・データサイエンス
Transformers — 事前学習モデルを扱う事実上の業界標準
Transformersは、ニューヨーク発のHugging Face社が2018年に公開したPython製ライブラリで、BERT・GPT・T5・LLaMAなどTransformerアーキテクチャの事前学習モデルを統一APIで扱える点が最大の特徴です。創業者のクレマン・ドラング氏、ジュリアン・ショー... -
AI・機械学習・データサイエンス
NLTK — 教育の場から始まったPython製NLPの古参
NLTK(Natural Language Toolkit)は、Pythonで自然言語処理を学ぶための教科書的ライブラリで、2001年にペンシルベニア大学のスティーブン・バード氏とエドワード・ローパー氏が学部生向け教材として開発を始めました。形態素解析・パージング・分類器・... -
AI・機械学習・データサイエンス
spaCy — 産業向けに振り切ったPython製NLPライブラリ
spaCyは、Pythonで動く自然言語処理ライブラリの代表格で、ベルリン拠点のExplosion AI(マシュー・ホニバル氏とイネス・モンタニ氏が2016年に設立)が2015年に最初のリリースを公開しました。コアはCythonで実装され、形態素解析・品詞タグ付け・固有表現... -
AI・機械学習・データサイエンス
ContinueでつくるOSS版コーディングアシスタント環境
Continueは2023年にContinue.devが公開したオープンソースのAIコーディングアシスタントで、VS CodeおよびJetBrains IDEに常駐し、補完・チャット・編集を行う。Apache 2.0ライセンスでGitHubに公開されており、利用者は任意のモデル提供元、たとえばOpenA... -
AI・機械学習・データサイエンス
Claude Codeでターミナルから始めるAI共同開発の実践
Claude Codeは2024年にAnthropicが発表したターミナル常駐型のAIコーディングアシスタントで、シェル上で動きながらリポジトリの読解・編集・テスト実行・コミットまでを対話的に支援する。Claude 3.5 Sonnetをはじめとする上位モデルを推論基盤に据え、Mo... -
AI・機械学習・データサイエンス
Model Context Protocol入門 LLMと外部資産をつなぐ共通規格
Model Context Protocol(MCP)は、2024年11月にAnthropicがオープン仕様として公開した、LLMアプリケーションと外部データ・ツールをつなぐためのプロトコルである。AnthropicのClaude DesktopやClaude Code、サードパーティのエディタやエージェントから利... -
AI・機械学習・データサイエンス
AutoGenが提示するマルチエージェント会話の設計法
AutoGenは2023年にMicrosoft Researchが公開したマルチエージェントフレームワークで、「複数のエージェントが会話を交わしながらタスクを解く」というアプローチを体系化した。コードを書くAssistantAgentと、命令や検証を担うUserProxyAgentを組み合わせ...
