AI・機械学習・データサイエンス– category –
-
AI・機械学習・データサイエンス
CatBoost — Yandex発、カテゴリ変数に強い勾配ブースティング
CatBoost(Categorical Boosting)はロシアの検索・ITサービス大手Yandexが2017年に公開した勾配ブースティング決定木ライブラリです。高カーディナリティのカテゴリ変数を前処理なしで直接扱える設計と、対称(oblivious)決定木による高速推論が特徴で、... -
AI・機械学習・データサイエンス
LightGBM — Microsoftが磨いたleaf-wise高速勾配ブースティング
LightGBM(Light Gradient Boosting Machine)はMicrosoftリサーチアジアが2016年に公開した勾配ブースティング決定木ライブラリです。ヒストグラムベースの分岐探索と、葉単位で深く木を伸ばすleaf-wise成長戦略を組み合わせ、同等の精度ならXGBoostより... -
AI・機械学習・データサイエンス
XGBoost — Kaggleを席巻した勾配ブースティング決定木の定番
XGBoost(eXtreme Gradient Boosting)はワシントン大学の博士課程在籍中だった陳天奇(Tianqi Chen)氏が2014年に開発を始めたオープンソースの勾配ブースティング決定木ライブラリです。従来のGBDT実装を正則化項・並列計算・スパース対応・キャッシュ最... -
AI・機械学習・データサイエンス
Matplotlib とは Python可視化の元祖にして定番
Matplotlib は、Python における 2 次元・3 次元グラフ描画のデファクトスタンダードとなっている OSS 可視化ライブラリです。2003 年に神経科学者の John D. Hunter が、MATLAB に代わる無償の科学可視化環境を求めて開発を始め、その後コミュニティの貢... -
AI・機械学習・データサイエンス
NumPy とは 科学計算を支える多次元配列の礎
NumPy は、Python における多次元配列(ndarray)と数値計算のためのライブラリで、科学計算・機械学習・データ解析のあらゆる場面で土台として使われています。Travis Oliphant が 2005〜2006 年に、それまで分裂していた Numeric と Numarray を統合する... -
AI・機械学習・データサイエンス
pandas とは PythonデータフレームのデファクトOSS
pandas は、Python で表形式データ(DataFrame)と時系列データを扱うための OSS ライブラリで、データサイエンスの世界における事実上の標準ツールです。2008 年に Wes McKinney がヘッジファンド AQR Capital での金融分析業務をきっかけに開発を始め、2... -
AI・機械学習・データサイエンス
RAG — 検索で根拠を補い生成LLMの幻覚を抑える基盤手法
RAG(Retrieval-Augmented Generation、検索拡張生成)は、外部の知識源を検索した結果を生成モデルのプロンプトに差し込み、事実根拠を補強しながら回答を生成する手法です。Facebook AI Research(FAIR、現Meta AI)のパトリック・ルイス、エチエンヌ・... -
AI・機械学習・データサイエンス
LlamaIndex — LLMへ自社データを流し込むためのRAGフレームワーク
LlamaIndexは元Robloxの機械学習エンジニアであるジェリー・リュー(Jerry Liu)が2022年11月にOSSとして公開した、LLM向けのデータ取り込み(インジェスト)とインデックス構築に特化したフレームワークです。公開当初はGPT Indexという名前で、自前ドキ... -
AI・機械学習・データサイエンス
LangChain — LLMアプリ開発を一気に普及させたフレームワーク
LangChainは元Robust Intelligence社のハリソン・チェイス(Harrison Chase)が2022年10月にOSSとして公開した、大規模言語モデル(LLM)を中心に据えたアプリケーション開発フレームワークです。プロンプト、チェーン、エージェント、ツール、メモリ、ベ... -
AI・機械学習・データサイエンス
GPT-4 — OpenAIが業界標準に押し上げたTransformer型LLM
GPT-4はOpenAIが2023年3月14日に公開したGPTシリーズ第4世代の大規模言語モデルで、Transformerデコーダ構造をベースに、テキストと画像の両方を入力として扱えるマルチモーダル能力を初めて広く実用化しました。2018年のGPT-1、2019年のGPT-2、2020年のGP...
