MENU

LlamaIndex — LLMへ自社データを流し込むためのRAGフレームワーク

LlamaIndex アイキャッチ
LlamaIndex

LlamaIndexは元Robloxの機械学習エンジニアであるジェリー・リュー(Jerry Liu)が2022年11月にOSSとして公開した、LLM向けのデータ取り込み(インジェスト)とインデックス構築に特化したフレームワークです。公開当初はGPT Indexという名前で、自前ドキュメントをノード単位に分割しベクトルDBへ流し込むRAGパイプラインを数行のPythonで書けるようにした点が評価され、急速にスター数を伸ばしました。2023年にはLlamaIndex Inc.として法人化し、企業向けのマネージドRAG基盤LlamaCloud/LlamaParseを軸にしたビジネスへ展開しています。

目次

この記事の目次

  1. ドキュメント・ノード・インデックス
  2. GPT IndexからLlamaCloudまで
  3. 現場でのRAG構築シナリオ
  4. LangChainとの違いと使い分け
  5. まとめ

ドキュメント・ノード・インデックス

ドキュメント・ノード・インデックス

LlamaIndexのデータ構造は、Document・Node・Indexの三層に整理されています。Documentは元ファイル(PDF、HTML、Slack履歴、Notionページなど)を読み込んだもの、Nodeはそれを意味のある単位に切り分けた断片(チャンク)、Indexはノード群に対する検索構造(ベクトル検索、リスト、ツリー、キーワードなど)を表します。ユーザーはどのIndexを選ぶかと、どんなクエリエンジンを上に被せるかを宣言するだけで、RAGパイプラインを構築できます。

近年は「Property Graph Index」のようなナレッジグラフ型インデックスや、複数モダリティをまとめるマルチモーダルインデックスも整備されました。クエリ時には「Retriever」「Postprocessor」「Synthesizer」が直列に動き、検索結果のリランクや要約合成までを差し替え可能なコンポーネントとして扱えるようになっています。「データを入れて、クエリエンジンに任せる」シンプルさを残しつつ、内部は十分に拡張可能というのがLlamaIndexの設計思想です。

GPT IndexからLlamaCloudまで

GPT IndexからLlamaCloudまで

ジェリー・リューは2022年11月、ChatGPTが世間を賑わせる直前のタイミングで「GPT Index」という名前のOSSを公開しました。「GPT-3でドキュメントQAを作るための再帰要約/ツリーインデックス」が原型で、コードは数百行という小規模なライブラリでしたが、ChatGPT登場後にRAGへの関心が爆発したことで一気にスター数が伸び、2023年初頭にLlamaIndexへ改名されました。改名後はLlama2のMeta製モデルとは独立した存在として、ジェネリックなRAG基盤を志向するようになります。

2023年中盤にはLlamaIndex Inc.が設立、Greylock主導のシリーズAで資金調達を実施し、商用クラウドサービスへと展開しました。2024年に登場したLlamaCloudは、PDFや複雑なレイアウトの文書を高精度に分解する「LlamaParse」、そして社内ドキュメントを安全に取り込み・更新できるマネージドRAGサービスを提供します。「OSSライブラリは自由に使い、企業導入はLlamaCloudで運用負荷を下げる」というLangChain Inc.と似た商用モデルを採っており、LLMアプリ基盤を巡る競合関係を深めています。

現場でのRAG構築シナリオ

現場でのRAG構築シナリオ

LlamaIndexは「自社データ×LLM」を素早く形にしたい場面で特に強みを発揮します。PDF議事録をベクトルDBに流し込み、「先月のリリース会議で決まったポイントは?」と聞ける社内検索を作ったり、API仕様書とリリースノートを取り込んで開発者向けQAボットを立ち上げたり、営業資料を取り込んで「業界別ピッチの草案」を生成支援したり、というシナリオが定番です。

LlamaCloudのLlamaParseは、表組み・図・段組み・脚注を含む複雑なPDFの構造化に強く、従来のテキスト抽出ライブラリでは欠落してしまう要素を保持したままチャンク化できる点が評価されています。また、ナレッジグラフ型のProperty Graph Indexを使えば、エンティティ間の関係を辿る形のレポート生成も可能で、コンサルティングや法務、研究などナレッジ集約型の業務でも導入が広がっています。LangChainとの併用も多く、データ層をLlamaIndex、エージェント層をLangChainに任せる組み合わせは典型的なパターンです。

LangChainとの違いと使い分け

LangChainとの違いと使い分け

LlamaIndexとLangChainはしばしばライバルとして語られますが、出発点と得意領域はやや異なります。LlamaIndexはRAGに専念しており、データ取り込み・分割・インデックス・検索・合成のパイプラインに最適化されています。対してLangChainはRAGも扱うものの、エージェント、ツール連携、複雑ワークフローを含むLLMアプリ全般を視野に入れた汎用フレームワークという位置付けです。

「自社データに答えさせるQAだけ作りたい」「PDFが複雑で構造化に苦労している」場合はLlamaIndexが第一候補になり、「エージェントが複数ツールを使い分けるアプリを作りたい」「観測やデプロイまで一気通貫で揃えたい」場合はLangChainを採る、あるいは両者を組み合わせる構成が現場では一般的です。LLM応用アーキテクチャの「データ層」を担うデファクトとして、LlamaIndexの存在感は今後も増していくと見られています。

まとめ

LlamaIndexはジェリー・リューが2022年に公開したRAG特化のフレームワークで、Document・Node・Indexの三層で自社データをLLMに繋ぐ標準ツールへと成長しました。LlamaCloud/LlamaParseの商用化により、複雑なPDFを含むエンタープライズRAGの運用基盤としても定着しつつあります。

※本記事はIT用語辞典の手書きドラフトです。公開前に最新情報・出典を確認のうえ加筆修正してください。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

コメント

コメントする

目次