Vector Database — 埋め込みベクトルの近傍検索に特化したDB

2026年6月3日

Vector Database（ベクトルデータベース）は、テキスト・画像・音声などを高次元の埋め込みベクトルに変換した結果を格納し、「意味的に似ているもの」を高速に検索することに特化したデータベースです。従来のリレーショナルデータベースが完全一致やSQL条件での検索を得意とするのに対し、ベクトルDBはApproximate Nearest Neighbor（ANN、近似最近傍探索）アルゴリズムを用いて数百万～数十億件のベクトルから類似上位を一瞬で返します。LLM時代のRAGアーキテクチャに不可欠な基盤として、Pinecone、Weaviate、Qdrant、Milvus、Chroma、pgvectorなど多数のプロダクトが台頭しました。

この記事の目次

埋め込み・ANN・メタデータ
FAISSから商用DBまでの流れ
RAG以外も含めた用途
リレーショナルDB・全文検索との違い
まとめ

埋め込み・ANN・メタデータ

ベクトルDBの中心概念は、Embedding（埋め込み）・ANN（近似最近傍探索）・Metadata（メタデータ）の3つです。Embeddingは文章や画像をOpenAI text-embedding-3やSentence-BERT、bge-large-jaなどのモデルで数百～数千次元のベクトルに変換した結果で、「意味的な距離」がコサイン類似度やユークリッド距離で表せるようになります。ベクトルDBはこのベクトル群を効率的に保存し、クエリベクトルから近いものを素早く取り出す役割を担います。

高次元ベクトルの厳密な最近傍検索は計算量が大きくなるため、現代のベクトルDBではANNアルゴリズムが使われます。代表例はHNSW（Hierarchical Navigable Small World）、IVF（Inverted File）＋PQ（Product Quantization）、ScaNNなどで、正確性をわずかに犠牲にして数桁の高速化を実現します。さらに、ベクトルだけでなく「ユーザーID」「タグ」「日付」などのメタデータでフィルタリングしながら近傍検索する機能が標準的になっており、RAGや推薦システムでの実用性を支えています。

FAISSから商用DBまでの流れ

ベクトル検索の系譜は、2017年にFacebook AI Research（現Meta AI）が公開したライブラリFAISSに遡ります。FAISSはCPU／GPU両対応の最近傍探索ライブラリで、深層学習由来の埋め込み検索を実用化しました。同時期にGoogleはScaNN、Spotifyはアノイ（Annoy）を公開するなど、IT大手が次々と内製ライブラリをオープンソース化しています。当時は推薦システムや画像検索が主な用途で、ベクトルDBという独立カテゴリはまだ確立していませんでした。

2019年にはアミール・ホーマヤヤンマレキ（Edo Liberty）らが米国でPineconeを創業し、商用マネージドベクトルDBの先駆けとなります。2020年前後からはWeaviate（オランダ、SeMI Technologies）、Milvus（中国、Zilliz）、Qdrant（独）、Chroma（米）などのOSS／商用ベクトルDBが続々登場。2022年末のChatGPT以降は、RAGの必須コンポーネントとして注目を集め、PineconeがシリーズBで7億ドル評価額、Weaviate／Qdrant／Milvusも大型調達を受けました。PostgreSQLにpgvector拡張を入れる選択肢、ElasticやRedis、MongoDBがベクトル検索機能を追加する動きもあり、市場の裾野は急速に広がっています。

RAG以外も含めた用途

最も注目されている用途はLLM時代のRAGですが、ベクトルDBはそれ以前から推薦・検索・分類のバックエンドとして使われてきました。ECサイトでは、商品画像や説明文の埋め込みから類似商品を提案する「あなたへのおすすめ」コーナーや、ユーザーの行動履歴ベクトルからパーソナライズドな並び順を作る機能で活躍しています。動画配信サービスや音楽サービスでも、楽曲ベクトルから「似たような曲を続けて再生」する機能の裏側で同様の仕組みが動いています。

ほかにも、ニュースサイトでの重複記事検出、画像内検索（CLIPなどによる画像とテキストの統合ベクトル）、セキュリティ領域での通信ログ異常検知、医療画像の類似症例検索、特許明細書の先行技術調査など、「数十次元以上の特徴量で類似度を測る」あらゆる業務領域でベクトルDBが採用されつつあります。LLMが普及したことで「テキスト×ベクトル検索」のハードルが大きく下がり、これまで個別実装されていた多くの仕組みが、汎用ベクトルDBで標準化される流れに入っています。

リレーショナルDB・全文検索との違い

リレーショナルデータベースは厳密に構造化されたデータの整合性とSQLでの集計が得意で、ElasticsearchやOpenSearchのような全文検索エンジンはキーワードに対する完全一致・部分一致を高速に処理します。一方ベクトルDBは「意味が近いものを探す」用途に特化しており、それぞれ役割が分かれます。実際のシステムでは、RDBで業務データを管理し、ベクトルDBで意味検索を担当し、全文検索でキーワード一致を補う、というように複数を組み合わせる構成が一般的です。

また、ベクトル機能を持つRDB拡張（PostgreSQLのpgvectorなど）も急増しており、「規模が小さいうちは既存DBにpgvectorで十分、本格運用ではPineconeやMilvusなど専門ベクトルDBへ移行する」という段階的なアーキテクチャ選択がベストプラクティスになっています。ベクトルDBはLLM時代の「もう一つのデータ層」として、リレーショナル・ドキュメント・全文検索と並ぶ第四の主要DBカテゴリの地位を固めつつあります。

まとめ

Vector Databaseは埋め込みベクトルの近似最近傍検索に特化したDBで、FAISS発の系譜からRAG時代の主役へと駆け上がりました。Pinecone、Weaviate、Milvus、Qdrant、Chroma、pgvectorなど多彩な選択肢が揃い、RDBや全文検索と並ぶ第四のDBカテゴリへと成長しています。

※本記事はIT用語辞典の手書きドラフトです。公開前に最新情報・出典を確認のうえ加筆修正してください。

Post Views: 11