データベース・データ管理– category –
-
データベース・データ管理
Apache Arrowとは|メモリ列形式の業界標準を徹底解説
Apache Arrow(アロー)は2016年にWes McKinneyらが立ち上げた、言語横断のインメモリ列指向データ形式である。pandasやParquetなど既存ライブラリが各々独自のメモリレイアウトを持っていたためにデータを交換するたびにシリアライズ/デシリアライズが必... -
データベース・データ管理
Apache ORCとは|Hive生まれの高密度列指向フォーマット
Apache ORC(Optimized Row Columnar)は2013年にHortonworksがHive用に開発した列指向ファイル形式で、当時主流だったRCFileとTrevniを置き換えるべく設計された。Parquetと並ぶHadoop系の二大列指向フォーマットとして知られ、Hive・Presto・Trino・Spar... -
データベース・データ管理
Apache Avroとは|スキーマ進化に強い行指向データ形式
Apache Avro(アヴロ)は2009年にHadoopの主要メンテナDoug Cuttingが発案した行指向のデータシリアライズフォーマットで、Apache Software Foundationのトップレベルプロジェクトとして発展してきた。Protocol BuffersやThriftと並ぶバイナリ表現でありな... -
データベース・データ管理
Apache Parquetとは|列指向ファイル形式の決定版を解説
Apache Parquet(パーケ)は2013年にTwitterとClouderaが共同で公開したオープンソースの列指向ファイル形式で、Hadoopエコシステムから生まれながら現在ではSpark・Presto・Trino・DuckDB・BigQuery外部テーブルなど多くの分析エンジンが第一級でサポート... -
データベース・データ管理
Redis Searchとは何かインメモリDBで実現するベクトル検索
Redis Searchは、インメモリデータストアのRedisに全文検索とベクトル検索の機能を追加するモジュールで、Redis Stackや旧RediSearchとして提供されてきました。Redisが本来得意とする低レイテンシなキーバリュー操作と組み合わせ、ベクトル類似度検索とBM... -
データベース・データ管理
pgvectorとはPostgreSQLにベクトル検索を載せる拡張
pgvectorはAndrew Kaneが2021年から開発しているPostgreSQLのオープンソース拡張で、vectorという新しい型と、L2距離・コサイン距離・内積などの演算子、IVFFlatおよびHNSWインデックスを追加します。ベクトル検索専用DBを別途運用せず、既存のPostgreSQL... -
データベース・データ管理
Marqoとは何かテンソル検索を掲げるエンドツーエンド検索エンジン
MarqoはMarqo AI社が2022年に公開したオープンソースの検索エンジンで、自社では「テンソル検索(tensor search)」と呼ぶアプローチを核に据えています。テキストや画像を細かいチャンク単位の埋め込みに分解し、それらをまとめてテンソルとして保持する... -
データベース・データ管理
LanceDBとはRust製の組込み型ベクトルデータベース
LanceDBはLance Labs(旧Eto Labs)が2023年から公開しているオープンソースのベクトルデータベースで、Rust言語で書かれた本体と、Pythonおよび TypeScriptクライアント、独自の列指向ファイルフォーマットLanceを組み合わせた構成を取ります。SQLiteのよ... -
データベース・データ管理
Faissとは何かMeta製ベクトル類似度検索の定番ライブラリ
FaissはMeta(旧Facebook)のAIリサーチ部門であるFAIRが2017年に公開した、C++とPythonバインディングで構成されるベクトル類似度検索ライブラリです。データベースではなくライブラリとして提供される点が独特で、アプリケーション内部に組み込んで使う... -
データベース・データ管理
Milvusとは何かCNCFが育てる大規模ベクトルDB
MilvusはZilliz社が2019年に公開し、現在はCNCF(Cloud Native Computing Foundation)のインキュベーションプロジェクトとなっているオープンソースのベクトルデータベースです。コンピュート、ストレージ、メタデータを分離したクラウドネイティブ志向の...
