データベース・データ管理– category –
-
データベース・データ管理
Dagster とは データアセット指向の次世代基盤
Dagster は、ジョブやタスクではなく「Software-Defined Asset(SDA)」と呼ばれるデータ資産を一級概念に据えたオーケストレータです。元 Facebook で GraphQL を開発した Nick Schrock らが 2018 年に Elementl 社(現 Dagster Labs)を立ち上げ、開発を... -
データベース・データ管理
Apache Airflow とは Pythonで書くワークフロー基盤
Apache Airflow は、データ処理の手順を有向非巡回グラフ(DAG)として Python コードで定義し、時刻起動や依存関係に従って自動実行するワークフロー管理プラットフォームです。2014 年に Airbnb の Maxime Beauchemin が社内の集計ジョブを整理する目的... -
データベース・データ管理
Pinecone — 商用マネージドベクトルDBの代表格
Pineconeは米国Pinecone Systems社が提供するフルマネージドのベクトルデータベースサービスで、AWS研究所出身でYahoo!研究所の研究ディレクターを務めたエド・リバティ(Edo Liberty)が2019年に創業しました。ANN(近似最近傍探索)アルゴリズムの研究背... -
データベース・データ管理
Vector Database — 埋め込みベクトルの近傍検索に特化したDB
Vector Database(ベクトルデータベース)は、テキスト・画像・音声などを高次元の埋め込みベクトルに変換した結果を格納し、「意味的に似ているもの」を高速に検索することに特化したデータベースです。従来のリレーショナルデータベースが完全一致やSQL... -
データベース・データ管理
Apache Hadoop — ビッグデータ時代を切り開いた分散処理基盤
Apache Hadoopは2006年、米Yahoo!のDoug Cuttingらが Google の論文(GFS, MapReduce)を参考に開発した分散処理基盤です。「ノードが落ちる前提で大規模データを処理する」発想で、ビッグデータブームを牽引した立役者。HDFS(分散ファイルシステム)、YA... -
データベース・データ管理
Snowflake — クラウド時代のデータウェアハウスの代表格
Snowflakeは2012年、米Snowflake Computing社が「クラウド時代に最適化されたデータウェアハウス」を目指して開発した、完全マネージドのクラウドDWHプラットフォームです。「ストレージとコンピュートの分離」「複数クラウド対応」「データ共有機能」など... -
データベース・データ管理
Elasticsearch — 全文検索とログ分析を支える分散検索エンジン
Elasticsearchは2010年、オランダ人エンジニアShay Banonが妻のレシピ検索アプリのために作ったツール「Compass」を再設計して公開した、Apache Luceneベースの分散検索・分析エンジンです。「リアルタイムで全文検索+複雑な集計ができる」特性から、ECサ... -
データベース・データ管理
MariaDB — MySQL創業者が立ち上げた互換フォークRDBMS
MariaDBは2009年、MySQLの創業者ミカエル・ヴィデニウス(Monty)が、MySQLのOracle買収を機に立ち上げた完全互換フォークのオープンソースRDBMSです。「MySQLの自由なオープンソース版を保つ」目的で開発が始まり、現在はMariaDB財団が運営、商用版はMari... -
データベース・データ管理
Apache Spark — メモリ活用で速い大規模分散データ処理エンジン
Apache Sparkは2009年、カリフォルニア大学バークレー校AMPLab(後のRISELab)で開発が始まった分散データ処理エンジンです。2014年にApacheトップレベルプロジェクト化、商用版はDatabricks社が主導。Hadoop MapReduceの後継として「メモリを活用して高速... -
データベース・データ管理
MongoDB — ドキュメント指向NoSQLの代表格
MongoDBは2009年、米10gen社(現MongoDB Inc.)が公開したオープンソースのドキュメント指向NoSQLデータベースです。「JSONをそのまま保存・検索できる」直感的なデータモデルと、簡単に水平スケールする設計で、Web2.0時代に急成長したサービスに次々と採...
