AI・機械学習・データサイエンス– category –
-
AI・機械学習・データサイエンス
CUDAとは|NVIDIA GPU向け汎用並列計算プラットフォーム
CUDA(Compute Unified Device Architecture)は、NVIDIAが2007年に公開したGPU上で汎用計算を行うための並列コンピューティングプラットフォームおよびプログラミングモデルです。元来グラフィックス描画専用だったGPUを科学技術計算やディープラーニング... -
AI・機械学習・データサイエンス
Groqとは|LPUで超高速LLM推論を実現する半導体企業
Groq(グロック)は、元GoogleのTPU設計者であるJonathan Rossが2016年に創業した米国の半導体スタートアップです。同社が開発したLPU(Language Processing Unit)は、GPUとは異なるアーキテクチャでLLM推論を圧倒的な低遅延・高スループットで処理できる... -
AI・機械学習・データサイエンス
Replicateとは|AIモデルをAPI化するクラウドプラットフォーム
Replicate(レプリケート)は、2019年にBen FirshmanとAndreas Jansson(DockerやSpotifyの元エンジニア)が設立した、機械学習モデルをクラウドAPIとして手軽に動かせるプラットフォームです。研究者や開発者が公開したStable Diffusion、SDXL、Llama、Wh... -
AI・機械学習・データサイエンス
ElevenLabsとは|高品質AI音声合成とボイスクローン
ElevenLabs(イレブンラボス)は、2022年に元Google技術者らによって設立されたAI音声合成スタートアップです。極めて自然な抑揚と感情表現を持つテキスト読み上げ(TTS)と、数十秒のサンプル音声から本人そっくりの声を再現するボイスクローン機能で世界... -
AI・機械学習・データサイエンス
Whisperとは|OpenAIが公開した多言語音声認識モデル
Whisper(ウィスパー)は、OpenAIが2022年9月にオープンソースとして公開した汎用音声認識モデルです。約68万時間に及ぶ多言語音声データで訓練されており、99言語の文字起こし、英語への翻訳、言語識別、話者の有無検出などを単一モデルで実行できます。... -
AI・機械学習・データサイエンス
FLUX.1とは|Stable Diffusion作者陣による新世代画像AI
FLUX.1は2024年8月にBlack Forest Labsが公開した画像生成モデル群で、Stable Diffusionのオリジナル開発者であるRobin Rombach氏、AndreasBlattmann氏、Dominik Lorenz氏らが2024年3月に設立した同社が手がけています。120億パラメータの大規模モデルで、... -
AI・機械学習・データサイエンス
LoRAとは|低ランク行列で大規模モデルを軽量チューニング
LoRA(Low-Rank Adaptation)はMicrosoft Researchが2021年6月に論文LoRA: Low-Rank Adaptation of Large Language Modelsで発表した、大規模モデルのファインチューニング手法です。元の重みを凍結したまま低ランクの行列を追加学習する仕組みで、必要パラ... -
AI・機械学習・データサイエンス
ControlNetとは|画像生成に構造制約を加える革新技術
ControlNetは2023年2月にスタンフォード大学のLvmin Zhang氏とManeesh Agrawala教授が発表した、画像生成モデルへ追加の条件付けネットワークを取り付ける手法です。論文Adding Conditional Controlto Text-to-Image Diffusion Modelsで提案され、姿勢・深... -
AI・機械学習・データサイエンス
AUTOMATIC1111とは|SD普及を支えたWeb UIの定番
AUTOMATIC1111はGitHubのユーザー名で、同氏が2022年8月にリリースしたStable Diffusion web UIは、画像生成AIをローカルで動かす際の事実上の標準ツールとして広く普及しました。Stable Diffusion本体の公開からわずか2週間後に登場し、Gradioフレームワ... -
AI・機械学習・データサイエンス
ComfyUIとは|ノードベースで自在に組むSD実行環境
ComfyUIは2023年1月にcomfyanonymous氏(本名非公開)によりGitHubで公開されたStable Diffusion向けのノードベースUI実行環境です。WebUI型のAUTOMATIC1111とは異なり、画像生成パイプラインをグラフ構造で自由に組み立てる点が最大の特徴で、テキストエン...
