オープンソースのDifyとXinferenceを使い、ローカルGPU環境で独自のナレッジを持つRAGシステムを構築する手順を解説します。
LLM とは
近年ではChatGPTやDeepSeekなど、いわゆる大規模言語モデル(LLM)と言われるものが流行っています。
人間の自然言語を理解し、それに対しての意見や回答をしていくもので、この記事を読んでいる皆さんには馴染みが深いものでしょう。
今は2025年4月ですが、すでにローカル環境、つまりユーザーの自分の環境で大規模言語モデルを動かすことが可能になっています。
今から1年前の2024年前半に一度試したことがありました。その時は日本語で利用できなかったり、返答内容がイマイチなど正直使い物にならない、つまりChatGPTとかを使うしか無いと思っていました。
ところが最近はdistillation、いわゆるれるディスティルを行って小規模ながら精度を上げる技術が発展してきています。試してみると驚くほど精度が高く、例えばコーディングなどの質問はもうChatGPTでなくても良いのかなと思ってきています。
この技術ブログではLLMをローカルで運用したりするのに関する技術や、それぞれのモデルなどを使った技術をまとめて行こうかと思っています。
RAGを支える検索技術:Bi-EncodingとCross-Encodingの仕組みを徹底解説
Retrieval-Augmented Generation (RAG) の精度と速度を両立させる鍵、Bi-EncodingとCross-Encoding。それぞれの役割、仕組み、連携方法を図解付きで詳しく解説します。
Ollama WebUI入門:自宅GPUで動くChatGPT代替環境の作り方
Ollamaを使ったChatGPT代替環境の作り方を説明します。webuiでChatGPTライクなインターフェイスから使えるようにする方法を説明します。