Difyにナレッジを追加

前回、ローカルにgemma3:4bをOllamaで動かしてDifyをインストだけして、Pythonからもアクセスしてみましたが、Difyの主たる機能であるRAGの手始めにナレッジを追加して割と最近の情報も活用するようにしてみた

参考は、

テキストファイルの追加は、

https://tech-lab.sios.jp/archives/46102

crawlingについては、

https://zenn.dev/zozotech/articles/d177f4cdc02755

追加したのはMacのメモを画像を除外してtxtファイル一本にまとめたものと、Web URLからcrawlingインストしてスクレーピングしたもの、

この状態でナレッジを有効化してポッドにプロンプト送ると、

ナレッジの参照先がリンクとして表示されてます

Macのファンが何故か回りっぱなしになってます、アイドル90%ぐらいなのに

 

admin

gemma3は優れものだね

今月公開されたようですが、Googleのgemma3は4bぐらいだと普通に回答のレベルも高いから、応答時間含めて実用レベルです

1b/4b・・・とありますが、実は1bだとラズパイ5でも普通に動いた、swapは起きてますが

モデルサイズも1G以下でコンパクト、

但しMacで動かした4bと比較すると精度は違う、以下は1bのレスポンス

4bだと、

と言う感じですから、差は明らか

次にDifyでモデルを、以下を参考にGeminiからollamaに変えてみた

https://note.com/dify_lab/n/n09e680c825cf

Difyからの接続設定

使えるモデルは、以下のように二つになります

どちらを使うかは、モデルのところをクリックしてこれはollmaに変えた後、

メモリ使用量もそれほどでもない、

と言うことで、gemma3は期待に違わずよく出来てます、

 

admin

Mac(32GBメモリ)のOllamaで動かせるモデル

パラメータ数が多くなるとメモリとGPUの能力への要求レベルが高くなりますが、32GBのM4 MacBook Proでどの程度まで動くのか試してみた

モデルは以下の通り、

% ollama ls
NAME               ID              SIZE      MODIFIED          
gemma2:27b         53261bc9c192    15 GB     About an hour ago    
mixtral:latest     a3b6bef0f836    26 GB     2 hours ago          
elyza:jp8b         e81c07bbe038    4.9 GB    4 weeks ago          
llama3.2:latest    a80c4f17acd5    2.0 GB    4 weeks ago

 

mixtralだと、アクティビティモニターが黄色(ほぼ赤に近い)レベルまでメモリを食い尽くすから使えない、使って初めてスワップも発生

ハードリソース的にほぼ限界かと思えるのが、gemma2:27bでこの時のメモリモニターを見ると、メモリは最大近くまで使う感じ

ちなみにOllamaの情報見ると、仮想メモリサイズが1.48TBとか、この数値はSSDのサイズ1Tも超えているんですが、

ということで、モデルのパラメータ数で30b程度が32GBメモリのMacで動かせる限界のようです

ちなみにこのサイズのパラメータで初めて日本で一番高い山の回答が正しく返ってくるから、それ以下のパラメータでは実用性はそれほどないのかもしれない

 

admin

Difyをローカルで動かす(さわり)

ローカルで動かせて、かつカスタマイズが簡単(ノーコードで実現可能)なLLM(モデルプロバイダを設定)が使えるプラットホームです、Webページのこのメッセージが全てかもしれません、一番特徴的なのはRAGエンジンじゃないかと思いますね

============

DifyはオープンソースのLLMアプリ開発プラットフォームです。RAGエンジンを使用して、エージェントから複雑なAIワークフローまでLLMアプリを編成します。

============

<インストール>

・ターゲット:M4 MacBook Pro 14

・Docker :Engine: 28.0.1/Compose: v2.33.1-desktop.1

わざわざカスタムインストの意味はないから、Docker使って素直にインストします、以下にはRancher Desktopでインスト時のメモも残ってますが、ともかく4行のコマンド実行でDockerで動くようになります

% git clone https://github.com/langgenius/dify.git
% cd dify/docker
% cp .env.example .env	# 環境変数のコピー

# Rancher Desktopの場合には、
# Docker-compose.yamlの修正、ブラウザポートの重複回避のためにポート番号を変更(8888に)、661行目でした(@2015/3/16)

      - '${EXPOSE_NGINX_PORT:-8888}:${NGINX_PORT:-80}'

# 注)Rancher Desktopで再インストするとアクセスできない(8888開かない?)

% docker compose up -d
# デタッチモードでバックグランドで起動させる

Dify自体にLLM機能はなく外部サービスを利用する形態なので、モデルプロバイダーはGeminiを設定しています

DockerとRancher  Desktop両方を動かす時の切り替え方法と再インストール他のコマンド

% docker compose up --build
# imageの再ビルドを行う

% docker compose down
# containerを停止すると共に削除する

% docker compose down --rmi all
# これはimageを削除する

% docker compose stop(コンテナ停止)、start(コンテナ起動)


# Dockerの切り替え(Baker link. Env用にrancher desktopを優先させる)

% docker context use rancher-desktop

% docker context ls
NAME                DESCRIPTION                               DOCKER ENDPOINT                                       ERROR
default             Current DOCKER_HOST based configuration   unix:///var/run/docker.sock                           
desktop-linux       Docker Desktop                            unix:///Users/usamiryuuichi/.docker/run/docker.sock   
rancher-desktop *   Rancher Desktop moby context              unix:///Users/usamiryuuichi/.rd/docker.sock           


% docker context use desktop-linux 	# change to Docker

インストールから基本的な操作(応答を変化させるオーケストレーションとか)は以下のリンクで、

https://weel.co.jp/media/dify-local/

 

<Pythonから使う>

RAGはとりあえず置いといて、Pythonからの使い方

クラウドのDify使う時には、

https://zenn.dev/fa18kouki/articles/579ef29527a5d9

が参考になりますが、これをローカルに置き換えてます

APIキーは、以下の「APIアクセス」から取得します、また具体的なAPIの使い方ドキュメントも含まれます

import requests
import json
from typing import Dict

# Dify APIの認証キー
API_KEY = 'your API key'  # 取得したAPIキーに置き換えてください
# Dify APIのベースURL(ポート番号を含む)
BASE_URL = 'http://localhost/v1/chat-messages'

def get_dify_response(query: str, user: str) -> str:
    headers = {
        'Authorization': f'Bearer {API_KEY}',
        'Content-Type': 'application/json'
    }

    data: Dict[str, any] = {
        "inputs": {},
        "query": query,
        "response_mode": "streaming",
        "conversation_id": "",
        "user": user,
        "files": [
            {
                "type": "image",
                "transfer_method": "remote_url",
                "url": "https://cloud.dify.ai/logo/logo-site.png"
            }
        ]
    }

    try:
        response = requests.post(BASE_URL, headers=headers, json=data, stream=True)
        response.raise_for_status()

        # ここでエンコーディングを明示的に指定
        response.encoding = 'utf-8'

        full_response = ""
        for line in response.iter_lines():
            if line:
                decoded_line = line.decode('utf-8')
                if decoded_line.startswith("data: "):
                    json_data = json.loads(decoded_line[6:])
                    if json_data.get('event') == 'message':
                        raw_answer = json_data.get('answer', '')

                        # Unicodeエスケープのデコードを削除(不要)
                        print(raw_answer, end='', flush=True)
                        full_response += raw_answer

        print()
        return full_response
    except requests.RequestException as e:
        print(f"リクエストエラー: {e}")
        return str(e)
    except json.JSONDecodeError as e:
        print(f"JSON解析エラー: {e}")
        return "JSONの解析に失敗しました"
    except Exception as e:
        print(f"予期せぬエラー: {e}")
        return str(e)

def main():
    query = "Difyでできることは?"
    user = "user0"

    print("Difyへのクエリ:", query)
    answer = get_dify_response(query, user)
    print("\nDifyからの完全な応答:")
    print(answer)

if __name__ == "__main__":
    main()

エンドポイント(サービスの種類)はいくつかありますが、ここではBASE_URL = 'http://localhost/v1/chat-messages'を使っています

レスポンスは、以下のような内容で返ってきます

Difyへのクエリ: Difyでできることは?
Difyって、すごい魔法のツールなんだ!  

Difyは、色々なことができるよ。たとえば、

* **お話を書く**  
  Difyに「お姫様とドラゴンのお話を作って」ってお願いすると、面白いお話を作ってくれるんだ!  
* **絵を描く**  
  Difyに「虹色の猫の絵を描いて」ってお願いすると、カラフルな猫の絵を描いてくれるよ!
* **音楽を作る**  
  Difyに「楽しい音楽を作って」ってお願いすると、リズムの良い音楽を作ってくれるんだ!  
* **ゲームを作る**  
  Difyに「宝探しゲームを作って」ってお願いすると、楽しい宝探しゲームを作ってくれるよ!

Difyは、まだ成長中だけど、たくさんのことができるようになるんだって!  
Difyをもっと知りたい?  もっと詳しいことを教えてあげるよ!  
他にどんなことができるか、聞いてみてね! 


Difyからの完全な応答:
Difyって、すごい魔法のツールなんだ!  

Difyは、色々なことができるよ。たとえば、

* **お話を書く**  
  Difyに「お姫様とドラゴンのお話を作って」ってお願いすると、面白いお話を作ってくれるんだ!  
* **絵を描く**  
  Difyに「虹色の猫の絵を描いて」ってお願いすると、カラフルな猫の絵を描いてくれるよ!
* **音楽を作る**  
  Difyに「楽しい音楽を作って」ってお願いすると、リズムの良い音楽を作ってくれるんだ!  
* **ゲームを作る**  
  Difyに「宝探しゲームを作って」ってお願いすると、楽しい宝探しゲームを作ってくれるよ!

Difyは、まだ成長中だけど、たくさんのことができるようになるんだって!  
Difyをもっと知りたい?  もっと詳しいことを教えてあげるよ!  
他にどんなことができるか、聞いてみてね! 

モデルプロバイダーからのレスポンスをオーケストレーション設定で「子供に話すような回答」と設定しているので、Dify内で加工されたレスポンスになっています

 

admin

 

ローカルマシンでLLMを使ってみる

軽量のプラットホームであれば、パソコンでも動作可能とのことなので、M1 Mac(16GB)でポピュラーと思われるOllamaを動かしてみました、メモリは16GBはないと動きません、遅くても良いからとラズパイ5(8GB)で動かそうとしたらメモリ不足で動きませんでした

インスト方法は、モデルの変換も記述されています

https://qiita.com/s3kzk/items/3cebb8d306fb46cabe9f

OllamaはLLMのフレームワークなので実際に使うためにはモデルのインストが必要になります

<コマンドラインでのやり取りの例>

起動方法は、

% ollama run elyza:jp8b

一方APIを使う場合には、

% ollama serve 

でollamaを起動しておいて、

https://highreso.jp/edgehub/machinelearning/ollamapython.html

を参考にスクリプトを作成して、

import requests
import json

url = 'http://localhost:11434/api/chat'

data = {
    "model":"elyza:jp8b",
    "messages": [
        {
            "role": "user",
            "content": "千葉県の名産品を教えて、"
        }
    ],
    "stream": False
}

response = requests.post(url, data=json.dumps(data))
response_data = response.json()
print(response_data)

このスクリプトを実行すると、

のようなjson形式のレスポンスが返ってきます、コンソールの対話モードに比較するとMacが考えている時間がかなり長い、おそらく10秒ちょっとかな、

リソースの消費状況は、

 

こんな感じなので、やはりラズパイ5では実用上は無理かな、

 

admin

 

ChatGPT

公開されてからいくつかの質問をしていますが、無回答というのはなくてとりあえずハズレでも良いから回答するという特性があります。

ネットの記事にあった、円周率は3.05以上であることを証明しなさいというのを入力すると、円周率は3.14…だから3.05以上だという無意味な回答が出てきます。

内接する正多角形で考えると正六角形で3以上、正八角形でおよそ3.06、正十二角形でおよそ3.1というのが最大平方根の計算だけで求まるからというのがおそらく正しい回答で今の設問ならば正八角形で回答すれば良い。

下の手書きの絵は正十二角形での計算過程ですが、角度が60/45/30度ならば最大でも平方根の計算だけで求まります。

多分人間の思考とは違うので、こういう問題は苦手だろうと思います、簡単なアルゴリズムのコード化などはそれらしい結果が出てくるので。

だんだん賢くはなるだろうけれども、少なくとも創造はできないだろうから人間の思考の補助としての使い道でしょう。

 

admin

 

 

 

GPT-3

ここ一年ぐらい話題になっている言語モデルAPI、解説によれば「深層学習を使用して人間のようなテキストを生成する自己回帰言語モデル」です。

具体的にはいくつかのキーワードを与えると関連した文章を自動で自動作成でき、出力は文章に限らずWebページを作成するとか、プログラムコードを自動生成するなどもあるらしいですが、申請すれば個人でもAPIを使えるようになっているようだから一度使ってみたら面白そうです。最初の三ヶ月は無料クーポン付きで以降は有料とのこと。

言ってみれば、文章版のローコードツールというふうにも言えそうですが。だんだん賢くなれば文章作成やコード生成で標準的な人間の能力を超えていくんだろうと思う。

 

admin