ラズパイ5(Raspberry PI 5)は2016~7ごろの平均的なノートパソコン程度の性能があるので、それを使って音声入出力、画像認識をラズパイ5で処理させて、LLMだけはラズパイ5でローカルでは実用的に動作可能なものはないのでgeminiのAPIキーでアクセスします
<全体構成>
音声のテキスト合成、認識処理は汎用のライブラリを使用、画像認識にはtflite(モデルはefficientdet_lite0.tflite)を使っています、音声認識と合成を全二重で実行するとハウリング対策が必要なので今の所は半二重で動かしています、つまり音声合成出力中は音声認識を無効にしておく
レスポンスを瞼の動きに反映させるためにSpacyライブラリと感情辞書(およそ3000語)を使って、サーボモーターで瞼を駆動させます
<現物>
目玉の部分にV3カメラ(ラズパイ5のカメラバスに直接接続できるカメラ)を埋め込み、スピーカーは外出し、マイクはケースに穴あけしてUSB TypeAに接続しています、SSDでは温度条件厳しいのでSDカードで運用、容量64GB中33GB程度を使用しています
起動はVNC Viewerからシェルコマンドを実行(今の所)、WiFi環境の設定は異なる場所ではWIFiつながらない限りできないので、有線LANを引き出しておいてWiFi中継機をつないで実行するようにしています