c++ マルチスレッドの効果

マルチスレッドは多くのアプリケーション、わかりやすいのはブラウザあたり、で普通に使われてますが、多重度を上げても必ずしも性能が向上するわけではありません。それはリソースの排他制御などでオーバーヘッドが発生するから。

で、素数計算プログラムでマルチスレッドの効果を検証してみた。

<ソースコード>

スレッド制御はstd::threadクラスを使います。

https://cpprefjp.github.io/reference/thread/thread.html

スレッドプログラミングで問題になる共通リソース、この場合には計算対象の整数(cal_int)と計算結果の格納(vec{})を排他制御(mutex)で、壊れないように制御します、理屈はセマフォーと同じです。

同じ処理の多重化ならば、特定の関数をスレッド化する訳なので、元のコードは一個で構いません。

スレッド数の可変は対象部分(std::thread th_x(ThreadA); とth_x.join();)をコメントアウトで対応。

算出結果のvectorはスレッドの出力タイミングでソートされた結果にはならないから、処理完了後にソートを実行。

スレッド処理の記述は、

https://qiita.com/nsnonsugar/items/be8a066c6627ab5b052a

を参考。

#include <iostream>
#include <mutex>
#include <thread>
#include <vector>
#include <cmath>

std::mutex mtx_;                // mutex for exclusive control
std::vector vec{};         // prime numbers array
int cal_int = 1;                // calc target integer
int max_int = 10000000;          // calc target max number


void add_prime(int i)
{
    std::lock_guard lock(mtx_);
    vec.push_back(i);
}

int get_int()
{
    std::lock_guard lock(mtx_);
    ++cal_int;
    return cal_int;
}

void ThreadA()
{
    while (true)
    {
        bool flag = false;
        int i = get_int();
        if (i > max_int)
        {
            break;
        }
        int sqt = sqrt(i);
        for (int j = 2; j <= sqt; ++j){
            if (i%j == 0){
                flag = true;
                break;
            }
        }
        if (flag != true){
            add_prime(i);
        }
    }
}

int main()
{
    std::chrono::system_clock::time_point  start, end;
    start = std::chrono::system_clock::now();

    std::cout << std::endl;
    std::cout << "Hardware concurrency = " << std::thread::hardware_concurrency() << std::endl;

    std::thread th_a(ThreadA);
    std::thread th_b(ThreadA);
    std::thread th_c(ThreadA);
    std::thread th_d(ThreadA);

    th_a.join();
    th_b.join();
    th_c.join();
    th_d.join();

    std::cout << std::endl;
    end = std::chrono::system_clock::now();
    double elapsed = std::chrono::duration_cast(end-start).count();
    std::cout << "elapsed time : " << elapsed << " ms" << std::endl;

    std::sort(vec.begin(), vec.end() );
    for (auto itr = (vec.end() - 5); itr != vec.end(); ++itr){
    std::cout << *itr << std::endl;
    }

    return 0;
}

 

<実行結果>

対象が百万までではスレッド数が2以上による実行時間の差はほとんどない。スレッドの実行時間よりもオーバーヘッドの方が支配的だからだろう。

一方、千万までの計算ではスレッド処理の比重が増加して、スレッド数を増やせば実行時間は速くなるから、スレッド処理が支配的になるせいでしょう。

Hardware concurrency = 12

—100000まで計算—

1 thread

elapsed time : 223 ms
999953
999959
999961
999979
999983


2 threads 

elapsed time : 177 ms
999953
999959
999961
999979
999983


3 threads

elapsed time : 184 ms
999953
999959
999961
999979
999983


4 threads

elapsed time : 194 ms
999953
999959
999961
999979
999983


—10000000まで—

1 thread

elapsed time : 4519 ms
9999937
9999943
9999971
9999973
9999991


2 threads

elapsed time : 2646 ms
9999937
9999943
9999971
9999973
9999991


3 threads

elapsed time : 2103 ms
9999937
9999943
9999971
9999973
9999991


4 threads

elapsed time : 1829 ms
9999937
9999943
9999971
9999973
9999991



 

という結果が言わんとすることは、各スレッドの処理が重ければCPUのマルチコアが有効に働く、しかし処理が軽いとオーバーヘッドによりほとんど実行時間には影響しない。もちろんマルチスレッドの目的は処理の分散・並行処理による高速化以外に各スレッド処理のリアルタイム性の側面もあるのだから、一概には言えないわけだけれども、いずれにしろ適用アプリケーションを事前に考慮した上での実装が必要という当たり前の結論です。

 

admin

 

PyBind11 for c++

c++の高速性が必要でなおかつ、Pythonの書きやすさが必要な場合にはPythonからc++の処理の呼び出しが必要です。

いろいろな方法がありそうですが、PyBind11は2011年ごろに登場と比較的に新しく、それ故に機能も洗練されているだろうから動かしてみた。

ネットにも情報が多いから問題解決が難しくないだろうと思う。

<本家>

https://pybind11.readthedocs.io/en/stable/index.html#

“pybind11 is a lightweight header-only library that exposes C++ types in Python and vice versa,”

とあるようにpythonからc++も呼べるし、逆もまた可なりのヘッダーファイルライブラリにすぎないと。

<install>

$ pip3 install pybind11

—Installed path—

/Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/site-packages/pybind11/include/pybind11

<sample program & compile>

https://qiita.com/takuyakubo/items/b7503d7555bbc6c44aba

このリンク先にある、以下のclangコンパイルで作成できた。本家のドキュメントと全く同じですが。

% clang++ -O3 -Wall -shared -std=c++17 -fPIC `python -m pybind11 –includes` -undefined dynamic_lookup py_call.cpp -o example`python3-config –extension-suffix`

『コンパイラオプションは、最適化(-O3)、共有ライブラリとしてビルド(-shared -fPIC)、言語標準の指定(-std=c+17)、インクルードディレクトリの追加( `python3 -m pybind11 –includes`)、コンパイル対象(py_call.cpp)、出力(cpplcm`python3-config –extension-suffix`)となります』

https://buildersbox.corp-sansan.com/entry/2019/12/09/110000

の説明から引用。

<sample code : py_call.cpp>

PYBIND11_MODULE以下がマクロで、pybind11で解釈されます。

m.def()中の”add”はPythonから呼び出される時の関数名で、&addはint add()関数がそれに相当すると定義しています。

#include <pybind11/pybind11.h>

int add(int i, int j) {

  return i + j;

}

PYBIND11_MODULE(example, m) {

  m.doc() = "pybind11 example plugin";                          // optional module docstring

  m.def("add", &add, "A function which adds two numbers");

}


<call from python>

コマンドラインで実行して、import exampleが実行できればモジュールが作成できています。

% python

Python 3.10.3 (v3.10.3:a342a49189, Mar 16 2022, 09:34:18) [Clang 13.0.0 (clang-1300.0.29.30)] on darwin

Type "help", "copyright", "credits" or "license" for more information.

>>> import example

>>> example.__doc__

'pybind11 example plugin'

>>> example.add(24, 43)

67

作成されるのは、共有ライブラリファイルで、”example.cpython-310-darwin.so“がPythonから呼び出されるファイルになります。MacOSなのでこんな名前になります。Pythonも実装はcだから、インターフェースは出来て当たり前ということでしょう。

-rwxr-xr-x   1 hogehoge  staff  148016  4 28 10:07 example.cpython-310-darwin.so

このケースは一番単純な機能確認ですが、実際には配列などを引数にするときにはc++とPython間で何らかの変換が必要になるでしょう。

 

admin

‘wchar.h’ file not found #include_next

久々CMake使おうとしたら、buildでこのようなエラーが発生。

解決方法は、

https://qiita.com/m0n0/items/b13998de1da4c7c1964d

中にある、

% make SDKROOT=`xcrun --show-sdk-path` MACOSX_DEPLOYMENT_TARGET=
[ 33%] Building CXX object CMakeFiles/main.dir/main.cpp.o
[ 66%] Building CXX object CMakeFiles/main.dir/header.cpp.o
[100%] Linking CXX executable main
[100%] Built target main

を実行すると解決。Xcodeに関連するようで、おそらくMacOSのアップデートと関係するようです。

以前のcmake記事

https://isehara-3lv.sakura.ne.jp/blog/2022/03/03/cmakec-ビルドツール/

 

admin

c++とPythonの実行速度差

ほんの一面に過ぎませんが、速度比較をしてみた。

やってみたことは整数100万までの素数を求める。ロジックはどちらも同じで平方根までの割り算でどこかで割り切れる(非素数)で判定、割り切れた時点で素数では無いから計算量削減のため打ち切り、しています。求めた素数はvector(c++)、list(python)に保存しています。

計算量(時間)は一桁増えるとほぼ30倍(10の2分の3乗)になるから、桁数の多い因数分解の計算量を現在の暗号原理とするのも理解できます。

<c++ code>

sqrtは本来は不動小数点ですが、clang +17では暗黙変換(出力も)されてます。コンパイラによってはエラーになるかも知れない。

#include <iostream>
#include <chrono>
#include <cmath>
#include <vector>

int main(){

int sqt;
bool flag;
std::vector vec{};

std::chrono::system_clock::time_point  start, end;
start = std::chrono::system_clock::now();

for (int i = 2; i <= 1000000; ++i){         // check prime numbers
    flag = false;
    sqt = sqrt(i);
    for (int j = 2; j <= sqt; ++j){
        if (i%j == 0){
            flag = true;
            break;
        }
    } 
    if (flag != true){
        vec.push_back(i);
    }
}

end = std::chrono::system_clock::now();
double elapsed = std::chrono::duration_cast(end-start).count();
std::cout << "elapsed time : " << elapsed << " ms" << std::endl;

std::cout << std::endl;
std::cout << "number of prime integers(up to 1M) : " << vec.size() << std::endl;
std::cout << std::endl;
std::cout << "last five prime integers " << std::endl;

for (auto itr = (vec.end() - 5); itr != vec.end(); ++itr){
    std::cout << *itr << std::endl;
}
}


<Python code>

c++とpython(for in range)ではループの上限値の捉え方が違うのでループ回数に+1しないと正しい結果が出ない。

それは、内部ループのforで素数の二乗(例えば9, 25, 49)が素数判定されてしまうから。

import time
import math

start = time.time()
set = list()

flag = False
sqt = 0;
for i in range(2, 1000001):        # check prime numbers
    flag = False;
    sqt = math.sqrt(i)
    for j in range(2, int(sqt) + 1):
        if i%j == 0:
            flag = True
            break
    if flag != True:
        set.append(i)


end = time.time()
print("elapsed time : ",'{:.0f}'.format((end-start)*1000)+ " ms")
print("number of prime integers(up to 1M) : ",len(set))
print("")
print("last five prime integers")
for i in range(5):
    print(set[-5 + i])

以下に最後部分の素数と実行時間を記載しています。

c++

elapsed time : 268 ms

number of prime integers(up to 1M) : 78498

last five prime integers 
999953
999959
999961
999979
999983


Python

elapsed time :  9433 ms
number of prime integers(up to 1M) :  78498

last five prime integers
999953
999959
999961
999979
999983

その差はおよそ40倍近くc++の方が高速で、実際のアプリでの体感速度ももちろん種類によるけど、概ね一桁は違うんだろうと思う。

もちろんPythonも全てインタプリタ処理されるわけではなく、例えばループ処理はキャッシュされているだろうけど、やはり実行効率は比較にならない。

 

admin

通読完了(modernized c++)

以下の二つのブログで言及してますが、『独習C++』をVScode環境で動作させながら完了。

通読してみることにした

c++の仕様が巨大化していく理由

おそらくこの本の目的とするところは、APIドキュメントの意味を理解できることができるようになることだろうだし、実用的にもほぼこの範囲でカバーできるはず。

上のブログと同じくC++が必要とされる領域は、ハードウェアリソースが限定される領域と、速度優先の領域だろう。例えば自動運転とかはリアルタイム性が必要条件だから、スクリプト言語を車で使えそうなのはエンタメぐらいだろうから。

 

admin

 

 

c++の仕様が巨大化していく理由

ほぼひと月前から初めて、半分消化しましたが、

https://isehara-3lv.sakura.ne.jp/blog/2022/02/15/通読してみることにした/

なぜc++が習得が難しいと言われているかを自分なりに理解したこと。

 

<ハードウェアを扱う機能と抽象的なオブジェクト指向が合体しているから>

コードの品質と生産性を高めるためにはオブジェクト指向が必須だけれども、そこにハード資源を効果的使うという要件も必要条件になっているから、仕様が複雑化。具体的な例で言えば、例えばポインターの概念がオブジェクト指向の中にも拡張されているからと言えるのではないか。もちろんガーベージコレクションなどの概念も無くてリソース管理が全てプログラマの責任というのは、これはc++に限らずcでもハードウェアを扱う言語の本質的かつ必要条件でもあるけれども。

 

<モダンナイズはされて来ている>

特に最近の言語仕様の拡張で、コンテナクラスを標準で使うなど現代的になって来ていると思う。しかし行き着くところはcの殻とc++の殻がそれぞれ独立することはできないからお互いに融合した言語仕様のままであることは変わらないように思う。

 

極端にハードリソースの限られるデバイス、OS開発などではc++以外に代替え手段のない言語だから、この先も複雑化していくことは間違い無いんじゃないかと言えます。

 

admin

 

CMake(c++ ビルドツール)

M5stackとかだと、VScode使うとアドオンでPlatformIO入れればビルドツールにもなりますが、それ以外のプロジェクトだとやはり専用のビルドツールが必要だと思う。RaspberryPIも開発はパソコン上でやるのが効率的なわけだし、クロスプラフォームで統一的に使えるツールとしてはCMakeが便利そうなので、これを使ってみます。

以下の実行環境はMacBookです。

インストールしたのはGUI版とCUI版ですが、実用的にはCUI版の方が使いやすそうだから、実際に使ったのはそちら。

<ディレクトリ構造>

<header.hpp>

2行目は実装されていません。

void show_val(int val);
void show_val();

extern int val_e;

<header.cpp>

#include "header.hpp"

#include <iostream>

using namespace std;


int val_e = 98;

void show_val(int val){
    cout << "val = " << val << endl;
}

<main.cpp>

#include "header.hpp"

#include <iostream>

using namespace std;


int main(){
    show_val(19);
    cout << "val_e " << val_e << endl;
}

 

作業はbuildディレクトリを作成してその中で行います。

<CMakeLists.txt>

cmake_minimum_required(VERSION 3.22)
project(build_sample CXX)
add_executable(main main.cpp)

例を参考に、こんなmake条件を設定しています。ソースファイルは2個あるのでそれを指定、ヘッダーファイルはソース中で#includeされるから設定不要。

<実行コマンド>

configure & generate

% cmake ..
-- The CXX compiler identification is AppleClang 13.0.0.13000029
-- Detecting CXX compiler ABI info
-- Detecting CXX compiler ABI info - done
-- Check for working CXX compiler: /Applications/Xcode.app/Contents/Developer/Toolchains/XcodeDefault.xctoolchain/usr/bin/c++ - skipped
-- Detecting CXX compile features
-- Detecting CXX compile features - done
-- Configuring done
-- Generating done
-- Build files have been written to: ~~~~~省略~~~~~/build

build

ディレクトリを一階層上に移動して、

% cmake --build .
Consolidate compiler generated dependencies of target main
[ 33%] Building CXX object CMakeFiles/main.dir/header.cpp.o
[ 66%] Linking CXX executable main
[100%] Built target main

作成された、実行ファイルmainを実行(./main)するときちんと実行できました。

% ./main
val = 19
val_e = 98

 

P.S. 2022/11/6

ディレクトリの移動は必ずしも必須ではなくてコマンドのパラメータ次第で、buildディレクトリに移動しなくともビルドはできます。

覚書から、

https://qiita.com/tchofu/items/69dacfb93908525e5b0b

% cmake [<options>] -S <path-to-source> -B <path-to-build>

-例-

% cmake -S . -B build // @upper dir of the build dir

% cmake –build <dir> –target <tgt>… [<options>] [– <build-tool-options>]

-例-

% cmake –build build // @upper dir of the build dir, <dir> is build

 

admin

VScodeのCode Runnerの設定

C++のVScode環境でほぼハマるのが、コンパイラーのバージョン互換問題。ほぼ3年毎にメジャーチェンジがあるので、新しい機能はデフォルトのままでは動かない。

具体的にはラムダ式がデフォルト設定ではダメでした。error以外にもwarningがそれ以前には出ていましたが、とりあえず前には進めるから放置してました。

を参照して、① コンソール入力可能にするのはメニューから設定して、② コンパイラーバージョン設定はcode-runnerのsettings.jsonファイル中の最後部分、”code-runner.runInTerminal”: true以下に点線で挟まれた部分を追加。ただし、以下の太字($fileName)のところは参照内容から変更してます。

———————————————————–
,
“code-runner.executorMap”: {
“cpp”: “cd $dir && runFiles=`ls *.cpp` && g++ -std=c++17 $fileName -o $fileNameWithoutExt && $dir$fileNameWithoutExt”,
},
“clang.cxxflags”: [
“-std=c++20”
]
———————————————————–
これで新しい機能もコンパイルできるようになりました。
admin