以下、基本的に 逆数と平方根を求める高次収束アルゴリズム をベースに数式を整形したものです。 また、SSEでの実装については advanced optimization SSE も参考になるでしょう。
除算と平方根は一般的に加減乗算よりも計算コストが一桁高く、 数値計算においてもこの部分を高速化することが重要になることはよくあります。 よく知られている方法として、逆数()ないし逆数平方根() の適当な初期値推定から、 加減乗算のみを用いて精度を改善するというものがあります。
最近はハードウェアで高速にこの初期値推定を行う命令をそなえたプロセッサも増えてきました (SSEやHPC-ACE)。ただし、初期値の精度(有効ビット数)はハードウェア依存、 最終的に必要とされる精度はアプリケーション依存です。
ここでは、「Newton-Raphson法を倍精度に収束するまで闇雲に繰り返すよりもう少し効率のいい方法はないか」という話題を取り扱っていきます。
として、二次収束:
add, mul, mulsub
と覚えるとよいでしょう(2倍を加算で実現すれば定数が不要)。
より高次のものは、
としてて、 三次収束:
四次収束は因数分解できて、
八次収束:
FMA dual-issueの計算機を考えると、
h = 1.0 - x*y, hp1 = 2.0 - x*y; h2 = h*h, tmp1 = hp1*y; h2p1 = 1.0 + h2, h4p1 = 1.0 + h2*h2; tmp2 = h2p1*h4p1; y = tmp1*tmp2;
のように実装でき、スループットベースでは5 cycle程度の消費となる。
と言う事を考えれば上記の公式はすんなりと納得出来ると思う。