混ぜ合わせてパイプラインにつっこむ

cacheミスやパイプラインのミスのペナルティを気にするのであれば、分岐を含まず、相互作用のない複数の計算をまぜてパイプラインに突っ込んで実行するようなVM(動作単位が1ページに収まるとか)というかmulti-task-monitorがあればいい、とかいう研究はどこにあるんかな。
CPUレベルでそういうことやってるかしら、既に。
(追記)
VMとか高級言語とかが(自分の感覚ほどには)極端に性能低下しないのは、パイプラインを一気に通過する処理単位が、分岐を含む2命令よりも高速に処理されちゃうことがあるからかもしれないなぁ。いずれにしてもちゃんとしたテストデータがないと何も言えないんだけど、、まずはヘネパタ本(パタヘネ?)を立ち読みwするか。