読者です 読者をやめる 読者になる 読者になる

考える脳、考えるコンピュータ読書メモ

 

考える脳 考えるコンピューター

考える脳 考えるコンピューター

 

 


第1章


彼の読んだScientific American 1979 Septemberは日経サイエンスだと1979 11月号だ。寮の食堂にあったはず。自分も大学の学部生の頃に多分読んでる。

サイエンス1979年11月号

P8(別冊50)「脳」

D.H.ヒューベル

P20「ニューロン

C.F.スティーブンス

P34「単純な神経系」

E.R.カンデル

P52(別冊50)「脳の神経回路網」

W.J.H.ナウタ/M.ファイアターク

P68「脳の発生」

W.M.コーワン

P82(別冊50)「脳内の化学伝達物質」

L.L.アイバーセン

P98(別冊50)「視覚の脳内機構」

D.H.ヒューベル/T.N.ウィーゼル

P114(別冊50)「運動の脳内機構」

E.V.エバーツ
P126(別冊50)「脳と精神活動」
N.ゲシュヴィント
P138「人間の脳の障害」
S.S.ケティ

P148「脳を考える」
F.H.C.クリック

この最後のフランシス・クリックの論文で、「まだ何もわかっちゃいない」と闘争心をかきたてられたそうだ。ふーん

 

第2章


p.36 脳の働きの3つの要素

  1. 時間的の概念
  2. 感覚入力とは逆に流れる情報の大切さ。実際に視床から受け取る10倍程度が新皮質からフィードバックされている
  3. 生体としての脳の構造を説明できる機能モデルの必要性

単純なneural networkは隠れ層が1つで、時間の概念やフィードバックがなかった。(back propagationは学習の過程のみ)
そして、脳の6層構造とは似ていない。

自己連想記憶

第3章

p.60 マウントキャッスルの発見
1978年 大脳新皮質はとても均質であるので、それぞれの部位では同じ演算原理で動いていると仮定した。
どこもかしこも6層に見える。

普通の皮質領域(同種皮質)は神経細胞は規則正しい6層構造をなして整然と並んでいる特徴を持つ。この6層は外側から順に

  1. 分子層
  2. 外顆粒層
  3. 錐体細胞
  4. 内顆粒層
  5. 錐体細胞層(神経細胞層)
  6. 多型細胞層

と呼ばれる。

しかし、配線を見るにneural networkの3層と大差ない。

演算は同じ。何をしているのか?
Neural netを学習しつつ、その結果を引き出している。それ以外にありえない。

senseもmotionも思考も、、、パターンの学習と既存パターンとのマッチングの度合いの演算になる。

大脳新皮質以外の特殊機能は人間以外でいくらでも調べられる。
ここに心や意識があるなら、下等生物との違いが成り立たない


p.75
なんでもパターンであるとするならば、自動運転とかはうってつけのはず。
ニューラルでやってたハッカーはまさに王道を行っているな、それが世間的に受け入れられるかはまた別だが、彼の手法をもう少し詳しく見てみよう


第4章 記憶


100ステップの法則
一秒間に脳で実行できるのは100ステップ程度。これはいくら並列度が上がってもきつい。

結局は記憶が再生されるから、そして最適な選択と学習が並列に起こるから、これだけの複雑度とスピードが達成できる。

p.81 普遍の表現
差分に対して安定な記憶表現と差分に敏感な部分

新皮質の記憶の特性

  1. パターンの時系列を記憶する
  2. パターンを自己連想的に呼びもどす(どうやって「予測」するのか?
  3. 普遍の表現で記憶する
  4. 階層的に記憶する(安定度合いが異なる)

p.83 パターンをシーケンスとして記憶する、

というのと、同時に一つだけ、というのは現実には相反しない。多重人格とか分離脳でよくある症例だからだ。
しかし、通常、記憶というのはシーケンスだ、というのには完全に同意する。
パッと、シーンが浮かぶ、、ということはない、シーンに相対した、という記憶があるだけ。

そして、連想として引き出す。というのは、これもある。

で、連想と連想がつながる。。この瞬間。の感覚がトップレベル。

トップレベルの安定性というか、目もくらむような並列処理から隔絶された確固たる意識、というのは確かにこのモデルの素晴らしい帰結だ。

確認テスト方法:

  • アルファベットを逆順に唱える
  • 音楽を1小節飛ばして歌う
  • 風呂から上がったあと、体を拭く順番

感覚はシーケンス、例えば触覚でも前後が切れてしまうと現在何を触っているかがわからなくなる。

自己連想的とは

入ったパターンがそのままキーとなる。しかし、部分的な一致でも、取り出せる記憶は完全なものだ。
だから、部屋の様子を常に意識できるんだろう。部分的にしか見ていなくても。

逆にいえば、マッチするパターンを「勝手に」当てはめている。
そして、それが完全な状態で取り出せるから、ノイズに強いし、学習の結果だから合理的である。
学習されえないようなノイズが出てくることがない

思考、とは、階層のトップレベルで起きていること。
下層から新たなパターンマッチが起きて、新しい想念のシーケンスが起きると、それにとって変わられてしまう。(そうならないための仕組み、というのは新皮質以外のところにあるだろう。考え続けていたからにには、それを起こすトリガーがずっとあったということだし、そのトリガーが内発的であってもいいわけだから。ちょっとしたゆらぎのあとでもトリガーが残っている可能性はある)

普遍の表現

いい加減、というか、もともとのパターンがパターンのパターンを記録できるような「集約」が起きている。
これはsparseなパターンへの集約、というより、階層の上での安定性がfeed backされてきて、パターンのイデアだけが学習によって生き残る仕組みがある。

これ、出力の側でも似たようなことが起きていて、「サインする」という行為はペンを使っても、腕で空中に描いてもできる。

で、それはどのように学習(ふるい落とし)され、記憶されるのか?

絶対値ではなく、パターンだからだ。

パターンは絶対値ではなくて、その形になる。相対的変化、の連なり。
もしくは変化の変化パターン。
階層化された記憶の変動を追いかけたパターンならば、それは自然である。
つまり、ある意味横串でのパターン記憶があってもいいだろう。(これHTMに入ってたっけ?)

p. 95 普遍の表現をされた記憶から、具体的な予測(に基づいた運動)が起きるのか?
組み合わせている、、としか出てこないが、結局、過去の運動や判断の記憶の元になった動作や感覚入力は記憶系と相互作用するときに次の状態を具体的かつ正確に再現できるわけで、完全に普遍とは言い難い、相対値、もしくは正規化された前段の階層からの入力からは正確かつ具体的なアウトプットが出せる。

第5章 知能の新しい定義

 

ある入力に対して、「人と同じ行動」ではない、ある入力に対して、その後が「人と同じく予測ができる(状態になる)こと」を知能の判定基準にすべきだ。そうすると、これまで経験しなかったことについて、新規であることの判断ができ、学習もできる。

コーヒーカップのひらめき

人間は常に予測している。
それに合致していれば、意識に上らない。
しかし、それを裏切る新しいパターンに出会うと意識の表層に現れる。
それについて、考える、、、というか、記憶すべきかの吟味のために何度も、いろんな角度から「スキャンする」

だから、無意識かつ膨大な並列パターン認識は、予測と、それとのマッチングである。
それが常に行われていること。

(IMHO)脳内部でもメタパターンを発生させることはできるはずで、それを皮質に戻せれば、認知も記憶と予測の範囲となり、それと逸脱すると意識として吟味が始まる。
このレベルとして「意識」を捉えることは可能だろう。

p.101 ドアの改変の実験
いかなる改変でも、それが日常的に触れている部分であれば、すぐに気づく。予測との不一致として意識に登る。
予測されていなければ気づかない。だろうw

そして、彼はHTMとして新皮質を「予測のための器官」として位置付ける。
ベイジアンネットワークとしての脳。というのは遠くない。

感覚における予測の例

  • 階段で足が空を掻く
  • 音楽で次の拍を予測する(ビートを聞いてから応答するのではない)
  • 視野の充填(みると予測するもので視野を埋めてしまう)
    • マスクすると美人に見える(理想的な補完がなされる)
    • ちらっと見かけただけの人は美人に見える
    • サッカードは次に重要なものをみるところに視線を飛ばす(目の次は鼻、そして口)
      • それは見る対象によってサッカードのパターンが異なることも予想される。絵画では、理想的な構図というのはサッカードを裏切らない。
  • (マウントキャッスルの前頭葉皮質均一性の原理によれば)予測はあらゆる認知レベルで起きる。単なる視覚や聴覚ではなく、思考も予測である。
    • 知能検査は予測の計測である
    • 科学は仮説という予測に基づくものだ

行動と予測

行動が進化論的には重要であって、その後に新皮質がくる。だからvalue addであることは確か。
そして、豊かな感覚入力は、豊かな行動パターンと相補的な関係にある。

p.112 新皮質の獲得
要するに、記憶、、そしてそれを思い出す=予測することで、学習が成立した。
それが爬虫類と哺乳類を分けている。
では、恐竜には前頭葉はあったか?鳥類を見てみる。
http://web2.chubu-gu.ac.jp/web_labo/mikami/brain/08/index-08.html
鳥類と哺乳類が体重に比較して大きな脳を持っていることが分かったわけですが、鳥類と 哺乳類では脳の進化の仕方が違っています。鳥類の脳容量の増加は、爬虫類の脳の構造を基本的に維持しながら進行しました。そのため、鳥類は大脳新皮質を作 らずに大脳半球が拡大していきました.一方,哺乳類の脳容量の増加は、大脳新皮質の発達によって脳が大きくなりました。

恐竜は新皮質はなかったのかな。遺伝子見ればわかるのかな?なさそうだけどね。

人間での新皮質の進化
でかくなって、行動の結果とかも十分に記憶、予想できる容量はあった。
でも、それが促進されたのはなぜか?
行動を縮約して記憶できる言語、シンボルが鍵ではないかな?
いや、それ以外にも質的ポテンシャルがあったと述べている。(p.116)
新皮質の運動野が旧脳をバイパスして独自の運動系神経とのつながりを持っていたので、sensori-motorのループが正確に高速に機能していた。
だから、言語の前に、運動なのだ。

で、視覚と判断と密接に結びついた運動がさらに新皮質へ複雑かつ豊かなパターンを送り込んできた。

(IMHOそれが、「他者」だろう。そして、それを模倣できる「自己」: ミラーニューロン

そして、予測を完結させる行動を直接起こせるようになった。
ミラーニューロンでも「意図」が視覚の認知より前にある、としている。
つまり、予測が行動の実現というか一体となっている状態で、予測と異なる部分の調整をもっぱらにする部分も重要になってくる。

新皮質に運動野があるということは

物理エンジン(実際には多様なケースを網羅、そして冗長性もある)を実装して
シミュレーションを新皮質で完結できる

 p.117運動野が旧脳をバイパスして独自の回路を持っている。
スピードよりは複雑な行動の獲得ができる。

p.118 「予測できる」ことが、理解の本質。予測できる、ということはその通り行動できるということで、他者の理解とは他者のように振る舞えることである。もしくはそれを視覚から取り込んでマッチングできる、ということで、それがミラーニューロンである。

p.118 サールの中国語の部屋が、次の単語を予測できるならば、知能がある、というのは示唆的

第6章 新皮質の実際の働き


記憶による予測、という枠組みで新皮質の構造をトップダウンで分析していくことができる。

この章では記憶による予測もモデルが新皮質でいかに機能するかを段々と詳細に説明していく

  1. 新皮質全体の構造と働き
  2. より細かな構成要素の機能と全体での位置づけ


新皮質が予測を立てるためには

  • 出来事のシーケンスを知識として記憶して蓄える
  • 未経験だがあるカテゴリーに収まる出来事の予測をするには、記憶は普遍の表現が必要だ

感覚野の構造

機能的にはパンケーキを積み重ねたような階層構造がモデルになる
情報は上下に流れる

視覚における普遍の表現

V1 (第一次視覚野)→ V2 → V4 → IT(下側頭野)
V1には網膜から視神経約100万本がつながっている。

V1への入力は視線の移動、サッケード運動、頭の回転や物体の運動で常に変化する
しかし、視覚の感覚はほとんど変化しない。

IT野では視界にある物体が消えてなくならない限り、ほとんど変化がない。

下向きの情報は、上位で現在認識されている概念から予測される今後の信号パターンの集合を限定する信号である。

聴覚や触覚でも同様の階層構造は見られて、そのトップレベルでは認知されている物体に対応するニューロンが興奮し、それが下位の階層へ予測の手がかり(というか限定)を与える。

聴覚ではこれらの4層はA1野から始まる。
触覚ではS1野(第一次体性感覚野)から始まる。

連合野

4つのレベルの上にさらに視覚、聴覚、触覚などカテゴリーの異なる情報のパターンを統合していく新皮質の領域がある。これが連合野である。
現実には人間の新皮質の大部分は連合野なのだ。
つまり、人間のトップレベルの認知というのは、視覚、聴覚、触覚、運動のパターンをないまぜにして記憶し、予測するシステムである。
レベルを上がっていくと、変化は少なくなる。

そして、視覚で上がってきた情報から予想されることが、聴覚や触覚、運動へとフィードバックされて、運動の場合は行動に結びつく。予測された通り、記憶通りに身体が動くことになる。その中で、細かいバリエーションが起きるかどうかは直近の感覚入力に関係しうる。(このあたりにショートカットがあるかどうかはまた別の話だろう。)
そして、行動の結果も当然予測されていて、思った通りに動かなければ、それは驚きに成る。
例えば、あるけば、足音がするはずで、これも予測されている。歩いて足音がしなければ驚きに成る。

(IMHO: VR酔いとは、あまりに予測が外れることで驚きのインフレが起きてしまい、正常な予測ができなくなってしまうこともあるだろう。

結局、新皮質のあらゆる感覚野と連合野は一体となっている。

p.136 運動野と感覚野は似通っている。新皮質が感覚の予測を下向きに流すのと同じ仕組みが運動の命令を下すのと同じように使われる。

そして、全ての予測は経験によるものだ。

V1野の新しい解釈

V1, V2野の場合、IT野より上のようなバトルロイヤル的雑多な接続が無いように見えるが、実際には細かなカラムに分かれた下位の集合から信号を受けて、それを統合しているはずである。
こう考えることによって、どの階層でも同じ機能を果たすことで全体が機能する。>図5

現実世界のモデル

現実世界は階層性がある、これが大脳新皮質の階層性とマッチする。
というか、階層性がある構造を理解(予測、記憶)しやすい脳の形式であると言える。

そして、それらがパターン、シーケンスとして認知されている。
構造をtraverseすることで、予測が働き、予測が強化されていく。

p.141 世界中が歌のようなものだ

このフレーズ、池谷さんの本に出てくるニューロンの歌の話と共鳴する。

部分と全体、、、が、全体のフレームワークという予測が、、下位の細部の可能性に制約をかけている。
だから、ある瞬間に見えている、聞こえていることが非常に断片的、またはノイズで会っても、上位の概念は揺らがない。

p.142 シーケンスを単なる1次元の数列ではなくて、可能性の集合の列、のように捉える。
HTMではこのsparse表現がキモだった。
シーケンスは毎度同じ順序とは限らないが、固まって起こることは予想できる。
目があれば、鼻、口、耳が、、と云う具合。

これがもっと高位、抽象的なレベルでも起きる。
単語>論理とか、、

p.142 予測できる、、実在をリアルに感じる。
視線を変えたり、指でいじったりすることで、入力パターンを確実かつ予測通りに変えられる時、脳は因果関係を認識する。そしてそれは記憶され、次回の予測に使われる。

多くの入力パターンが何度も同じ関係を満たすのは偶然ではない。現実で、因果関係がある。いやそれらはほぼ同値だろうな。
そして、因果関係が確認できるような場合、そのシーケンスとよく似た変種はよくよく記憶され、強化されている。つか、それが因果関係と云う認知。予測が働く、ということであって、「ならば」すら省略されて、イコール、リアルに存在する、という確固たる認識になる。

シーケンスの上り下り

シーケンスがある階層で認識された(予測があたりまくる)状態の時、そのニューロンは興奮し、そのパターンを上位へ送る。その変化はより階層のパターン変化より少ない。

下位へ送る場合、運動になるケースと、予測に制限を加えるケースがあるだろう。
しかし、もともと連関のあったところへ伝わる。
文章なら、目で読む、音で聞く、>と云う予測経路と、手でかく、口でしゃべる、と云う運動の経路がありうる、そして、手で書けば、それを目で見る、ことが予測され、口で喋れば、耳で聞くことが予測され、それらが強化されるか、意外な結果を上位に送り出すか、する。

p.146 Flyweight patternは本当に起こっているかな。
原理的には可能だけれどね、、、実際にはV1やS1の段階で'A' の音、形は他のものになりようがない、、、しかし、予測の段階で、a, b, cときた時に、'd'の形や音が予測されて、それとのマッチングが取られることによって、集約されていく可能性はあるな。

問題は、手や口、いずれかを選択するのは誰か?それがコンテキストで、それも状況を学習した結果として、全てが同時に起こることはないというべき。
単純に予測が行動になる、というところは、弁別も含めて連合野で記憶されている、もしくは抑制の機能のon/offという形で記憶されている可能性がある。別にどっちもでもいいし、抑制が別経路で働くこともきっとあるだろう。前頭葉新皮質のない動物で抑制がどう働くか、見ておけば、バックアップシステムの様子がわかる。(fast and slow)

ああ、心の社会

p.148 そして、トップレベルで行動が選択されたら、例外処理も、訓練されていればあるレベルで予測の範囲内となる。

分類とシーケンス

連続かつ多次元で変化する入力を限られた数のカテゴリーに分類する(結果としてneuronの活性化パターンがごく少ないものに落ち着く)
そして、それらをシーケンスとして階層を上げていく。
シーケンスがまたカテゴリわけされているとすると、ありうべきシーケンスからちょっと外れた入力は、予測によって補完される
(ああ、これが俺はわかってなかったんだ!)

ノイズは、知っているパターンに寄せられて(予測されて)解釈される。ということ。
全然新規なパターンがこないと寄せられてしまうし。新規なパターンというのは上位に伝えられる。

これらの補完、新規パターンの記憶はずっと続く。そして、どの時点でも結果を利用して予測が可能である。ベイズ統計みたいだ。

上位のパターンは、下位からの入力シンボル1つについて、予測の通りかチェックする、そして、あらかじめ「次はこれじゃない?」という情報も送ってくる。
IMHOこれが自分はとても不思議で、相互接続しているだけなので、ここんとこ上下関係を抜きにしてなんか理解したい)

シーケンス、、これはありうべきiterationの集合で、その存在確率密度ははっきりと中心がある、という感じか。

脳のハードウェアに注目:柱状構造(コラム)

6層の柱が束ねられている。

そして、この6層と他のコラムとの接続、信号伝搬の向きが問題。
これについてはこの本では解剖学的見解をなぞる程度でHTMのドキュメントほどでは無い。

  1. 第1層:表面を軸索が走っている。薄い(相互接続のbusに相当。結合具合はsmall world的かも)
  2. 第2層:錐体細胞がぎっしり詰まっている。ここがいわゆるNeural netかも
  3. 第3層:第2層と同様
  4. 第4層:星型細胞
  5. 第5層:普通の錐体細胞の他に大型の錐体細胞がある
  6. 第6層:他とは形の異なる細胞がある

コラムは隣のコラムともつながりがあるが、興奮のパターンがほぼ共有されている細胞の集合と言える。
また、新生児からの発生の過程でニューロンの前身となる細胞が約100個に分裂するが、その伸びる方向がコラムと相似である。

コラム内の細胞の90%は外の細胞とつながりがある。そのつながる相手はかなり遠いこともある。
抑制や予測が伝えられるpathと思われる。第1層はもともとコラム間のつながりに専念しているが、それ以外もつながっている、ということ。

コラムでの情報伝達

  • 上向きの流れ:下位の階層からの信号は4層に伝わる(ただし、6層の細胞ともシナプス結合している)。そして2層、3層の「隠れ層」と複雑につながって、1層はバイパスして上位の階層へ出て行く
  • 下向きの流れ:上位の階層の第6層からの信号が1層の横向き軸索を通じてバスとして広まり、それから落ちてくる。それが2層、3層で受け止められ、その細胞は5層と6層に伝わる

下りの情報が第1層で広まるのは、上位の普遍の表現が予測を下位に伝えるやり方を示している。
上位の普遍の表現は下位の複数の特定の表現(音程とそれぞれの音、とか、テキストを書くのか、音読するのか、とか)

上下関係以外の新皮質の相互接続

ループはどうやって形成されているか、、例として、5層の巨大錐体細胞から下って行って視床へ行き、そこからはるばる1層にbroadcastされていく流れ。
運動野の働きはこの下向き経路に漏れ出しているようだ。

ところで、いわゆる運動野の5層でなくても運動細胞につながる経路はあるようで、視覚野から眼球運動細胞へとつながる経路が発見されている。
見るものの解釈と、これから何を見るかの予測と決定がみつにシーケンスに組み込まれている。

視床へとつながっている流れは視床内部の非特殊核というところにつながる。
視床は新皮質各部から軸索を受け入れ、そして新皮質の同じ領域へ軸索を返しているが中身はまだ完全に理解されていない。
非特殊核からは第1層へと帰ってくる。
これがループを形成している。
この場合、第5層からのフィードバックはシーケンスの現在の状況を示し、上位の階層からの信号は、現在予測が続いているシーケンスの名前(例えば曲名)である。
この情報を組み合わせれば、予測情報のstateが詳細に決まる。

新皮質の情報の流れと機能

3つの情報の流れ

  1. 下の階層から上位への流れ(カテゴライズ)
  2. 上の階層から下の階層へのフィードバック:現在のカテゴリーを指示
  3. 視床を経由したフィードバック(現在のカテゴリーの中の順序を指示

4つの疑問

  1. どうやって入力を分類するのか
  2. どうやってパターンのシーケンスを学習するのか
  3. どうやってパターンのシーケンスに名前をつけるのか
  4. どうやって特定の予測をできるのか

入力の分類

一番強い(多数が整合する)刺激パターンが他を抑制する。
そして、その閾値があることで、特定のコラムだけが一人勝ちが起きて興奮する。
これを上位からみれば入力から複数のコラムのグループ内での興奮のパターンと成る。
下位からみれば、ある入力のグループが特定のパターンを引き起こし、そのカテゴリーに収まる。

シーケンスの学習

下位からの入力で興奮し、ヘッブの法則で結びつきが強化される

  1. 下位からの入力でまず第4層の細胞が興奮する
    1. 第4層からは第3層、第2層へとつながる
    2. 下位からの入力は途中の第5層、第6層にもシナプスがあり、そこの細胞も入力を受ける
  2. 結果としてコラム全体が活性化する
  3. コラムの各細胞は第1層にシナプスを作っているので、第1層にきている樹状突起のうち、興奮しているものがあれば、相互に結合度が高まる。(Hebbの法則)
  4. すると、そのうち、第1層にあるシナプスは第4層の細胞が興奮してなくても、自分と他の層の結びつきによって2、3、5層を活性化できる。(これがHTMのカラムが4個のセル、という話か)
  5. 第1層から第5層の入力
    1. 半分は視床を通ってループを構成していた「直前の状態」であるが、この「直前の状態」もカラムの興奮の決定に預かることになる。時間的シーケンスが興奮の条件になりうる。
    2. 半分は上の階層の第6層からきている。これは変化が少ない。現状で認識されているシーケンスの名前がずっと渡される。

(IMHO: おー、これでneural net組むことでかなりのことができないですか?いかなるシーケンスも覚えられるよね、区別可能かどうかはあれだけど。そのあたりのスケール感がわかれば、百科事典覚えるための素子数とか割り出せる。画像や音声、動画まで含め、そして人の認識。人が若い頃から年老いるまでとかも。
これが脳の容量の正確な見積もりになるはず。)

学習と周囲のコラムとの関係

第1層が決定的とは限らない。コラムないのそれぞれの細胞は近傍のコラムの細胞ともつながりがある。
それが90%以上であり、ほとんどが第1層以外とつながっっている。
だから、近傍のコラムが興奮した、ということは予測と密接につながっている。(視野を横切る物体の認識など)

名前をつける

上位の階層へ第2、第3層から信号を送る場合、一旦学習した名前については、それを連呼し続ける必要がある。勝手に変わってはいけないのだ。学習する前は不安定だったが。
そのメカニズムは執筆時点ではわかっていない。しかし、こういう挙動が要求されることは確かである。
おそらくは、予測の入力があると、不安定な下層からの信号をoverrideする抑制のシステムがあるのだろう。
(これは図10)
一個の細胞が興奮し続けることは考えにくいので、小さなループが形成されて、上位からの予測によってパルスジェネレータのスイッチが入るようなことが起きているかもしれない。(automatonのガンのようだ)

ある特定の予測が立てられる仕組み

普遍的な予測(上位のカラムの状態)から、具体的な予測の(シーケンス)を導くこと

ある予測が第1層に入ると、特定のカラムのグループが活性化され、それらの第5層が活性化される。
そして、具体的な入力がマッチしたケースによって、さらに下位の階層へ具体的な次の予測が出力される
(でも、これだと同じ音程が2回きた時、次が異なる場合があるじゃん?だから、単純な現在値をkeyとして次の予測値valueのマップではない。少なくともそれが変化するか、上位が切り替わっていく必要がある。だから、上位階層の予測は曲名という単位ではなくて、音程、ということになるだろう。単純な楽曲でも、タイミングなどを考えるとかなり高次の階層が必要になるかもしれない。ある種の曲は覚えにくい、というのはこのあたりか。

この接続を学習するのはどのような過程か?

上位からの予測(第5層とつながる)と、下位からの入力(第4層)によって強化される。

で、第6層は4、5層の状態を見て、予測か下位からの入力かは知らないが、現在活性化されているからにはこのからむが担当している名前のシーケンスが活性化しているぞ、と下位に予測を知らせる。

観測が完璧ならば、下層からの入力は予測によってあらかじめ活性化されるからむの真部分集合だろうが、そうでない、ノイズや欠落があった場合でも、上位からの予測は安定して供給され、欠落の場合は予測が変わりに出力を決める。
予測だけでもシーケンスは続けられるので、リハーサルが可能である。

行動と予測

第5層からは運動と視床(delay loop)に向かうので、予測は行動という形をとる。
行動も高位のシンプルな名前からbreak downされていって具体的な運動となり、さらにその運動の結果の感覚入力も予測され、逐次その結果が視床を経て第1層へ入力されている。

つまり、あるシーケンスは運動や感覚の絡み合いとして記憶され、予測される。
ある行為の運動は視覚や触覚によって予測され、その知覚と比較されていく。(というか、知覚も予想されている。予測ありきだから整合って当たり前。整合しないってことは機能不全そのもの)

だから、ミラーニューロンというのは自然なのだ。当たり前なのだ。もつれ合っているものなのだ。
動かせるのは、それを見ているから、

動くのは、行動の名前が今活性化しているから。
その場合、何が見えるか、何を見るか、まで、もつれ合った形で記憶から引っ張り出されてくる。

一方、行動なしの知覚、、っていうのもありうる。予測だけ。
これはリハーサルとか夢とか。
行動しなくても、知覚そのものが予測されている。(これが何らかの強化を伴うかは興味深い)

シンボルを弄ぶ、とか、論理的思考って、この方面で考えることは可能だろうな。
その結果が学習可能でないはずがない。

そのうち、何が行動として起きるか、、は、また別の回路の仕事だと言える。

上向きの流れと下向きの流れ

予測しない情報が上位へと流れていく。
上位に当てはまるシーケンスのパターンがあれば、それが活性化される。
でも、それに当てはまらなければ、さらに上位へと抜けていく。(予測状態ならば抑制されるはずの細胞の興奮が上位に伝わる)
最上位で、「気づく」それが意識

そして、理解ができると、上意下達して落ち着く。もう予測との不整合はない。

逆方向の流れと予測

予測が重要視されてこなかった。感覚を統合する方向だけが検討の対象だった。
現実にはうまくやっているのは、細かいことにかかわらずにfeed forwardで物事をトップダウンに進めているからだ。
それがうまくいかない時のovercallの仕組みもちゃんとあるが、結局はawkwardなことになる。

上からしたへの逆方向の流れがこれまで無視されていたもう一つの理由は、それが散らばってしまうからだ。
その影響を見極めにくい。
予測、というpre-heatのような働きを観測するのはこんなんだ。

さらにもう一つの理由は上から下への情報の流れは、遠い細胞へと伝わる。これは無視されやすい。
第2、第3層の密接な結合は上への流れだが、これだけが取り出されてneural netのモデルとなった。

細胞の中心から遠いところに数千のシナプスがある、とするならば、それだけの多様な可能性をひろいあげることが絶対に必要な局面があるはずだ、という洞察。まさに。
それが、予測のパターンの可能性のビット幅。
それがsparseなデータのビット幅。

新皮質の学習方法

ヘッブの法則
二つの近接するニューロンが同時に興奮した時、そのシナプスの結合度が強まる。
これは完全には正しくない。別の結合度強化のパターンもある。少しずれているといい、とか。

これを単純なneural networkに適用するだけでもいろんなことができた。

新皮質ではカラムの構造や上下のつながり、近傍のカラムとの関係など、構造が複雑になっている。

学習の内容は2つ
パターンの分類
シーケンスの組み立て

シーケンスの組み立ての基本原理

同じ対象を構成するパターン同士をまとめる(縮約)すること
時間的に連続して起こるパターンをまとめる。
パターンのシーケンスの名前を上位の階層に伝えるようになる。
下位からの入力がよりobject orientedになると、上位はもっと高次のシーケンスを学習できるようになる(うーん、どうかな、上位が安定した入力をエルようになって初めて、学習ができてくる。で、このトップレベルは動かないのか?階層が差し込まれれるようなことはあるのか?(下向きの移動と学び直しと言っている)

このあたりはもっと複雑というかグチャグチャとしているが、センサーの結線がみんな一緒だからだいたい似たような脳になる、というべきなのかな?
だいたいの階層レベルはみんなあんまり変わらない。というかすごく複雑なものを「押し込めていく」のは子供のうちにできてないと難しそうであるな。とほほ

XMLを直接理解するような脳、ってのは無理かな??後付けだと。

運動もシーケンスの学習の結果としての予測の発現であるから、モロに学習が効いてくる。
そして、意識で処理することがあるうちはスムーズにタイミングよくというわけにはいかない。
まだシーケンスになっていない、ということだ。

初心者と経験者の違い。は、脳の学びがいつまでも可能だという好例かもしれない。

階層の頂上に位置する海馬

これってなんだろう?と思っていて、新皮質の最上位である、と考えて得心が行ったという。
(p.186では新皮質は海馬と脳の残りの部分の間に進化したと言う)

感覚器と海馬の間の階層、シンプルなツリーと言うよりは混乱を極めたforestだということで、常に海馬に繋がろうとしている新規のシーケンス候補があるわけだ。そして、海馬レベルで安定して予測されるようになると、海馬へは届かなくなる。

海馬だけ見ていれば、意識はだいたいわかる。とも言えるな。

海馬の特殊性。短期記憶。すぐに記憶できる。そしてそれを下層の新皮質のトップレベルに返していく。
その予測にあるうちに、下層でシーケンスを構築できれば記憶に残り、そうでなければ新しい刺激で上書きされるか、減衰して消えてしまう。

階層を登っていく第二の経路。
第5層から視床を通って第1層に戻ってくる経路。これは遅延ループだった。それ以外にも上位へと通じる経路がある。
これは一つ上の階層につながるが2つの状態がある

  1. 通常は遮断されている
  2. ある状態の時は正確に同じ情報が流れる(細部に注意を向けている時。下位から思いがけなく強い信号が来た時)
    1. 異常や見慣れないものをけんちした時にすぐに意識に登るのはこれ。知らないデータは全然予測に引っかからないから目立つ。

 

7,8章は示唆的だけどあくまで予想なので割愛

おまけ1.Hardwareに関するIBMとのプラン


http://nice.sandia.gov/documents/2015/NICE3talkwwwFinal-NO%20VIDEOS.pdf

It's too early to cast learning algorithms/models into specialized silicon

Best platform for HTM development are optimized highly parallel von Neumann machines 現状はそうだな。

  • The extremely high connectivity of wafer-scale and 3D stacking is a great match for cortical simulations
    • performance is derived from high memory bandwidth feeding a large number of fairly simple processors
    • Very high communications performance between processors (message passing model)
  • The resilience of HTM algorithms makes wafer-scale yield problems irrelevant


Wafer stack architecture

  • N pairs of 300mm vertically stacked Si-wafers
  • Eeach pair contains
    • ANT wafer: array of small processors + e-DRAM (cache)
    • DRAM wafer: mostly stores tables of synapse state
      • 0.5TB DRM per wafer
  • Vertical communication via densily spaced vias
  • horizontal communication on ANT wafers
    • communications is not the bottleneck
  • power dissipation will set the limit of N (a few kW)
  • technology co-development with other 'Gen3' uses



Experimental Demonstration of a Neural Network (165000 synapses) built from Phase Change Devices

  • presentation at IEDM 2014 (Geoffrey Burr et.al)
  • FIrst demo of a rather large NN where all syanpses are pairs of Phase Change Memory Devices (not Silicon)
    • because of strong asymmetry of PCM, each synapse is implemented as a voltage divider to allow changes up and down
  • Implemented a backpropagation net and tested on MNIST 82.9% accuracy
  • Newtwork is veri resilent against random effects
    • device variability - yield - stochastic effects
  • But highly sensitive to 'gradient effects' which steer all conductivities in one direction (ホルモンやイオン濃度だな)

HTMについての 論文

Hierarchical Temporal Memory https://numenta.com/assets/pdf/whitepapers/hierarchical-temporal-memory-cortical-learning-algorithm-0.2.1-jp.pdf

これについては別途ノート作ったが、まだコピペの部分とか多いので貼れない。