クラスタリング・主成分分析・潜在モデル分析などを試してみる上で適切なデータセットはなんだろうと考えていました。アイリスのデータセットでさくっとやるのも良かったのですが、熟考した結果「動物」の分類だ!と閃きました 笑
ヒトやチンパンジーをふくめて、すべての生物が共通の祖先から進化したという「進化論」の考え方をはじめて発表したのは、ダーウィン(Charles Robert Darwin、1809-1882)です。それから今日まで、発掘された骨の化石の形を分析したり、遺伝子をヒトやチンパンジーと比較したり、といったさまざまな研究が進み、共通祖先からどのようにヒトが進化してきたかも分かってきています。
「類人猿分類公式マニュアル2.0 人間関係に必要な知恵はすべて類人猿に学んだ」という本の内容を抜粋するとDNAの一致率でいうと、ヒトと「チンパンジー」が98.8%、「ゴリラ」が97.7%、「オラウータン」が約96.4%のようです。(計算された時期や手法によって他の情報源と差異は発生するかも知れません。)
現存する人間に最も近い生物はチンパンジーではなくオランウータンだ。こう主張する最新の研究論文が議論を呼んでいる。 この結論は、オランウータンと人間が身体的に酷似していることに基づく...多くの科学者が引き合いに出すDNA鑑定は人間とチンパンジーのゲノムのごく一部しか調べていない...しかも、はるかに多くの動物が共有する古いDNAの形質がいくつも、人間とチンパンジーの類似点として挙げられている可能性がある。
AwA2 (Animals with Attributes 2) のデータセットになります。
AwA2 (Animals with Attributes2)のデータセットとは
AwA2のデータセットは画像の著作権問題で利用制限中であるAwA (Animals with Attributes)の後継のデータセットになります。転移学習、特に属性ベースの分類とゼロショット学習のベンチマークとして利用されています。
※ ちなみに画像は2016年にFlickrなどのパブリックソースから著作権フリーの画像を収集したそうです。
※ ゼロショット学習というワードが初めてでしたので調べてみると、学習データにはないがテストデータや未知のデータには存在するラベルを予測しようとするアプローチのようです。GMOさんのZero-shot learningの紹介:見たことがない画像やニュースを予測してみましたが事例も載っており分かりやすかったです。
観点が異なりますが、情報がないという点では何となく推薦システムのコールドスタート問題に通じるものがあるなと思いました。(詳しくはYahoo! JAPAN Tech Blogの機械学習の階層モデルの適用でコールドスタート問題に対処するが参考になります。)
人工知能/機械学習分野のゼロショット学習(Zero-shot Learning)とは、新しいクラス(分類問題の場合)やタスクを訓練データから事前に学習していなくても、推論時にその未知のクラスやタスクについての何らかの補助情報(説明テキストや属性情報、クラス間の類似性など)を訓練済みAIモデルに与えることで、柔軟に適切な分類や予測を行うための学習方法のことである。
https://cvml.ista.ac.at/AwA2/ にアクセスし、AwA2-base.zipをダウンロードしてください。
・Base package (32K) including the class/attribute table:AwA2-base.zip (same as for AwA1)
・Images in JPEG format and license files: AwA2-data.zip (13 GB!)
・(画像の特徴量は今回は使わない) Features extracted using an ILSVRC-pretrained ResNet101 (as used in [1]): AwA2-features.zip
犬や猫の具体的な種別も含まれているようですね。(英語の勉強にもなりました 笑)
No. | 英名 | 日本語名 | 画像 | No. | 英名 | 日本語名 | 画像 |
1 | antelope | アンテロープ | 26 | hamster | ハムスター | ||
2 | grizzly+bear | グリズリーベア | 27 | squirrel | リス | ||
3 | killer+whale | シャチ | 28 | rhinoceros | サイ | ||
4 | beaver | ビーバー | 29 | rabbit | ウサギ | ||
5 | dalmatian | ダルメシアン(犬) | 30 | bat | コウモリ | ||
6 | persian+cat | ペルシャ(猫) | 31 | giraffe | キリン | ||
7 | horse | 馬 | 32 | wolf | オオカミ | ||
8 | german+shepherd | ジャーマンシェパード(犬) | 33 | chihuahua | チワワ(犬) | ||
9 | blue+whale | シロナガスクジラ | 34 | rat | ラット(大型のネズミ) | ||
10 | siamese+cat | シャム(猫) | 35 | weasel | イタチ | ||
11 | skunk | スカンク | 36 | otter | カワウソ | ||
12 | mole | モグラ | 37 | buffalo | バッファロー | ||
13 | tiger | トラ | 38 | zebra | シマウマ | ||
14 | hippopotamus | カバ | 39 | giant+panda | ジャイアントパンダ | ||
15 | leopard | ヒョウ | 40 | deer | シカ | ||
16 | moose | ヘラジカ | 41 | bobcat | ボブキャット | ||
17 | spider+monkey | クモザル | 42 | pig | ブタ | ||
18 | humpback+whale | ザトウクジラ | 43 | lion | ライオン | ||
19 | elephant | 象 | 44 | mouse | マウス(小型のネズミ) | ||
20 | gorilla | ゴリラ | 45 | polar+bear | ホッキョクグマ | ||
21 | ox | 雄牛 | 46 | collie | コリー(犬) | ||
22 | fox | キツネ | 47 | walrus | セイウチ | ||
23 | sheep | 羊 | 48 | raccoon | アライグマ | ||
24 | seal | アザラシ | 49 | cow | 雌牛 | ||
25 | chimpanzee | チンパンジー | 50 | dolphin | イルカ |
まずは、50種類の動物 x 85属性情報を持ったデータフレームを作成しようと思います。
今回はK-Means, PCA, and Dendrogram on the Animals with Attributes Datasetを参考にしました。
下記の流れで分析を進めようと思います。 (参考にしたノートブックまんまですが 笑)
- 分析用データの作成
- 85次元を2次元で表現するため、主分析分析を実施
- 主成分分析の結果を活用し非階層クラスタリング(K-Means)でグルーピング
- 階層クラスタリングでグルーピング
Out[0]['antelope' 'grizzly+bear' 'killer+whale' 'beaver' 'dalmatian' 'persian+cat' 'horse' 'german+shepherd' 'blue+whale' 'siamese+cat' 'skunk' 'mole' 'tiger' 'hippopotamus' 'leopard' 'moose' 'spider+monkey' 'humpback+whale' 'elephant' 'gorilla' 'ox' 'fox' 'sheep' 'seal' 'chimpanzee' 'hamster' 'squirrel' 'rhinoceros' 'rabbit' 'bat' 'giraffe' 'wolf' 'chihuahua' 'rat' 'weasel' 'otter' 'buffalo' 'zebra' 'giant+panda' 'deer' 'bobcat' 'pig' 'lion' 'mouse' 'polar+bear' 'collie' 'walrus' 'raccoon' 'cow' 'dolphin'] ['black' 'white' 'blue' 'brown' 'gray' 'orange' 'red' 'yellow' 'patches' 'spots' 'stripes' 'furry' 'hairless' 'toughskin' 'big' 'small' 'bulbous' 'lean' 'flippers' 'hands' 'hooves' 'pads' 'paws' 'longleg' 'longneck' 'tail' 'chewteeth' 'meatteeth' 'buckteeth' 'strainteeth' 'horns' 'claws' 'tusks' 'smelly' 'flys' 'hops' 'swims' 'tunnels' 'walks' 'fast' 'slow' 'strong' 'weak' 'muscle' 'bipedal' 'quadrapedal' 'active' 'inactive' 'nocturnal' 'hibernate' 'agility' 'fish' 'meat' 'plankton' 'vegetation' 'insects' 'forager' 'grazer' 'hunter' 'scavenger' 'skimmer' 'stalker' 'newworld' 'oldworld' 'arctic' 'coastal' 'desert' 'bush' 'plains' 'forest' 'fields' 'jungle' 'mountains' 'ocean' 'ground' 'water' 'tree' 'cave' 'fierce' 'timid' 'smart' 'group' 'solitary' 'nestspot' 'domestic'] 0 1 2 3 4 5 6 7 8 9 ... 75 \ 0 -1.00 -1.00 -1.0 -1.00 12.34 0.0 0.0 0.0 16.11 9.19 ... 0.00 1 39.25 1.39 0.0 74.14 3.75 0.0 0.0 0.0 1.25 0.00 ... 7.64 2 83.40 64.79 0.0 0.00 1.25 0.0 0.0 0.0 68.49 32.69 ... 79.49 3 19.38 0.00 0.0 87.81 7.50 0.0 0.0 0.0 0.00 7.50 ... 65.62 4 69.58 73.33 0.0 6.39 0.00 0.0 0.0 0.0 37.08 100.00 ... 1.25 76 77 78 79 80 81 82 83 84 0 0.00 1.23 10.49 39.24 17.57 50.59 2.35 9.70 8.38 1 9.79 53.14 61.80 12.50 24.00 3.12 58.64 20.14 11.39 2 0.00 0.00 38.27 9.77 52.03 24.94 15.77 13.41 15.42 3 0.00 0.00 3.75 31.88 41.88 23.44 31.88 33.44 13.12 4 6.25 0.00 9.38 31.67 53.26 24.44 29.38 11.25 72.71 [5 rows x 85 columns]
antelope grizzly+bear killer+whale beaver dalmatian black -1.00 39.25 83.40 19.38 69.58 white -1.00 1.39 64.79 0.00 73.33 blue -1.00 0.00 0.00 0.00 0.00 brown -1.00 74.14 0.00 87.81 6.39 gray 12.34 3.75 1.25 7.50 0.00 ... ... ... ... ... ... smart 17.57 24.00 52.03 41.88 53.26 group 50.59 3.12 24.94 23.44 24.44 solitary 2.35 58.64 15.77 31.88 29.38 nestspot 9.70 20.14 13.41 33.44 11.25 domestic 8.38 11.39 15.42 13.12 72.71 85 rows × 5 columns
Index: 50 entries, antelope to dolphin Data columns (total 85 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 black 50 non-null float64 1 white 50 non-null float64 2 blue 50 non-null float64 3 brown 50 non-null float64 4 gray 50 non-null float64 5 orange 50 non-null float64 6 red 50 non-null float64 7 yellow 50 non-null float64 8 patches 50 non-null float64 9 spots 50 non-null float64 10 stripes 50 non-null float64 11 furry 50 non-null float64 12 hairless 50 non-null float64 13 toughskin 50 non-null float64 14 big 50 non-null float64 15 small 50 non-null float64 16 bulbous 50 non-null float64 17 lean 50 non-null float64 18 flippers 50 non-null float64 19 hands 50 non-null float64 20 hooves 50 non-null float64 21 pads 50 non-null float64 22 paws 50 non-null float64 23 longleg 50 non-null float64 24 longneck 50 non-null float64 25 tail 50 non-null float64 26 chewteeth 50 non-null float64 27 meatteeth 50 non-null float64 28 buckteeth 50 non-null float64 29 strainteeth 50 non-null float64 30 horns 50 non-null float64 31 claws 50 non-null float64 32 tusks 50 non-null float64 33 smelly 50 non-null float64 34 flys 50 non-null float64 35 hops 50 non-null float64 36 swims 50 non-null float64 37 tunnels 50 non-null float64 38 walks 50 non-null float64 39 fast 50 non-null float64 40 slow 50 non-null float64 41 strong 50 non-null float64 42 weak 50 non-null float64 43 muscle 50 non-null float64 44 bipedal 50 non-null float64 45 quadrapedal 50 non-null float64 46 active 50 non-null float64 47 inactive 50 non-null float64 48 nocturnal 50 non-null float64 49 hibernate 50 non-null float64 50 agility 50 non-null float64 51 fish 50 non-null float64 52 meat 50 non-null float64 53 plankton 50 non-null float64 54 vegetation 50 non-null float64 55 insects 50 non-null float64 56 forager 50 non-null float64 57 grazer 50 non-null float64 58 hunter 50 non-null float64 59 scavenger 50 non-null float64 60 skimmer 50 non-null float64 61 stalker 50 non-null float64 62 newworld 50 non-null float64 63 oldworld 50 non-null float64 64 arctic 50 non-null float64 65 coastal 50 non-null float64 66 desert 50 non-null float64 67 bush 50 non-null float64 68 plains 50 non-null float64 69 forest 50 non-null float64 70 fields 50 non-null float64 71 jungle 50 non-null float64 72 mountains 50 non-null float64 73 ocean 50 non-null float64 74 ground 50 non-null float64 75 water 50 non-null float64 76 tree 50 non-null float64 77 cave 50 non-null float64 78 fierce 50 non-null float64 79 timid 50 non-null float64 80 smart 50 non-null float64 81 group 50 non-null float64 82 solitary 50 non-null float64 83 nestspot 50 non-null float64 84 domestic 50 non-null float64
count mean std min 25% 50% 75% max black 50.0 35.3530 26.045034 -1.00 11.1500 34.335 47.3350 91.55 white 50.0 26.8552 27.883534 -1.00 4.4900 17.660 42.5250 95.62 blue 50.0 4.2134 11.683817 -1.00 0.0000 0.000 1.1700 67.08 brown 50.0 38.7088 25.864638 -1.00 15.7450 44.385 58.3775 91.20 gray 50.0 26.7472 22.947985 0.00 6.3150 24.115 39.3300 83.97 ... ... ... ... ... ... ... ... ... smart 50.0 33.6064 18.689228 8.75 17.7700 31.070 44.0900 84.36 group 50.0 31.0194 21.446729 0.00 13.5400 24.690 49.8625 80.60 solitary 50.0 25.8326 17.404436 0.00 8.9450 25.580 38.6700 59.47 nestspot 50.0 20.8992 10.667576 2.31 12.4975 18.990 28.1650 44.17 domestic 50.0 25.6106 26.516248 0.00 5.0350 12.950 44.7675 83.55
The numeric data was originally collected by Osherson et al. [1],
and extended by Kemp et al. [2].
[1] D. N. Osherson, J. Stern, O. Wilkie, M. Stob, and E. E.
Smith. Default probability. Cognitive Science, 15(2), 1991.
[2] C. Kemp, J. B. Tenenbaum, T. L. Griffiths, T. Yamada, and
N. Ueda. Learning systems of concepts with an infinite rela-
tional model. In AAAI, 2006.
Oshersonの記事はDefault Probabilityから確認することができました。
Kempの論文はLearning Systems of Concepts with an Infinite Relational Modelから確認することが出来ます。
- MITの学部生に対して広告を出して被験者を募集。参加者には報酬が支払われた。
- 被験者は、48の哺乳類の動物と85の属性のリストを確認し、各哺乳動物-属性のペアに非負の数値を割り当てるように指示された。
(今回のデータは50の哺乳類が存在するので後で拡張されたのかも知れません) - 数値は「属性と哺乳動物の間の関連性の相対的な強さを反映するべき」とされた。
(数値が高いほど関連性が高いということになりますね。) - すべての被験者の評価は線形変換によって0から1の範囲に正規化された。
- 各哺乳動物について、それを評価した8または9人の被験者の正規化されたスコアが平均された。
※ -1が欠損値だと理解したのは、README-attributes.txt内に記載があったためです。
Missing values in the numeric table are marked by -1
attribute | killer+whale | zebra | elephant |
black | 83.40 | 85.04 | 2.50 |
white | 64.79 | 85.04 | 3.75 |
blue | 0.00 | 0.00 | 0.00 |
brown | 0.00 | 0.00 | 15.23 |
gray | 1.25 | 0.00 | 83.97 |
orange | 0.00 | 0.00 | 0.00 |
red | 0.00 | 0.00 | 0.00 |
yellow | 0.00 | 0.00 | 0.00 |
patches | 68.49 | 0.00 | 0.00 |
spots | 32.69 | 0.00 | 1.25 |
stripes | 0.00 | 98.86 | 0.00 |
furry | 1.25 | 36.40 | 1.14 |
hairless | 70.62 | 7.69 | 68.27 |
toughskin | 57.04 | 20.80 | 77.62 |
big | 90.85 | 48.82 | 85.48 |
small | 1.25 | 8.18 | 1.25 |
bulbous | 61.87 | 11.88 | 48.52 |
lean | 22.68 | 38.74 | 1.25 |
flippers | 79.94 | 0.00 | 0.00 |
hands | 0.00 | 0.00 | 0.00 |
hooves | 0.00 | 76.45 | 10.60 |
pads | 0.00 | 0.00 | 17.10 |
paws | 0.00 | 0.00 | 5.08 |
longleg | 0.00 | 39.02 | 39.14 |
longneck | 1.25 | 21.88 | 1.25 |
tail | 41.67 | 61.43 | 51.97 |
chewteeth | 12.50 | 64.72 | 38.16 |
meatteeth | 45.15 | 0.00 | 0.00 |
buckteeth | 5.00 | 14.38 | 11.25 |
strainteeth | 30.22 | 6.25 | 0.00 |
horns | 0.00 | 0.00 | 1.14 |
claws | 0.00 | 0.00 | 0.00 |
tusks | 0.00 | 0.00 | 70.47 |
smelly | 7.50 | 9.55 | 49.67 |
flys | 1.25 | 0.00 | 3.75 |
hops | 0.00 | 4.17 | 0.00 |
swims | 91.45 | 0.00 | 0.00 |
tunnels | 0.00 | 0.00 | 0.00 |
walks | 0.00 | 77.61 | 66.19 |
fast | 57.37 | 70.85 | 3.75 |
slow | 5.14 | 1.25 | 63.03 |
strong | 63.35 | 29.85 | 67.45 |
weak | 1.25 | 16.25 | 0.00 |
muscle | 10.45 | 38.76 | 25.56 |
bipedal | 0.00 | 0.00 | 0.00 |
quadrapedal | 0.00 | 89.00 | 70.61 |
active | 27.29 | 42.51 | 6.48 |
inactive | 13.23 | 20.00 | 53.62 |
nocturnal | 8.75 | 0.00 | 7.50 |
hibernate | 0.00 | 0.00 | 0.00 |
agility | 27.80 | 29.52 | 5.78 |
fish | 66.75 | 0.00 | 0.00 |
meat | 21.81 | 5.14 | 5.68 |
plankton | 32.86 | 0.00 | 0.00 |
vegetation | 3.75 | 74.30 | 55.85 |
insects | 0.00 | 0.00 | 1.25 |
forager | 10.89 | 32.08 | 8.06 |
grazer | 0.00 | 78.67 | 43.83 |
hunter | 57.87 | 4.17 | 3.75 |
scavenger | 6.61 | 0.00 | 2.50 |
skimmer | 20.36 | 0.00 | 0.00 |
stalker | 15.00 | 0.00 | 0.00 |
newworld | 16.25 | 5.42 | 4.53 |
oldworld | 12.50 | 90.92 | 84.56 |
arctic | 24.51 | 0.00 | 0.00 |
coastal | 30.11 | 0.00 | 0.00 |
desert | 0.00 | 0.00 | 8.75 |
bush | 0.00 | 41.53 | 36.91 |
plains | 0.00 | 58.91 | 14.11 |
forest | 0.00 | 8.75 | 7.58 |
fields | 0.00 | 29.09 | 16.10 |
jungle | 0.00 | 10.00 | 36.33 |
mountains | 0.00 | 10.00 | 0.00 |
ocean | 88.28 | 0.00 | 0.00 |
ground | 0.00 | 82.75 | 66.81 |
water | 79.49 | 0.00 | 1.25 |
tree | 0.00 | 0.00 | 0.00 |
cave | 0.00 | 0.00 | 0.00 |
fierce | 38.27 | 0.00 | 20.63 |
timid | 9.77 | 53.25 | 39.36 |
smart | 52.03 | 22.63 | 22.81 |
group | 24.94 | 80.60 | 49.87 |
solitary | 15.77 | 1.25 | 6.25 |
nestspot | 13.41 | 19.09 | 12.29 |
domestic | 15.42 | 9.94 | 6.88 |
attribute | killer+whale | zebra | elephant |
black(黒) | 83.40 | 85.04 | 2.50 |
white(白) | 64.79 | 85.04 | 3.75 |
gray(灰色) | 1.25 | 0.00 | 83.97 |
patches(斑模様?) | 68.49 | 0.00 | 0.00 |
swims(泳ぐ) | 91.45 | 0.00 | 0.00 |
smart(賢い) | 52.03 | 22.63 | 22.81 |
group(群れ) | 24.94 | 80.60 | 49.87 |
newworld(南北アメリカおよびオーストラリアに存在) | 16.25 | 5.42 | 4.53 |
oldworld(アジア、ヨーロッパ、アフリカなどに存在) | 12.50 | 90.92 | 84.56 |
※ 見やすいようにアウトプットは加工しています。
最小値 | 最小値のindex | 最大値 | 最大値のindex | 最小値 | 最小値のindex | 最大値 | 最大値のindex | ||
black | 1.88 | lion | 91.55 | bat | muscle | 0.62 | mouse | 82.34 | tiger |
white | 1.25 | lion | 95.62 | polar+bear | bipedal | 0.62 | collie | 68.80 | gorilla |
blue | 1.56 | seal | 67.08 | blue+whale | quadrapedal | 4.80 | dolphin | 89.00 | zebra |
brown | 0.33 | dolphin | 91.20 | moose | active | 2.64 | rhinoceros | 77.80 | chimpanzee |
gray | 1.25 | killer+whale | 83.97 | elephant | inactive | 1.11 | horse | 53.62 | elephant |
orange | 1.49 | cow | 72.91 | tiger | nocturnal | 0.62 | dolphin | 98.86 | bat |
red | 0.12 | chihuahua | 40.89 | fox | hibernate | 1.11 | horse | 86.14 | grizzly+bear |
yellow | 0.16 | dolphin | 48.43 | giraffe | agility | 3.52 | pig | 88.33 | spider+monkey |
patches | 0.62 | chimpanzee | 84.95 | giant+panda | fish | 0.62 | spider+monkey | 83.33 | otter |
spots | 0.80 | dolphin | 100.00 | dalmatian | meat | 0.30 | cow | 86.97 | tiger |
stripes | 1.25 | leopard | 98.86 | zebra | plankton | 3.12 | beaver | 82.30 | humpback+whale |
furry | 0.62 | dolphin | 90.19 | persian+cat | vegetation | 1.25 | leopard | 78.06 | moose |
hairless | 0.46 | chimpanzee | 73.27 | dolphin | insects | 0.62 | lion | 46.43 | bat |
toughskin | 0.62 | chihuahua | 77.62 | elephant | forager | 1.25 | otter | 77.01 | squirrel |
big | 1.25 | mole | 94.60 | humpback+whale | grazer | 0.25 | walrus | 78.67 | zebra |
small | 1.25 | killer+whale | 86.05 | chihuahua | hunter | 0.62 | mole | 84.93 | tiger |
bulbous | 0.62 | chihuahua | 82.08 | walrus | scavenger | 0.72 | cow | 60.85 | rat |
lean | 1.25 | elephant | 73.48 | leopard | skimmer | 1.12 | grizzly+bear | 50.11 | humpback+whale |
flippers | 4.38 | beaver | 86.44 | dolphin | stalker | 0.62 | mouse | 87.22 | tiger |
hands | 1.25 | walrus | 77.77 | chimpanzee | newworld | 2.64 | rhinoceros | 82.33 | moose |
hooves | 10.60 | elephant | 86.32 | horse | oldworld | 3.95 | grizzly+bear | 90.92 | zebra |
pads | 0.56 | giraffe | 42.44 | persian+cat | arctic | 1.11 | siamese+cat | 96.88 | polar+bear |
paws | 1.25 | gorilla | 76.17 | collie | coastal | 1.25 | dalmatian | 59.15 | seal |
longleg | 1.25 | pig | 84.01 | giraffe | desert | 0.31 | cow | 22.50 | lion |
longneck | 1.25 | killer+whale | 96.71 | giraffe | bush | 2.50 | german+shepherd | 65.09 | chimpanzee |
tail | 5.39 | buffalo | 86.56 | beaver | plains | 1.25 | spider+monkey | 68.84 | buffalo |
chewteeth | 5.92 | bobcat | 64.72 | zebra | forest | 1.25 | sheep | 77.40 | grizzly+bear |
meatteeth | 0.62 | buffalo | 85.88 | tiger | fields | 1.25 | dalmatian | 70.14 | horse |
buckteeth | 2.47 | antelope | 83.12 | beaver | jungle | 0.25 | rabbit | 91.98 | chimpanzee |
strainteeth | 0.19 | cow | 69.32 | blue+whale | mountains | 0.62 | mole | 67.19 | moose |
horns | 1.14 | elephant | 93.02 | moose | ocean | 35.00 | otter | 89.36 | humpback+whale |
claws | 3.75 | seal | 75.05 | tiger | ground | 10.00 | otter | 84.48 | rat |
tusks | 1.25 | ox | 90.74 | walrus | water | 0.55 | cow | 89.95 | humpback+whale |
smelly | 1.95 | squirrel | 100.00 | skunk | tree | 1.25 | fox | 81.36 | chimpanzee |
flys | 0.82 | dolphin | 95.90 | bat | cave | 0.32 | cow | 80.62 | bat |
hops | 1.14 | raccoon | 87.59 | rabbit | fierce | 1.11 | giraffe | 83.81 | tiger |
swims | 0.25 | lion | 91.45 | killer+whale | timid | 2.27 | raccoon | 67.49 | deer |
tunnels | 0.19 | cow | 77.61 | mole | smart | 8.75 | hippopotamus | 84.36 | chimpanzee |
walks | 2.50 | bat | 78.90 | ox | group | 0.62 | collie | 80.60 | zebra |
fast | 2.50 | hippopotamus | 85.26 | leopard | solitary | 1.25 | zebra | 59.47 | bobcat |
slow | 1.11 | horse | 68.69 | hippopotamus | nestspot | 2.31 | hippopotamus | 44.17 | gorilla |
strong | 1.25 | mole | 88.78 | ox | domestic | 2.31 | buffalo | 83.55 | siamese+cat |
weak | 1.11 | horse | 61.36 | chihuahua |
属性名の意味一覧 (推測)
属性名 | 日本語訳 | 属性名 | 日本語訳 |
black | 黒い | muscle | 筋肉質な |
white | 白い | bipedal | 二足歩行可能な |
blue | 青い | quadrapedal | 四足歩行可能な |
brown | 茶色い | active | 活動的な |
gray | 灰色 | inactive | 非活動的な |
orange | オレンジ色 | nocturnal | 夜行性 |
red | 赤い | hibernate | 冬眠する |
yellow | 黄色い | agility | すばしっこい |
patches | 斑ら模様な | fish | 魚を食べる |
spots | 点々模様な | meat | 肉を食べる |
stripes | ストライプ模様な | plankton | プランクトンを食べる |
furry | 毛皮でおおわれた | vegetation | 草を食べる |
hairless | 毛がない | insects | 虫を食べる |
toughskin | 頑丈な | forager | 食物を探し回り収集する |
big | 大きな | grazer | 草食動物 |
small | 小さな | hunter | 狩猟者(肉食動物?) |
bulbous | 太っていて丸い感じ | scavenger | 腐肉食(死骸などを食べる) |
lean | 痩せた | skimmer | (水面上を)すくい取る |
flippers | ヒレがある | stalker | 追いかけてくる |
hands | 手がある | newworld | 南北アメリカおよびオーストラリアに生息(おそらく南北アメリカがメイン) |
hooves | 蹄(ひづめ)がある | oldworld | アジア、ヨーロッパ、アフリカなどに生息(おそらくアフリカがメイン) |
pads | 足裏が柔らかい(パッドがある) | arctic | 北極圏に生息 |
paws | 肉球がある | coastal | 沿岸・海岸地帯に生息 |
longleg | 足が長い | desert | 砂漠地帯に生息 |
longneck | 首が長い | bush | 低木・灌木が生えている地帯に生息 |
tail | 尻尾がある | plains | 平原・平原地帯に生息 |
chewteeth | 噛むのに適した臼歯を持っている | forest | 森林地帯に生息 |
meatteeth | 肉を食べるのに適した歯を持っている(犬歯?) | fields | 野原・畑地帯に生息 |
buckteeth | 出っ歯がある | jungle | ジャングルに生息 |
strainteeth | (自信ないが)繊維状の歯がある | mountains | 山に生息 |
horns | 角がある | ocean | 海で生活 |
claws | 爪がある | ground | 地面で生活 |
tusks | 牙がある | water | 水中で生活 |
smelly | 匂いがする(臭い) | tree | 木で生活 |
flys | 飛ぶ(移動手段) | cave | 洞窟で生活 |
hops | 跳ねる(移動手段) | fierce | 獰猛な |
swims | 泳ぐ(移動手段) | timid | 臆病な |
tunnels | 穴を掘る(移動手段) | smart | かしこい |
walks | 歩く(移動手段) | group | 群れる |
fast | 速い | solitary | 孤独な |
slow | 遅い | nestspot | 巣作りをする(縄張りがあるとか?) |
strong | 強い | domestic | 家庭で飼われる |
weak | 弱い |
PCAで次元削減を試してみる (2次元)
Before: X.shape (50, 85) After: X_pca.shape (50, 2)
grizzly+bear polar+bear black 39.25 10.00 white 1.39 95.62 swims 2.50 39.17 oldworld 3.95 31.25 arctic 6.65 96.88 coastal 2.78 48.96 mountains 43.85 1.25
PCAで次元削減を試してみる (3次元)
Before: X.shape (50, 85)
After: X_pca3d.shape (50, 3)
グリズリーベアとホッキョクグマは3Dで見ても同じような距離感ですね 笑
※ 一部抜粋です。
Cluster 0 1 2 3 4 5 6 7
black 40.290 38.558333 25.378571 36.929091 4.77 25.396667 29.740000 48.355000
big 20.266 71.183333 54.491429 37.867273 79.48 34.540000 73.723333 13.088333
swims 3.125 78.558333 0.532857 3.027273 40.37 66.076667 0.701667 1.620000
hunter 11.383 24.618333 4.511429 60.828182 3.75 30.996667 2.035000 1.840000
クラスタごとの平均値を確認すると特色が浮き彫り出てきます。通常ここでクラスタごとに名前をつける作業が発生します (ネーミングのセンスが問われます 笑)
※ 閾値の値を設定するのが大変でしたが、、
fcluster(cluster_link,t=200, criterion='distance')
array([21, 5, 16, 14, 4, 3, 21, 3, 15, 3, 9, 10, 2, 18, 2, 19, 12,
15, 18, 12, 20, 1, 20, 16, 12, 10, 11, 18, 10, 13, 22, 1, 3, 8,
1, 14, 19, 23, 7, 21, 2, 20, 2, 10, 6, 3, 17, 8, 20, 16],