AI(画像認識)は「知っている」ことは分類できるけれど、人間のように判断するのはニガテな話

韓国の伝統的な服である韓服……日本ではチマチョゴリという名称をよく使いますが、これは女性用に限定した呼び名です、チマがスカートのことなので。
iPhoneの写真アプリの自動分類機能では、この韓服が「着物」と認識されるそうです。
韓服だけでなく、チャイナドレスやベトナムアオザイなどの「アジア系伝統服」は全部まとめて「着物」と分類されており、「代表的なアジア文化で日本だけを認識している」と憤っています。


韓国日報の記事からです。

【単独】「韓服が『着物』って」..アップルの不合理な写真分類


アップルが制作した写真アプリケーション(アプリ)で、韓国の韓服を「着物」と認識しているという主張が出た。iPhoneiPadなどの写真アプリで韓服を検索すると、関連の写真が出てこないのに対し、着物と入力すると、韓服を含む写真を見ることができるというものである。

韓服の文化活動家のクォン・ミル氏は16日、韓国日報との通話で「非営利団体『韓服旅行』の活動家が『iPhoneの写真アプリで韓服を検索したところ、写真が一つもなかった』という事実を知らせてきた」と述べた。

(中略)

アップルのiPhoneなどのスマートフォンでは、人工知能(AI)ベースの画像認識ツールを使用して、被写体と概念を自動的に分類、関連する単語で目的の写真を見つけることができるよう支援する検索機能を提供している。しかし、アップルの写真アプリでは韓服を着物と認識していると思われる。

(中略)

クォン氏はまた、「アップルは韓服だけでなく、ベトナムアオザイ、中国のチャイナドレスなどアジア各国の伝統衣装をすべて着物に分類していた」とし「代表的なアジア文化で日本だけを認識している」と伝えた。

(後略)

韓国日報「[단독] "한복이 '기모노'라니".. 애플의 황당한 사진분류법(【単独】「韓服が『着物』って」..アップルの不合理な写真分類)より一部抜粋


記事はこの後、竹島問題についても言及しています。
アップルは地図アプリで竹島島根県に入れており、韓国国内からの抗議を受けて空欄にしたが、後にまた島根県所属に戻した、という事例を上げて「韓国の伝統文化と歴史に対する認識が不足している」としています。
が、この件はちょっと本題とズレるので省きます。
(ただ、なんでも政治問題に発展させたがるのにウンザリします。アップルを「親日企業」に分類したいのでしょうか?)


ここではAIによる画像認識技術は魔法ではないということに的を絞りたいと思います。

AI(機械)には人間が得意なことは苦手という特徴があります。(逆に人間が苦手な「一度に大量のことを処理する」という能力は高い)
人間が「目」で見て明らかに判断できることが判断できません。

どういうことかというと、人間が「目」で見て犬と猫を判断するのは、もともと犬と猫を「知っている」人からすると難しくありませんが、それを「言葉」だけで説明しろ、と言われたらどうだろうか?と考えてみると分かりやすいかもしれません。
犬科、猫科という概念語を使うのはダメです。

「全身が毛に覆われていて、尻尾があって、肉球があって、四足歩行の動物」

この特徴点だけで犬が猫か、果たして判断できるものでしょうか?
恐らく無理でしょう。これだけだと、タヌキやキツネの可能性だってあります。


そこで特徴点の数を増やします。
例えば、目と鼻と口の位置関係(犬と猫は明確に違う)や、立ったときの頭の位置の違いなどです。
でも、実際にはいくつの特徴点を使って人間が認識しているのか、ハッキリとは分かりません。
人間には連想能力があるからです。AIにはありません。
そこで、AIでは愚直に1pixel毎に輝度値の数値を比較していきます。


今回はアップルでしたが、似たような事例で、過去にGoogleにもトラブルがありました。それは未だ根本的には解決されていません。

2015年頃だったと思います。
アフリカ系黒人の写真をGoogleフォトに保管したところ、その写真に「ゴリラ(Gorillas)」とタグを付けるということがありました。(自動タグ付け機能は分類機能と実質的に同じ)
Googleは謝罪し、以後、Googleフォトではゴリラの写真は自動分類されなくなりました。
「ゴリラ」というカテゴリ自体が消えたわけです。


1pixel毎に輝度値を比較していくと、機械的には黒人とゴリラの肌や髪、目の色は比較的近いと判断されます。
目・鼻・口の位置関係も類人猿であるゴリラは人間にとても良く似ています(東山動物園のシャバーニはイケメン)。
これは、人の目には明らかに人間とゴリラの見分けがつくにも関わらず、AI画像認識では判別が付かないことを意味します。


と同時に、2018年には米国のローチェスター大学の研究チームが中国人・韓国人・日本人の顔を75%の精度で識別できるAI開発に成功している(人間による判別テストは38%の精度)というような事例もあります。


このように、一言で「AIによる画像認識」と言っても、パラメータをどのようにフィッティングしているかによって精度に差が出ます。
過剰に最適化しすぎる(オーバーフィッティング)と、一般化に失敗しますし、最適化が甘いと精度が落ちます。

前述の中国人・韓国人・日本人を識別するAIは、前髪・眉毛・笑顔に国ごとの特徴がある、という分析結果が出ており、恒久的に有効なAIかどうかは個人的に疑問です。特に前髪・眉毛は流行による変化が顕著ですから。


「韓服」というカテゴリはAndroid OSにはちゃんと用意されているそうです。
カテゴリ分類がある、ということは人間の「知っている」に相当する部分ですので、そもそも「韓服」のカテゴリが存在しない事がアップルの怠慢だ、と言ってしまえばそれまでなのですが…全世界、全民族の伝統文化をフォローするって、現実的に考えて不可能です。

販売実績から日本の「着物」をカテゴリ化するのは理解できます。でもアオザイもチャイナ服も「着物」と見なすということは、AIは「着物」と判断したのではなく、「非洋服」と判断したのではないかと思います。
服装に関していくつのカテゴリ分類があるのか分かりませんが、その中で「最も確率が高い」と思われるカテゴリに入れたのでしょう。
その他として「伝統服」というカテゴリがあれば良かったのかもしれませんね。


アップルがGoogleのようにカテゴリそのものを消すという対応を取らないことを願います。