テービーテックのデータサイエンス

未経験リケジョがゼロからデータサイエンティストを目指す姿を記す奮闘記です。2019/12/05文系出身者が共同で更新を開始

TAG index

▲次のG検定は11月7日(土)!!part5

こんにちは!
テービーテックの村松です!

遂にG検定は今週の土曜日ですね!
本日は前回のpart4と関連付けて引き続き「著作権」についてもうひとつお話を。

今回は学習に使用するデータに関するお話です。
画像や動画、音楽、文章など機械学習の学習には著作権で守られているものを使用する場合があります。
G検定で出やすい話題ということもありますが、今後業務などで運用する場合も知っておくべきお話となると思います。

著作権改正の流れ

まず、以下のような流れでAI開発が行われることを念頭においてください。

  1. データの収集→(生データの集合)
  2. データの前処理→(学習用データセット)
  3. 機械学習・ディープラーニング→(学習済みモデル)

※()内は出来上がるもの

この1,2,3の作業はそれぞれ著作権的にいけないこと(複製・翻案)をしています。

1. データの収集→(生データの集合) 
 :複製(コピーやダウンロードのこと)
2. データの前処理→(学習用データセット) 
 :翻案(複製したデータの整形)※翻案=大筋をそのままにちょこっと変えること(意訳)
3. 機械学習・ディープラーニング→(学習済みモデル)
 :複製&翻案(学習中にデータの形が変わったりコピーされるあれこれ)

以降、この著作権侵害とされていたこれらの行為が2回にわたり緩和されました。
それが、
旧著作権法47条の7
著作権法30条の4です。

○○条△の数字まで試験のために暗記する必要はないと思いますが、それぞれが登場したことで何がOKになったかはしっかり覚えておきたいところです。

旧著作権法47条の7

第四十七条の七  著作物は、電子計算機による情報解析(多数の著作物その他の大量の情報から、当該情報を構成する言語、音、影像その他の要素に係る情報を抽出し、比較、分類その他の統計的な解析を行うことをいう。以下この条において同じ。)を行うことを目的とする場合には、必要と認められる限度において、記録媒体への記録又は翻案(これにより創作した二次的著作物の記録を含む。)を行うことができる。ただし、情報解析を行う者の用に供するために作成されたデータベースの著作物については、この限りでない。

要約すると「情報解析」を行うことを目的とする場合は複製と翻案がOKとなるようです。
参照:著作物が自由に使える場合 | 文化庁

機械学習・ディープラーニングはこの「情報解析」に分類されると考えられるため、この旧著作権法47条の7が適用されるようになりました。

そして、もうひとつ大きな特徴が、
「非営利目的の利用」に限定されないということです。
営利目的もOKというのはとても大きいですね。

ただし、旧著作権法47条の7は上記の1,2,3の作業の中でのみに限定されました。
例えば、2で出来上がった前処理済みのデータセットを第3者に販売・提供することはできません。
これを適法としたのが著作権法30条の4です。

著作権法30条の4

著作物は、次に掲げる場合その他の当該著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない場合には、その必要と認められる限度において、いずれの方法によるかを問わず、利用することができる。ただし、当該著作物の種類及び用途並びに当該利用の態様に照らし著作権者の利益を不当に害することとなる場合は、この限りでない。
一(略)
二 情報解析(多数の著作物その他の大量の情報から、当該情報を構成する言語、音、影像その他の要素に係る情報を抽出し、比較、分類その他の解析を行うことをいう。第四十七条の五第一項第二号において同じ。)の用に供する場合
三(略)

これは2019年1月1日に施行されました。
重要なのは「いずれの方法によるかを問わず、利用することができる」という点です。
旧著作権法47条の7では「記録媒体への記録又は翻案を行うことができる」でした。
これによって、
前処理済みのデータセットを第3者に販売・提供したり、
著作物を学習データに使用した学習済みモデルを販売・提供したりすることができるようになりました。



いかがでしょうか?
問題にされやすい法改正、特に2019年と最近の話なのでもしかしたら土曜日にこの問題も出たりするかもしれませんね。
それにしても条文を覚えるのはしんどいので、
旧著作権法47条の7:データ収集からモデルの作成まで適法
著作権法30条の4 :作成したデータセットやモデルを第3者へ提供まで適法

くらいで覚えておいてもらえると良いかもしれません。

学習用に使うデータを保護するのは著作権法だけではないのでむやみやたらに学習用データをかき集めるのはご法度ですが、日本は世界的にも柔軟に優遇されているそうです。
こちら↓↓で具体例をたくさん挙げた説明をしてくれています。
https://h-bank.nict.go.jp/seminars/download/20190306/taichikakimuma190306.pdf


以上、小難しい著作権のお話でした。
最後までお付き合いありがとうございます。

試験まで残り僅か!
皆さんPCの環境とかは確認しましたか?
当日に慌てないように早めに動作確認してくださいね!
マニュアルはこちら!
http://docs.jdla-exam.org/OperationManual_Examinees_JP.pdf