いろいろデータセット

いろいろデータセット

以前にも書きましたが、情報社会で情報がどんどん増加しているにも関わらず、大切な正しい情報が隠れているという感じです。これは情報が多いため、正しい情報、もしくは、できる限り真実や事実に近い情報を探すために時間が掛かるという意味では、非常に自然に感じます。

少し理解ができないことが、良いのか悪いのかということは、わかりませんが、APIやオープンデータなど、データがパブリックに公開される社会的風潮の中で、あまり意味もなく、データが隠されているという不思議な状況が何となく理解できず・・・。

日本語データセットリストは、日本語の音声データセットをまとめようと思いましたが、結局いろいろなデータセットのリストになってしまいました。

すでに多くのデータセットを保有していたり、多くのデータを保有しているところのデータセットを活用している方も多いかと思いますが、今回も引き続き、ざっくりといろいろなデータセットをご紹介させて頂きます。

恐らく、すでにデータをいじられている方も多いとは思いますので、有名なものやご存知なデータセットも多いかと存じますが、ご容赦くださいませ。日本語データセットリストと重複してしまっていたり、誰しもがすでに実際にご利用されていたり、ご存知のデータセットも多いかと思いますが、ざっくりとランダムに。

ウィキペディアデータセット(Wikipedia Datasets)日本語版
Wikipediaデータベースダウンロード
ウィキメディア(WIKIMEDIA)
meta.wikimedia.org/wiki/Datasets
Wikimedia Downloads ウィキメディア財団による全プロジェクトのダンプ
dumps.wikimedia.org
Wikimedia Downloads ウィキペディア日本語版のダンプ
dumps.wikimedia.org/jawiki
dumps.wikimedia.org/jawiki/latest
ウィキテック(Wikitech)
wikitech.wikimedia.org
Wikimedia Toolforge
tools.wmflabs.org
ウィキメディア(WIKIMEDIA)GitHub
github.com/wikimedia
人文学オープンデータ共同利用センター(Center for Open Data in the Humanities / CODH)
codh.rois.ac.jp
Actions on Google GitHub
github.com/actions-on-google
Alexa GitHub
github.com/alexa
GH Archive
gharchive.org
Common Voice
voice.mozilla.org
Common Voice Datasets 日本語
voice.mozilla.org/ja/datasets
AudioSet
research.google.com/audioset
VoxCeleb
robots.ox.ac.uk/~vgg/data/voxceleb
TensorFlow Datasets
tensorflow.org/datasets
W3C
w3.org
W3C Data Catalog Vocabulary (DCAT)
w3.org/TR/vocab-dcat
W3C Semantic Web
w3.org/standards/semanticweb
W3C RDF
w3.org/RDF
W3C WebSchemas/Datasets
w3.org/wiki/WebSchemas/Datasets
IEEE DataPort
ieee-dataport.org
IEEE Xplore
ieeexplore.ieee.org
Open Speech and Language Resources
openslr.org
Schema Dataset
schema.org/Dataset
cs.cmu.edu/~cil/v-images.html
image-net.org