Global Sprint 2018 Mozilla Jakarta

10-11 Mei 2018

Catatan: gunakan tombol spasi untuk ke halaman berikutnya :)

Tautan Pendaftaran (Wajib Diisi)

Proyek Common Voice

Proyek Common Voice adalah inisiatif Mozilla untuk membantu mengajari mesin bagaimana manusia sebenarnya berbicara.

Tautan Proyek Common Voice Bahasa Inggris

Tujuan Mozilla adalah untuk menyediakan sumber data suara dan algoritma Pembelajaran Dalam (Deep Learning) terbuka yang dapat diakses semua orang.

Text

Cara Kerja Mesin Common Voice

STT: Speech-to-text

Kegiatan yang akan Dilakukan

Memasukan sebanyak mungkin kalimat/ dalam Bahasa Indonesia sehingga kontirbutor lain bisa membacakannya di situs Web Common Voice

untuk Global Sprint 2018

Masukan Kata/Kalimat Sendiri

Temukan Kalimat yang Sudah tersedia

di Public Domain.

Kata/kalimat yang bagaimana yang bisa dimasukan?

  • Idealnya tiap kalimat tersebut dapat dibacakan dalam 5 detik; dan tidak lebih dari 10 detik. Jadi estimasi per kalimat yaitu terdiri dari 5 hingga 10 kata.
  • 1 atau 2 kata per kalimat diperbolehkan, namun tidak untuk semua kalimat! Usahakan memasukan ragam kalimat pendek dan panjang, namun diusahakan maksimal dalam 10 detik jika dibacakan
  • Gunakan sebanyak mungkin kata yang berbeda-beda. Ini akan membantu mesin memperkaya kosakata yang ada.
  • Ada baiknya menyertakan tanda baca pada kalimat (contoh !,?) namun jangn terlalu memusingkan hal tersebut jika tidak yakin akan hal tersebut.
  • Sertakan kata benda yang wajar dan valid (nama pertama, nama jalan, tempat dll).
  • Angka boleh dimasukan, namun sertakan dalam bentuk kata/ejaan bukan dalam bentuk digit/angka (contoh: “lima-ratus-dua-puluh-tujuh” bukan “527”)

Masukan Kata/Kalimat Sendiri

  • Sumber terbaik yang dapat disertakan adalah dari podcast, naskah, naskah film dan sumber lain yang berisi percakapan sehari-hari.
  • Prosedur/tatacara, buku dan artikel pemerintah bisa menjadi sumber referensi namun demikian karena teksnya menggunakan bahasa baku, jadi ini merupakan prioritas kedua.
  • Saat ini kita belum bisa menggunakan artikel dari Wikimedia. Jadi tidak disarankan untuk menyalin dan menempelkan dari situr tersebut.
  • Dua sumber yang direkomendasikan untuk dicek adalah Common Crawl and Open Subtitles. Jika Anda menemukan koleksi serupa berbahasa Indonesia, juga bisa disertakan! Bagikan dengan kami di  our slack channel (kanal Slack) sehingga kami bisa mendistribusikan ke kontributor lain atau info ke spacejkt@mozilla.web.id
    (subjek: sumber rekomendasi untuk Common Voice 2018)

Beberapa tips dalam memilih kalimat :

Temukan Kalimat yang Sudah tersedia

di Public Domain

Common Voice: Global Sprint

Ketuk "Upload" di pojok kanan atas dan masukan kata/kalimat/percakapan sesuai penjelasan di bagian "Kata/kalimat yang bagaimana yang bisa dimasukan?"

Referensi Situs
(Bahasa Indonesia)

Kasual/sehari-hari

  • https://www.opensubtitles.org/id
  • Blog/tulisan pribadi (daring)
  • http://www.ceritaanak.org

Tautan Formal

  • http://ejurnal.bppt.go.id/
  • https://www.jurnalweb.com/cat/freebies/
  • http://jurnal.batan.go.id/
  • Artikel di situs pemerintahan (akses publik)

Terima Kasih untuk Kontribusinya :)

Bagikan ceritamu di media sosial dengan hashtag #mozsprint :)

Made with Slides.com