Mae cymunedau ieithyddol yn cynnal sawl Wicipedia ac mae pob un yn wahanol. Mae rhywfaint o gyfieithu ac addasu ac mae rhywfaint o erthyglau sy’n unigryw i’r fersiwn Cymraeg, y fersiwn Catalaneg, y fersiwn Arabeg, ac ati.
Dechreuais i’r cyfrif Twitter awtomatig UnigrywUnigryw i rannu’r erthyglau sydd ond ar y Wicipedia Cymraeg.
Pa ganran o erthyglau unigryw sydd ar y Wicipedia Cymraeg?
Beth am BOB iaith Wicipedia?
Fel mae’n digwydd mae hi’n eithaf rhwydd addasu’r sgript feddalwedd PHP wreiddiol i edrych at ieithoedd gwahanol. Dw i wedi ymestyn y sgript tu ôl i @UnigrywUnigryw er mwyn dadansoddi POB iaith ar Wicipedia yn awtomatig.
Mae cyfanswm o 283 iaith o dan fy ystyriaeth. Mae rhai o ieithoedd yna sydd ddim yn gyfarwydd i mi o gwbl tan nawr, e.e. Wicipedia yn yr iaith অসমীয়া.
Allbwn y broses fydd fath o dabl o ieithoedd gwahanol. Ble mae’r Gymraeg ar y siart?! Ydy’r drefn ar y siart yn adlewyrchu’r nifer o erthyglau yn yr ieithoedd? Neu fuddsoddiad yn yr ieithoedd?
Beth am ieithoedd sy’n gysylltiedig drwy nifer helaeth o siaradwyr amlieithog, megis Sbaeneg-Catalaneg, Sbaeneg-Basgeg, Saesneg-Cymraeg, Wrdw-Arabeg, Iseldireg-Almaeneg, ayyb.?
Dw i’n gallu ceisio ymateb i’r cwestiynau uchod cyn hir…
Yr unig broblem gyda’r sgript feddalwedd dw i wedi ysgrifennu yw’r amser mae’n cymryd.
Mae fy sgript yn wneud ceisiadau i API Wicipedia, sydd yn cynnig pecyn o 20 erthygl ar hap i’w dadansoddi ar y tro. Mae angen cael lot fawr o becynnau er mwyn cael data dibynadwy.
Gwnes i ddechrau tua 12:40yp heddiw cyn mynd am dro i dre am ginio a dw i newydd gyfrif faint o ieithoedd mae’r peth wedi dadansoddi ers hynny. Bydd hi’n mynd trwy ieithoedd yn gyflymach yn y pen draw achos fydd ddim angen gymaint o sampl ar gyfer yr ieithoedd bychain bychain.
Ta waeth, ar y gyfradd yma bydd hi’n cymryd rhyw bedwar diwrnod i orffen!
Mae’n rhedeg ar weinydd pell dw i’n talu £5 y mis amdano fe, y math o letya mae rhywun yn rhoi gwefan fach arno fe. Mae’r un weinydd yn rhedeg UnigrywUnigryw felly mae hi’n ddefnydd da o arian.
Efallai dylwn i edrych at redeg algorithm cyfochrog ar rywbeth swish fel AWS.
Fel arall, oes ’na unrhyw un sydd am fenthyg amser ar uwchgyfrifiadur anferth i mi pls? 🙂
Delweddau: map y byd / Kraftwerk
DIWEDDARIAD 19 Gorffennaf 2016: Mae dwy iaith uwchben y Saesneg ar y siart o ieithoedd ‘mwyaf unigryw’ ar Wicipedia – hyd yn hyn! Mae’r system wrthi’n dadansoddi Hindi.