Mae cymunedau ieithyddol yn cynnal sawl Wicipedia ac mae pob un yn wahanol. Mae rhywfaint o gyfieithu ac addasu ac mae rhywfaint o erthyglau sy’n unigryw i’r fersiwn Cymraeg, y fersiwn Catalaneg, y fersiwn Arabeg, ac ati.
Dechreuais i’r cyfrif Twitter awtomatig UnigrywUnigryw i rannu’r erthyglau sydd ond ar y Wicipedia Cymraeg.
Pa ganran o erthyglau unigryw sydd ar y Wicipedia Cymraeg?
Beth am BOB iaith Wicipedia?
Fel mae’n digwydd mae hi’n eithaf rhwydd addasu’r sgript feddalwedd PHP wreiddiol i edrych at ieithoedd gwahanol. Dw i wedi ymestyn y sgript tu ôl i @UnigrywUnigryw er mwyn dadansoddi POB iaith ar Wicipedia yn awtomatig.
Mae cyfanswm o 283 iaith o dan fy ystyriaeth. Mae rhai o ieithoedd yna sydd ddim yn gyfarwydd i mi o gwbl tan nawr, e.e. Wicipedia yn yr iaith অসমীয়া.
Allbwn y broses fydd fath o dabl o ieithoedd gwahanol. Ble mae’r Gymraeg ar y siart?! Ydy’r drefn ar y siart yn adlewyrchu’r nifer o erthyglau yn yr ieithoedd? Neu fuddsoddiad yn yr ieithoedd?
Beth am ieithoedd sy’n gysylltiedig drwy nifer helaeth o siaradwyr amlieithog, megis Sbaeneg-Catalaneg, Sbaeneg-Basgeg, Saesneg-Cymraeg, Wrdw-Arabeg, Iseldireg-Almaeneg, ayyb.?
Dw i’n gallu ceisio ymateb i’r cwestiynau uchod cyn hir…
Yr unig broblem gyda’r sgript feddalwedd dw i wedi ysgrifennu yw’r amser mae’n cymryd.
Mae fy sgript yn wneud ceisiadau i API Wicipedia, sydd yn cynnig pecyn o 20 erthygl ar hap i’w dadansoddi ar y tro. Mae angen cael lot fawr o becynnau er mwyn cael data dibynadwy.
Gwnes i ddechrau tua 12:40yp heddiw cyn mynd am dro i dre am ginio a dw i newydd gyfrif faint o ieithoedd mae’r peth wedi dadansoddi ers hynny. Bydd hi’n mynd trwy ieithoedd yn gyflymach yn y pen draw achos fydd ddim angen gymaint o sampl ar gyfer yr ieithoedd bychain bychain.
Ta waeth, ar y gyfradd yma bydd hi’n cymryd rhyw bedwar diwrnod i orffen!
Mae’n rhedeg ar weinydd pell dw i’n talu £5 y mis amdano fe, y math o letya mae rhywun yn rhoi gwefan fach arno fe. Mae’r un weinydd yn rhedeg UnigrywUnigryw felly mae hi’n ddefnydd da o arian.
Efallai dylwn i edrych at redeg algorithm cyfochrog ar rywbeth swish fel AWS.
Fel arall, oes ’na unrhyw un sydd am fenthyg amser ar uwchgyfrifiadur anferth i mi pls? 🙂
Delweddau: map y byd / Kraftwerk
DIWEDDARIAD 19 Gorffennaf 2016: Mae dwy iaith uwchben y Saesneg ar y siart o ieithoedd ‘mwyaf unigryw’ ar Wicipedia – hyd yn hyn! Mae’r system wrthi’n dadansoddi Hindi.
Mae modd lawrlwytho’r tablau MySQL penodol ar gyfer pob wiki:
https://dumps.wikimedia.org/cywiki/20160701/
Dyma’r tablau berthnasol:
https://www.mediawiki.org/wiki/Manual:Langlinks_table
https://www.mediawiki.org/wiki/Manual:Page_table
Dim angen ‘sgript’, gan fod modd gwneud popeth yn MySQL.
Ar gyfer rhestr o bob tudalen unigryw yn y Gymraeg, rywbeth fel:
SELECT page_title FROM pages LEFT JOIN langlinks ON (ll_from = page_id) WHERE ll_from IS NULL;
Neu:
SELECT page_title FROM pages WHERE page_id NOT IN (SELECT UNIQUE ll_from FROM langlinks)
Cymeraf gipolwg Curon – diolch o galon i ti.
Mae’r sgript wreiddiol wedi gorffen! Cyhoeddaf ganlyniadau yn fuan.
O ran y dympiau mae’r rhan fwyaf ohonynt yn anghyflawn ar hyn o bryd. Gawn ni weld pa mor fawr yw’r samplau.
https://dumps.wikimedia.org/backup-index.html
Ceisiaf gymharu canlyniadau o’r ddau ddull hefyd.
Gallaf awgrymy defnyddio AWS i wneud pethau fel hyn. Rho floedd am unrhyw gyngor.