Dadansoddi 283 iaith Wicipedia (yn ara deg)

Mae cymunedau ieithyddol yn cynnal sawl Wicipedia ac mae pob un yn wahanol. Mae rhywfaint o gyfieithu ac addasu ac mae rhywfaint o erthyglau sy’n unigryw i’r fersiwn Cymraeg, y fersiwn Catalaneg, y fersiwn Arabeg, ac ati.

Dechreuais i’r cyfrif Twitter awtomatig UnigrywUnigryw i rannu’r erthyglau sydd ond ar y Wicipedia Cymraeg.

Pa ganran o erthyglau unigryw sydd ar y Wicipedia Cymraeg?

Beth am BOB iaith Wicipedia?

Fel mae’n digwydd mae hi’n eithaf rhwydd addasu’r sgript feddalwedd PHP wreiddiol i edrych at ieithoedd gwahanol. Dw i wedi ymestyn y sgript tu ôl i @UnigrywUnigryw er mwyn dadansoddi POB iaith ar Wicipedia yn awtomatig.

Mae cyfanswm o 283 iaith o dan fy ystyriaeth. Mae rhai o ieithoedd yna sydd ddim yn gyfarwydd i mi o gwbl tan nawr, e.e. Wicipedia yn yr iaith অসমীয়া.

Allbwn y broses fydd fath o dabl o ieithoedd gwahanol. Ble mae’r Gymraeg ar y siart?! Ydy’r drefn ar y siart yn adlewyrchu’r nifer o erthyglau yn yr ieithoedd? Neu fuddsoddiad yn yr ieithoedd?

Beth am ieithoedd sy’n gysylltiedig drwy nifer helaeth o siaradwyr amlieithog, megis Sbaeneg-Catalaneg, Sbaeneg-Basgeg, Saesneg-Cymraeg, Wrdw-Arabeg, Iseldireg-Almaeneg, ayyb.?

Dw i’n gallu ceisio ymateb i’r cwestiynau uchod cyn hir…

Yr unig broblem gyda’r sgript feddalwedd dw i wedi ysgrifennu yw’r amser mae’n cymryd.

Mae fy sgript yn wneud ceisiadau i API Wicipedia, sydd yn cynnig pecyn o 20 erthygl ar hap i’w dadansoddi ar y tro. Mae angen cael lot fawr o becynnau er mwyn cael data dibynadwy.

Gwnes i ddechrau tua 12:40yp heddiw cyn mynd am dro i dre am ginio a dw i newydd gyfrif faint o ieithoedd mae’r peth wedi dadansoddi ers hynny. Bydd hi’n mynd trwy ieithoedd yn gyflymach yn y pen draw achos fydd ddim angen gymaint o sampl ar gyfer yr ieithoedd bychain bychain.

Ta waeth, ar y gyfradd yma bydd hi’n cymryd rhyw bedwar diwrnod i orffen!

Mae’n rhedeg ar weinydd pell dw i’n talu £5 y mis amdano fe, y math o letya mae rhywun yn rhoi gwefan fach arno fe. Mae’r un weinydd yn rhedeg UnigrywUnigryw felly mae hi’n ddefnydd da o arian.

Efallai dylwn i edrych at redeg algorithm cyfochrog ar rywbeth swish fel AWS.

Fel arall, oes ‘na unrhyw un sydd am fenthyg amser ar uwchgyfrifiadur anferth i mi pls? 🙂

Delweddau: map y byd / Kraftwerk

DIWEDDARIAD 19 Gorffennaf 2016: Mae dwy iaith uwchben y Saesneg ar y siart o ieithoedd ‘mwyaf unigryw’ ar Wicipedia – hyd yn hyn! Mae’r system wrthi’n dadansoddi Hindi.

5 Ateb i "Dadansoddi 283 iaith Wicipedia (yn ara deg)"

  1. Mae modd lawrlwytho’r tablau MySQL penodol ar gyfer pob wiki:

    https://dumps.wikimedia.org/cywiki/20160701/

    Dyma’r tablau berthnasol:

    https://www.mediawiki.org/wiki/Manual:Langlinks_table

    https://www.mediawiki.org/wiki/Manual:Page_table

    Dim angen ‘sgript’, gan fod modd gwneud popeth yn MySQL.

    Ar gyfer rhestr o bob tudalen unigryw yn y Gymraeg, rywbeth fel:

    SELECT page_title FROM pages LEFT JOIN langlinks ON (ll_from = page_id) WHERE ll_from IS NULL;

    Neu:

    SELECT page_title FROM pages WHERE page_id NOT IN (SELECT UNIQUE ll_from FROM langlinks)

Mae'r sylwadau wedi cau.