Dadansoddi 283 iaith Wicipedia (yn ara deg) – rhan 2

Gorffennais ddadansoddiad o bob un iaith sydd ar gael ar Wicipedia sbel yn ôl, sef cyfanswm o 283 iaith. Darllenwch y cofnod blog diwethaf am ragor o fanylion.

Dw i wedi bod yn hynod frysur yn ddiweddar ac heb gael siawns i dacluso neu ddehongli’r data yn iawn.

Felly gad i mi wybod yn y sylwadau os ydych chi eisiau cael cipolwg ar y canlyniadau.

Y cyd-destun hollbwysig

Dadansoddi 283 iaith Wicipedia (yn ara deg)

Mae cymunedau ieithyddol yn cynnal sawl Wicipedia ac mae pob un yn wahanol. Mae rhywfaint o gyfieithu ac addasu ac mae rhywfaint o erthyglau sy’n unigryw i’r fersiwn Cymraeg, y fersiwn Catalaneg, y fersiwn Arabeg, ac ati.

Dechreuais i’r cyfrif Twitter awtomatig UnigrywUnigryw i rannu’r erthyglau sydd ond ar y Wicipedia Cymraeg.

Pa ganran o erthyglau unigryw sydd ar y Wicipedia Cymraeg?

Beth am BOB iaith Wicipedia?

Fel mae’n digwydd mae hi’n eithaf rhwydd addasu’r sgript feddalwedd PHP wreiddiol i edrych at ieithoedd gwahanol. Dw i wedi ymestyn y sgript tu ôl i @UnigrywUnigryw er mwyn dadansoddi POB iaith ar Wicipedia yn awtomatig.

Mae cyfanswm o 283 iaith o dan fy ystyriaeth. Mae rhai o ieithoedd yna sydd ddim yn gyfarwydd i mi o gwbl tan nawr, e.e. Wicipedia yn yr iaith অসমীয়া.

Allbwn y broses fydd fath o dabl o ieithoedd gwahanol. Ble mae’r Gymraeg ar y siart?! Ydy’r drefn ar y siart yn adlewyrchu’r nifer o erthyglau yn yr ieithoedd? Neu fuddsoddiad yn yr ieithoedd?

Beth am ieithoedd sy’n gysylltiedig drwy nifer helaeth o siaradwyr amlieithog, megis Sbaeneg-Catalaneg, Sbaeneg-Basgeg, Saesneg-Cymraeg, Wrdw-Arabeg, Iseldireg-Almaeneg, ayyb.?

Dw i’n gallu ceisio ymateb i’r cwestiynau uchod cyn hir…

Yr unig broblem gyda’r sgript feddalwedd dw i wedi ysgrifennu yw’r amser mae’n cymryd.

Mae fy sgript yn wneud ceisiadau i API Wicipedia, sydd yn cynnig pecyn o 20 erthygl ar hap i’w dadansoddi ar y tro. Mae angen cael lot fawr o becynnau er mwyn cael data dibynadwy.

Gwnes i ddechrau tua 12:40yp heddiw cyn mynd am dro i dre am ginio a dw i newydd gyfrif faint o ieithoedd mae’r peth wedi dadansoddi ers hynny. Bydd hi’n mynd trwy ieithoedd yn gyflymach yn y pen draw achos fydd ddim angen gymaint o sampl ar gyfer yr ieithoedd bychain bychain.

Ta waeth, ar y gyfradd yma bydd hi’n cymryd rhyw bedwar diwrnod i orffen!

Mae’n rhedeg ar weinydd pell dw i’n talu £5 y mis amdano fe, y math o letya mae rhywun yn rhoi gwefan fach arno fe. Mae’r un weinydd yn rhedeg UnigrywUnigryw felly mae hi’n ddefnydd da o arian.

Efallai dylwn i edrych at redeg algorithm cyfochrog ar rywbeth swish fel AWS.

Fel arall, oes ’na unrhyw un sydd am fenthyg amser ar uwchgyfrifiadur anferth i mi pls? 🙂

Delweddau: map y byd / Kraftwerk

DIWEDDARIAD 19 Gorffennaf 2016: Mae dwy iaith uwchben y Saesneg ar y siart o ieithoedd ‘mwyaf unigryw’ ar Wicipedia – hyd yn hyn! Mae’r system wrthi’n dadansoddi Hindi.

Amserlennu trydariadau o flaen llaw – fy ffordd i

Dw i wedi creu system fy hun sy’n trydar yr hyn sydd ar daenlen fesul diwrnod.

Enw y cyfrif Twitter yw @fideobobdydd, ffordd o ddosbarthu fideos o safon yn Gymraeg er mwyn denu mwy o sylw.

Ar hyn o bryd mae e dim ond yn trydar unwaith bob dydd am 9:05yh. Prawf cysyniadol yw’r prosiect bach hwn ac byddai modd ehangu ac addasu fe.

Pam greu system? Dw i wedi ceisio defnyddio Hootsuite, Buffer a systemau tebyg ond maen nhw ar y cyfan yn rhy letchwith i mi. Ar y daenlen mae modd gweld hanner fis a symud pethau o gwmpas yn gyflym. Mae cyd-weithio gyda phobl eraill yn hawdd achos mae’r daenlen ar Google Drive.

Dw i ddim yn meddwl bod Hootsuite yn colli cwsg dros y peth ond dw i’n mwynhau defnyddio’r system yma.

Byddai modd ychwanegu ffynonellau eraill achos mae ffeindio fideo ar gyfer bob dydd yn dipyn o dasg. Os oes gwagle ar y dyddiad fydd ddim trydariad, ar hyn o bryd. Gallwn i greu rhestr hirfaeth o fideos i’w postio ar hap yn ogystal â’r rhai sydd ar yr amserlen, neu dynnu fideos o rhestr o hoffterau cyfrif YouTube, rhestr chwarae ac ati. Wrth gwrs mae platfformau eraill megis Facebook yn bosibl hefyd.

Dyma rai o’r manylion technegol. Mae’n defnyddio rhai o’r un dulliau ag UnigrywUnigryw, megis sgript PHP sy’n siarad ag API Twitter. Y gwahaniaeth pwysig yw’r ffynhonnell o ddata. Mae’r sgript yn cael gafael ar y ddata mewn fformat CSV.

Diolch i Nwdls am y (cy)syniad gwreiddiol o Fideo Bob Dydd.

Ychwanegu ‘rhestr ddu’ i gyfrif @UnigrywUnigryw

Dw i wedi bod yn joio canlyniadau fy mhrosiect arbrofol @UnigrywUnigryw, cyfrif Twitter sy’n postio erthyglau sydd ond ar gael ar y fersiwn Cymraeg o Wicipedia.

Dyma rai o’r trydariadau diddorol hyd yn hyn: Hywel Hughes Bogotá, Toni CarollEilian, Edrych am Jiwlia, Gwawdodyn byr.

Mae’r detholiad yn hollol randym (‘ffug-hap’ yw’r term) – heb unrhyw dueddiadau. Hyd yn hyn…

Yn fy marn i mae ’na ychydig bach gormod o gyfeiriadau at lyfrau Saesneg.

Felly o’n i’n meddwl y byddai hi’n hwyl a diddorol i hidlo’r canlyniadau gyda ‘rhestr ddu’:

  • Categori:Llyfrau hanes yn y Saesneg
  • Categori:Nofelau Saesneg
  • Categori:Teithlyfrau Saesneg
  • Categori:Atgofion a hunangofiannau Saesneg
  • Categori:Llyfrau hanes yn y Saesneg
  • Categori:Hanes Crefydd yn Saesneg
  • Categori:Bywgraffiadau Saesneg
  • Categori:Llyfrau Saesneg ar hamdden
  • Categori:Nofelau Saesneg i bobl ifanc
  • Categori:Barddoniaeth Gymreig yn yr iaith Saesneg
  • Categori:Llenyddiaeth plant Saesneg
  • Categori:Bywgraffiadau Saesneg
  • Categori:Llyfrau Saesneg

O hyn ymlaen mae’r ap fach sy’n rhedeg yn y cefndir yn osgoi unrhyw erthyglau yn y categoriau uchod yn llwyr.

Mae hi’n digon hawdd ffeindio tudalennau o dan y categoriau yma os ydych chi’n chwilio Wicipedia am enwau’r categoriau. Does dim byd wedi digwydd i’r categoriau na’r tudalennau ar Wicipedia ei hun, a dw i’n falch bod nhw yn bodoli (diolch i Wicibrosiect Llyfrau Gwales).

Ond dw i wedi penderfynu fy mod i eisiau rhoi mwy o bwyslais ar bethau eraill drwy’r cyfrif ar hyn o bryd.

Mae cwmnïau meddalwedd fel Google a Facebook yn gwneud y math yma o newidiad bob dydd yn ôl eu mympwy. I ba raddau? Does neb tu fas i’r cwmnïau yn hollol sicr. Fyddai’r cwmnïau ddim mor agored â fi yn hynny o beth.

Er ei bod hi’n fach iawn dyma achos prin, dw i’n credu, o algorithm hollol awtomatig ar unrhyw gyfrwng cymdeithasol ar y we sy’n ffafrio pethau yn Gymraeg ar draul pethau Saesneg (neu iaith arall)! Hynny yw, mae’r cod yn osgoi pethau Saesneg o dan gategoriau penodol ‘yn fwriadol’. Byddwn i’n croesawu enghreifftiau eraill o hyn yn y sylwadau.

 

API Hedyn – eisiau syniadau

Dyma dudalen cychwynnol am API Hedyn, ffordd o gael data mas o wefan wici Hedyn drwy god.

Creu prosiect(au) sy’n seiliedig ar Y Rhestr o flogiau Cymraeg yw fy mwriad ers sbel.

Cofiwch fod ’na rhestr o ganoedd o flogiau sy’n cynnwys cyfanswm o filoedd o flogiadau am bron bob pwnc dan yr haul ers Ebrill 2001.

Gallai’r apiau neu brosiectau fod yn gemau, teclynnau dysgu, pethau i ddadansoddi iaith a geiriau, pethau hwyl, pethau sili, ac ati. Peiriant chwilio?

Fyddai hi ddim yn cymryd llawer o amser i dynnu cynnwys i mewn o’r blogiau. Beth am bethau sy’n sbarduno ymweliadau, darlleniadau a rhagor o gynnwys o safon?

Efallai dylwn i ail-greu system y Blogiadur sy’n tynnu ffrydiau o’r blogiau. Dyna un syniad. Ar hyn o bryd mae’r gronfa o flogiau y mae Blogiadur yn crafu yn rywbeth ar wahân am resymau hanesyddol.

Dw i wedi chwarae gyda sawl API yn ystod yr wythnosau diwethaf: Twitter, Amazon, Bitly, eBay, Wicipedia. Mae hi’n hen bryd chwarae gydag API Hedyn.

Byddwn i’n croesawu syniadau fel arfer.

O ran yr API a phrosiectau Y Rhestr yw’r brif adnodd sy’n werth ystyried ar Hedyn a dweud y gwir (ond mae ambell i ganllaw i ddechreuwyr blogio ayyb hefyd ac mae’r rhai fideo yn lawer o hwyl).

Gyda llaw, un API arall byddaf i’n llygadu fydd Papurau Newydd Cymru. Un i’r haneswyr efallai, beth ydych chi eisiau gwneud neu weld?

@UnigrywUnigryw – erthyglau sydd ond ar Wicipedia Cymraeg

Fel o’n i’n dweud y tro diwethaf dw i wedi bod yn creu rhaglenni bach sy’n postio pethau i Twitter yn awtomatig.

Dyma un newydd sbon: @UnigrywUnigryw

Mae @UnigrywUnigryw yn postio dolenni i erthyglau Wicipedia sydd dim ond ar gael ar y fersiwn Cymraeg o Wicipedia. Hynny yw, mae pob un erthygl yn unigryw i’n fersiwn ni o Wicipedia.

Mae pob trydariad yn syndod i mi achos mae’r system yn postio erthyglau ar hap. Ond dw i wedi cael cipolwg ar y mathau o erthyglau sy’n debygol o ymddangos.

Hyd yn hyn mae lot fawr o bethau daearyddol, pobl hanesyddol (ac enwau cyfarwydd eraill), a llyfrau.

Pam?

Pam ddilyn? Pam dalu sylw? Dyma rhai o’r rhesymau dw i’n gallu dychmygu:

  • Ffordd o ddod o hyd i erthyglau diddorol ar hap
  • Gweld pa fath o erthyglau mae pobl yn creu
  • Nodi beth sy’n unigryw am Wicipedia Cymraeg (ac am y Gymraeg a diwylliannau cyfrwng Cymraeg o bosib?)
  • Ysgogi mwy o weithgaredd ar Wicipedia Cymraeg a sbarduno rhagor o welliannau i dudalennau, a rhagor o dudalennau newydd
  • Cynnig cyfle i bobl gysylltu tudalennau gyda fersiynau ohonyn nhw mewn ieithoedd eraill, os maen nhw yn bodoli (yn yr achos yma mae’r system yn camddeall bod erthyglau yn unigryw oherwydd diffyg cysylltau)
  • Cynnig cyfle i bobl greu cyfieithiadau ar fersiynau eraill o Wicipedia – os maen nhw yn awyddus i wneud hynny, sbo

Yn yr achos olaf os ydych chi’n creu cyfieithiadau ayyb byddech chi’n wneud Wicipedia Cymraeg yn llai unigryw mewn ffordd. Ond mae rhesymau iawn am wneud hynny weithiau! Dw i ddim yn gallu rheoli sut mae pobl yn manteisio ar y gwybodaeth.

Datblygiad

Byddai hi’n neis postio delweddau hefyd. Dydy Wicipedia ddim yn rhannu cardiau Twitter; byddai angen i mi ychwanegu cod i gipio mân-luniau ar gyfer trydariadau hefyd. Dyna un i fy rhestr o nodweddion arfaethedig.

Gallwn i greu cyfrif arall sy’n postio’r dolenni coch er mwyn annog rhagor o fewnbwn a thwf Wicipedia Cymraeg.

I’r rhai sy’n chwilfrydig mae fy ngweinydd yn rhedeg sgript php drwy cron job. Mae’r sgript yn wneud ceisiadau am JSON drwy API Wicipedia ac yn defnyddio codebird-php i drydar.

Gweler archifau’r tag UnigrywUnigryw am ragor o ddiweddariadau.

Denu mwy o wylwyr i S4C (Beth yw ‘USP’ yn Gymraeg?)

Dechreuais i wylio S4C yn y flwyddyn 2007. O’n i’n ymwybodol o’i fodolaeth cyn hynny ond doedd neb wedi sôn wrthaf i am unrhyw raglen benodol o ddiddordeb. Gallwn i wedi enwi Pobol Y Cwm wrth gwrs ond bron dim rhaglen arall.

Gofynodd ffrind os oeddwn i’n ymwybodol bod band yn chwarae ar raglen Bandit ar y pryd ac y dylwn i diwnio mewn. Felly dyna beth wnes i.

Yn y flwyddyn honno ac yn gynyddol iawn wedyn o’n i’n diolchgar iawn am gael sianel uniaith Gymraeg. Dw i’n cofio darllen is-deitlau ar y pryd hefyd – yn Gymraeg.

Byddai hi’n WYCH pe tasai mwy o bobl yng Nghymru yn dechrau mwynhau rhaglenni S4C.

Dw i’n eithaf siŵr y byddai’r rhan fwyaf o bobl sy’n cwyno am is-deitlau gorfodol yn Saesneg ar S4C yr wythnos hon dal eisiau gweld MWY o wylwyr i’r sianel.

Mae sawl ffordd o wynebu’r her. Mae’r Gymraeg yn perthyn i bawb yng Nghymru; dylai’r sianel fod yn perthyn i bawb yng Nghymru – heb dorri’r egwyddor bwysig yn y ddeddf wreiddiol o gael gofod cyfrwng Cymraeg. (Gweler hefyd: Radio Cymru, ’Steddfod, Pantycelyn, ysgolion)

Mae’r is-deitlau gorfodol YN ymyrryd ar y profiad o wylio rhaglen teledu, teimlad a ddaeth i’r amlwg pan oedd ’na is-deitlau Saesneg gorfodol ar raglen Super Furry Animals y llynedd.

Dyma gyfres o feddyliau a syniadau am yr her o denu mwy o wylwyr.

    1. Ar ba ymchwil marchnad mae’r penderfyniad o orfodi is-deitlau ar bob gwyliwr yn seiliedig? Ble mae’r ddata? Ydy’r syniad yn dod yn syth o’r hafaliadau di-sail “Cymraeg = caeëdig/mewnblyg” ac “is-deitlau gorfodol yn Saesneg = croesawgar”? Y newyddion yw, mae modd bod yn groesawgar, yn gyfeillgar ac yn Gymraeg ar yr un pryd. O safbwynt marchnata mae’r Seisnigo graddol yn tanseilio ‘USP’ y sianel, dyna’r pryder yn yr hir dymor. Mae eisiau seilio penderfyniadau o’r fath ar DDATA: ymchwil marchnad cynhwysfawr.
    2. Nid data oedd fy stori uchod ond profiad unigolyn ac mae pob profiad yn wahanol. Ond mae ’na rhywbeth yn y syniad o hyrwyddo rhaglen benodol i grŵp/cymuned yn hytrach na jyst hyrwyddo’r sianel. Un rhaglen yw’r ‘gateway drug’ i’r sianel. Yn fy achos i, Bandit oedd y rhaglen gyntaf.

  1. Enghraifft: faint o aelodau o grwpiau ymgyrchu, hanes ac ati yn ymwybodol bod ’na rhaglen hynod ddiddorol am Philip Jones Griffiths a’r rhyfel Americanaidd yn Fietnam ar Clic, iPlayer, ac ati? Mae eisiau cysylltu gyda phob un ohonyn nhw, â’r grwpiau sy’n licio ffotograffiaeth.
  2. O’n i’n bwriadu dweud YouTube yna ond does DIM BYD O GWBL yna pan dw i’n chwilio am ‘philip jones griffiths s4c’. Mae modd gweld Michael Palin yn Fietnam yn Saesneg ond dim Philip Jones Griffiths yn Gymraeg. Dim ond un enghraifft ydy hynny. Dosbarthiad yw’r peth. Ac mae eisiau cynnwys a chlipiau go iawn nid treilars plîs.
  3. Yn ôl Ian Jones,
    ‘Y prif reswm pam nad yw pobl yn gwylio S4C yw oherwydd diffyg “hyder yn eu hiaith neu am nad ydyn nhw’n gallu deall Cymraeg o gwbl”‘.
    Dw i’n credu bod camddealltwriaeth wedi bod o ran pam nad yw pobl yn tiwnio mewn neu’n glicio. Sa i’n dychmygu unrhyw un yn dweud ‘wel hoffwn i wylio Ochr 1 achos mae’r bandie yn wych ac mae Griff Lynch mor olygus, mae Newyddion 9 yn mynd i’r afael â materion cyfoes, roedd fy ffrind yn siarad am ei waith ar Heno neithiwr hefyd. Ond ti’n gwybod beth? Dw i jyst ddim yn hyderus yn Gymraeg felly wnai wylio rhyw raglen arall mewn iaith arall’. O safbwynt marchnata RHAGLENNI yw’r cyffur i’w gwerthu, nid sianel. Dwedwch wrth bobl am y RHAGLENNI penodol. Gosodwch y darged o roi tri theitl ym mhob brên yng Nghymru. A brên Ed Vaizey. Yn ogystal â Phobol y Cwm.
  4. Beth am drefnu taith o ymddangosiadau ar draws Cymru, cynnig cyfleoedd i wylio pethau sy’n berthnasol neu o ddiddordeb arbennig i’r ardal? Dw i’n sôn am bentrefi yn ogystal â llefydd fel Chapter a Galeri. Wrth gwrs mae cost i’r math yma o waith. Gall leihau’r cost trwy anfon ffeil neu ddisc draw at rywun ym mhob cymuned; datganolwch y daith. Peidiwch ag anghofio nwyddau hefyd.
  5. Mae pobl ail iaith yn hanfodol yn y sgwrs yma. Mae eisiau ystyried y categori yna fel pobl gweithredol sy’n wneud prosiectau, ymgyrchoedd ac ati. Mae eisiau deall yn well sut mae’r sianel yn gallu arfogi nhw i ledaenu’r gair ymhlith ffrindiau ac ati. Dechreuwch gyda’r ‘dysgwyr y flwyddyn’ (er nad yw i’n hoff iawn o’r categorïau ‘dysgwyr’ a ’di-Gymraeg’).
  6. Mae lle i apiau sy’n debyg i Sibrwd a’r ail sgrin yma. Mae lot fawr o bethau cwl sy’n bosib gyda’r cyfryngau cymdeithasol, symudol ac ati.
  7. Mae angen meddwl am y ‘rhwydwaith cynnes’. Mae Elan Grug yn dweud:
    “Ac S4C- be am y miloedd o siaradwyr Cymraeg sydd byth yn troi at y sianel? A digon o rheini yn aelwydydd uniaith? Pa ddathliad pum niwrnod sy’n cael ei baratoi ar eu cyfer nhw?” Dw i’n cytuno. Hefyd beth am y rhai sy’n gwylio un rhaglen yn unig? Am wn i does dim targedu ar sail diddordebau ar Clic. ‘Rydych chi wedi gwylio X, beth am wylio Y?’ Hefyd mae’r hen gerdyn hynafol statig yma yn ystod yr hysbysebion yn WASTRAFF o amser gwerthfawr tra bod treilars yn bodoli. Hefyd beth ddigwyddodd i’r cyfrif S4C Clic ar Twitter gyda dolenni i bob un rhaglen? Mae eisiau ail-ddechrau pethau fel hwnna.
  8. Mae marchnata yn costio. Dw i’n pryderu am yr is-deitlau gorfodol oherwydd beth maen nhw yn awgrymu o ran costau. Ai nhw yw’r unig ymdrech sydd yn fforddiadwy erbyn hyn? Dyna pam mae angen i’r sianel ac Awdurdod fod yn gall ac yn gryf wrth ddelio gyda’r awdurdodau a llywodraethau er mwyn sicrhau’r cyllid digonol i redeg sianel deledu go iawn yn yr hir dymor.

Problem dosbarthu cynnwys Cymraeg

Dyna sy’n wneud i mi feddwl am broblem dosbarthu cynnwys Cymraeg.

Dyma RS Thomas ar raglen Beti a’i Phobol:

https://soundcloud.com/beti-ai-phobol/beti-ai-phobol-r-s-thomas-rhan

Dim ond 74 o wrandawiadau wedi bod ers iddyn nhw lanlwytho’r hen raglen i Soundcloud ar 13 Tachwedd 2013.

Chwarae teg i’r tîm am eu rhoi nhw ar y we yn barhaol tu hwnt i gyfnod cyfyngedig iPlayer.

Ond mae nifer o wrandawyr yma yn siom i mi. Mae’r niferoedd yn debyg ar y rhaglenni Beti a’i Phobol eraill.

Efallai bod hi’n dangos pwysigrwydd hyrwyddo?

Efallai diffyg chwiliadau am y pwnc?

Diffyg disgwyliadau ar ran y cynulleidfa botensial?

Neu ddiffyg statws i’r Gymraeg ar ganlyniadau chwilio Google ac ati?

Ta waeth rwy newydd rannu’r rhaglen uchod ac wedi rhoi cwpl o ddolenni ar Wicipedia hefyd.

‘Clywed arogl’ a damcaniaeth cwantwm

[Roedd clip Vine yma o Dr Jennifer Brookes ond mae gwasanaeth Vine wedi diflannu yn anffodus.]

Mae gwyddonwyr cwantwm wedi darganfod rhywbeth mae Cymry yn gwybod ers canrifoedd.

(Mae’r darn uchod gan Dr Jennifer Brookes yn dod o’r rhaglen The Secrets of Quantum Physics: Let There Be Life gyda Dr Jim Al-Khalili. Daeth y rhaglen i ben ar iPlayer ond mae copi ar YouTube ar hyn o bryd. Gwyliwch o 21:05 ymlaen.)