Rhagfarn ac annhegwch mewn algorithmau

Mae Joy Buolamwini yn ‘fardd cod’ sydd wedi ymchwilio rhagfarn ac annhegwch mewn algorithmau.

Meddalwedd sydd fod adnabod gwynebau ar gamera ond yn methu adnabod gwynebau croenddu yw’r enghraifft cyntaf yn ei araith yma.

Engrheifftiau eraill mewn lluniau: fe drwsiwyd FaceApp er mwyn cael gwared â phroblem o ‘algorithm hiliol’. Roedd angen i Google ymddiheuro am fod eu system wedi tagio dau berson groenddu fel gorilas.

Yn ôl Buolamwini, ‘y person sy’n cael creu’r system yn cael mewnosod ei barn/farn‘.

Dw i’n dychmygu y bydd y problemau yn cynyddu tra bod rhagor o systemau dysgu peirianyddol yn cael eu defnyddio, yn enwedig os mae’r systemau wedi cael ei hyfforddi gyda setiau cyfyngedig o ddata.

Mae’n debyg y byddan ni’n gweld achosion o bobl yn methu cael yswiriant, swyddi a chyfleoedd eraill oherwydd penderfyniadau gan beiriannau. Wrth gwrs fydd hi ddim wastad yn amlwg i’r person sydd yn dioddef. Er enghraifft byddai rhywun yn clywed bod e/hi heb lwyddo i ennill cyfweliad am swydd ond fydd hi ddim yn amlwg bod system wedi dehongi ei CV neu ddata bersonol mewn ffordd ragfarnllyd.

Mae Buolamwini wedi cael sawl profiad personol o ragfarn mewn algorithmau ers blynyddoedd ac wedi ysgrifennu eithaf tipyn o erthyglau am hyn. Yn ogystal mae hi’n cyfeirio at lyfr o’r enw Weapons of Math Destruction gan Cathy O’Neil.

Mae’r gwaith wedi arwain at fudiad o’r enw Algorithmic Justice League a sefydlwyd gan Buolamwini eleni er mwyn casglu rhagor o achosion ac ymgyrchu dros degwch mewn algorithmau.

Dw i wrthi’n ceisio deall yr union ddiffiniad o ‘ragfarn mewn algorithmau’.

Fe ges i gyfarfod gyda swyddogion Google yn Llundain sbêl yn ôl i drafod eu polisïau nhw o ran y Gymraeg, nid yn unig mewn rhyngwynebau ond diffygion sy’n gallu cael eu hystyried fel rhai algorithmig megis statws y Gymraeg ar ganlyniadau chwilio ac o bosib y broses o adeiladu’r mynegai.

Ydy hyn yn berthnasol i’r sgwrs am ragfarn mewn algorithmau? Mae Rhodri ap Dyfrig wedi sôn am hyn.

Yn y bôn ‘dydy cefnogi’r Gymraeg yn iawn ddim yn werth chweil yn fasnachol i ni’ oedd ymateb Google. Mae hi’n bwysig nad ydyn ni’n ildio i’r syniad bod angen i ni greu rhagor o gynnwys Cymraeg er mwyn cyrraedd radar Google a chwmnïau eraill. Er enghraifft mae creu rhagor o erthyglau Wicipedia ac ati yn Gymraeg yn beth da yn ei hun. Mae Google wedi gwneud digon o arian yng Nghymru eisoes ac wedi mwynhau ffafr llywodraeth San Steffan ac awdurdodau eraill mewn sawl ffordd. Dylen ni hefyd cydnabod bod unrhyw ‘feini prawf’ o’r fath megis nifer o erthyglau Wicipedia neu beth bynnag yn hollol, hollol fympwyol.

Beth am feddalwedd yr iPhone (a systemau eraill) sy’n mynnu ‘cywiro’ eich geiriau oherwydd diffyg geiriaduron Cymraeg? Mae sôn hefyd am yr ‘exclusion overhead’, yr ymdrech mae’n rhaid i ddefnyddwyr wneud er mwyn cael meddalwedd i weithio’n iawn tra bod ’na diffygion dal yn y system.

Pa wers y mae plant yn dysgu bob tro mae bysellfwrdd neu brosesydd geiriau yn newid y gair ‘i’ ac yn mewnosod ‘I’ yn lle yn awtomatig, er enghraifft?

Beth am fformiwla ffrwd Facebook? Pa mor effeithiol ydy systemau fel hyn gyda chynnwys Cymraeg, geiriau Cymraeg, treigladau? Mae hi’n anodd dadansoddi hyn.

Efallai bod yr Echo ac Alexa yn berthnasol yma er bod cwmni Amazon wedi dweud yn blwmp ac yn blaen bod y peiriant ond yn deall dwy iaith, Almaeneg a Saesneg!

Fyddwn i ddim yn synnu pa tasai pobl yn canfod sawl achos o ragfarn ieithyddol mewn algorithmau o fewn sawl gwasanaeth, ‘rhagfarn’ sy’n gweithio yn erbyn ieithoedd lleiafrifedig o gwmpas y byd.

Gadewch wybod yn y sylwadau os ydych chi’n ymwybodol o unrhyw rai.

Dadansoddi 283 iaith Wicipedia (yn ara deg) – rhan 2

Gorffennais ddadansoddiad o bob un iaith sydd ar gael ar Wicipedia sbel yn ôl, sef cyfanswm o 283 iaith. Darllenwch y cofnod blog diwethaf am ragor o fanylion.

Dw i wedi bod yn hynod frysur yn ddiweddar ac heb gael siawns i dacluso neu ddehongli’r data yn iawn.

Felly gad i mi wybod yn y sylwadau os ydych chi eisiau cael cipolwg ar y canlyniadau.

Y cyd-destun hollbwysig

Ychwanegu ‘rhestr ddu’ i gyfrif @UnigrywUnigryw

Dw i wedi bod yn joio canlyniadau fy mhrosiect arbrofol @UnigrywUnigryw, cyfrif Twitter sy’n postio erthyglau sydd ond ar gael ar y fersiwn Cymraeg o Wicipedia.

Dyma rai o’r trydariadau diddorol hyd yn hyn: Hywel Hughes Bogotá, Toni CarollEilian, Edrych am Jiwlia, Gwawdodyn byr.

Mae’r detholiad yn hollol randym (‘ffug-hap’ yw’r term) – heb unrhyw dueddiadau. Hyd yn hyn…

Yn fy marn i mae ’na ychydig bach gormod o gyfeiriadau at lyfrau Saesneg.

Felly o’n i’n meddwl y byddai hi’n hwyl a diddorol i hidlo’r canlyniadau gyda ‘rhestr ddu’:

  • Categori:Llyfrau hanes yn y Saesneg
  • Categori:Nofelau Saesneg
  • Categori:Teithlyfrau Saesneg
  • Categori:Atgofion a hunangofiannau Saesneg
  • Categori:Llyfrau hanes yn y Saesneg
  • Categori:Hanes Crefydd yn Saesneg
  • Categori:Bywgraffiadau Saesneg
  • Categori:Llyfrau Saesneg ar hamdden
  • Categori:Nofelau Saesneg i bobl ifanc
  • Categori:Barddoniaeth Gymreig yn yr iaith Saesneg
  • Categori:Llenyddiaeth plant Saesneg
  • Categori:Bywgraffiadau Saesneg
  • Categori:Llyfrau Saesneg

O hyn ymlaen mae’r ap fach sy’n rhedeg yn y cefndir yn osgoi unrhyw erthyglau yn y categoriau uchod yn llwyr.

Mae hi’n digon hawdd ffeindio tudalennau o dan y categoriau yma os ydych chi’n chwilio Wicipedia am enwau’r categoriau. Does dim byd wedi digwydd i’r categoriau na’r tudalennau ar Wicipedia ei hun, a dw i’n falch bod nhw yn bodoli (diolch i Wicibrosiect Llyfrau Gwales).

Ond dw i wedi penderfynu fy mod i eisiau rhoi mwy o bwyslais ar bethau eraill drwy’r cyfrif ar hyn o bryd.

Mae cwmnïau meddalwedd fel Google a Facebook yn gwneud y math yma o newidiad bob dydd yn ôl eu mympwy. I ba raddau? Does neb tu fas i’r cwmnïau yn hollol sicr. Fyddai’r cwmnïau ddim mor agored â fi yn hynny o beth.

Er ei bod hi’n fach iawn dyma achos prin, dw i’n credu, o algorithm hollol awtomatig ar unrhyw gyfrwng cymdeithasol ar y we sy’n ffafrio pethau yn Gymraeg ar draul pethau Saesneg (neu iaith arall)! Hynny yw, mae’r cod yn osgoi pethau Saesneg o dan gategoriau penodol ‘yn fwriadol’. Byddwn i’n croesawu enghreifftiau eraill o hyn yn y sylwadau.

 

API Hedyn – eisiau syniadau

Dyma dudalen cychwynnol am API Hedyn, ffordd o gael data mas o wefan wici Hedyn drwy god.

Creu prosiect(au) sy’n seiliedig ar Y Rhestr o flogiau Cymraeg yw fy mwriad ers sbel.

Cofiwch fod ’na rhestr o ganoedd o flogiau sy’n cynnwys cyfanswm o filoedd o flogiadau am bron bob pwnc dan yr haul ers Ebrill 2001.

Gallai’r apiau neu brosiectau fod yn gemau, teclynnau dysgu, pethau i ddadansoddi iaith a geiriau, pethau hwyl, pethau sili, ac ati. Peiriant chwilio?

Fyddai hi ddim yn cymryd llawer o amser i dynnu cynnwys i mewn o’r blogiau. Beth am bethau sy’n sbarduno ymweliadau, darlleniadau a rhagor o gynnwys o safon?

Efallai dylwn i ail-greu system y Blogiadur sy’n tynnu ffrydiau o’r blogiau. Dyna un syniad. Ar hyn o bryd mae’r gronfa o flogiau y mae Blogiadur yn crafu yn rywbeth ar wahân am resymau hanesyddol.

Dw i wedi chwarae gyda sawl API yn ystod yr wythnosau diwethaf: Twitter, Amazon, Bitly, eBay, Wicipedia. Mae hi’n hen bryd chwarae gydag API Hedyn.

Byddwn i’n croesawu syniadau fel arfer.

O ran yr API a phrosiectau Y Rhestr yw’r brif adnodd sy’n werth ystyried ar Hedyn a dweud y gwir (ond mae ambell i ganllaw i ddechreuwyr blogio ayyb hefyd ac mae’r rhai fideo yn lawer o hwyl).

Gyda llaw, un API arall byddaf i’n llygadu fydd Papurau Newydd Cymru. Un i’r haneswyr efallai, beth ydych chi eisiau gwneud neu weld?

Profiad cyntaf o bostio ar BuzzFeed

Dw i’n chwilfrydig am BuzzFeed ac wedi postio cofnod am eiriau Cymraeg heno. Dylai pobl fel BBC Radio Wales creu pethau fel hyn yn lle annog gwrandawyr i ymosod ar yr iaith!

Ar hyn o bryd nad yw’r dolenni allanol (rysáit y cawl ayyb) na’r fideo YouTube (Rhys Iorwerth ar y bidet, fel petai) yn gweithio felly dw i wedi gofyn i BuzzFeed am help. Gweler diweddariad isod.

Wedyn byddai fe’n hwyl i fynd yn ‘feiral’ gyda rhywbeth Cymreig – o leiaf unwaith. Pam ddim? Wedyn dw i moyn creu ambell i listicle arall (list + article). Eisoes mae Lois Gwenllian wedi creu listicle ar y 90au ac mae Nwdls yn cynnig ‘rhestryn’, ‘rhestripŵs’ i ddechrau’r sgwrs derminoleg hanfodol yma.

T.H. Parry-Williams

Gyda llaw yn y broses o bostio i BuzzFeed creuais i fy GIF wedi’i animeiddio cyntaf. Dw i’n credu bod defnydd o GIMP yn haws na beth gwnes i. Dw i’n bwriadu sgwennu canllaw ar Hedyn ar sut i greu ffeiliau GIF cyn hir i’r rhai sydd eisiau gwneud pethau fel T.H.P.W. uchod.

Y tro yma yn hytrach na GIMP gwnes i gyfres o orchmynion ImageMagick ar Lubuntu (hynny yw, Linux). Roedd y broses bach yn hirwyntog: ar ôl i mi gipio rhaglen oddi ar S4C Clic, gwnes i dynnu fframiau unigol fel llwyth o ffeiliau JPG ac wedyn tynnu nhw at eu gilydd i greu’r GIF.

DIWEDDARIAD 1/04/2013: Mae BuzzFeed wedi ymateb:

Rachel Brandt (BuzzFeed)
Apr 01 12:15 PM

Hi,

When new users make posts, embeds and links don’t work until their account has been “approved.” This is to prevent spammers from publishing posts that are links to their spammy web sites or videos, but it has the unfortunate consequence of affecting good users who are trying to use links or videos for good reasons.

Normally, we like new users to be a part of the BuzzFeed community prior to creating posts with links, so that is why you were running into issues. However, as an exception, I just went in and moderated your account for you. Since your account has now been approved, it won’t happen anymore to your posts. Please allow the cache to clear (should take about 15 minutes) and then your links should be good to go. Let me know if you need anything else.

Thanks,

Rachel

Denu darllenwyr i flog: arbrawf a 5 egwyddor

Sbel yn ôl dechreuodd llwyth (oce, tua 5) o flogiau Cymraeg newydd am fwyd a diod. Yn 2013 un o’r pynciau mwyaf poblogaidd ymhlith blogiau Cymraeg newydd oedd crefft dw i’n meddwl – gan gynnwys Boglyn ac eraill.

Sut ydyn ni’n sicrhau hir oes i ymdrechion fel hyn, ar draws y pynciau gwahanol?

Yn union wythnos yn ôl gwnes i arbrawf. Postiais i neges ecsgliwsif i’r bobl sydd wedi tanysgrifio i fy mlog personol yma. Dyw’r cynnwys ddim yn ymddangos ar hafan y wefan ond mae modd mynd i’r cofnod a sylwadau yma. Gofynnais i am sylwadau oddi wrth y tanysgrifwyr RSS.

Ces i sylwadau gan cyfanswm bach iawn o 10 o bobl. Mae’n ddiddorol i weld pwy sy’n darllen yn gyson. Roedd un neu ddau wedi ffeindio’r cofnodion ar Blogiadur a ffrydiau awtomatig eraill.

Yn hytrach na ’10 o bobl’, gallwn i wedi dweud ’10 o ddynion’ mewn gwirionedd. Byddai mwy o sylwadau gan menywod wedi bod yn braf, er mwyn cyrraedd fy nhargedau cydraddoldeb.

rs-thomas-nebSdim llawer o syndod yn y canlyniad yma. Dw i’n methu siarad ar ran pobl eraill ond mae lot o resymau pam dw i’n blogio (dysgu, cofnodi, sgwrsio) sydd ddim yn cynnwys unrhyw ymdrech i gystadlu gyda’r cyfryngau prif ffrwd neu i fod yn seleb. Gellid meddwl am lwyth o bynciau mwy addas tasai hynny yn wir!

Ond nawr dw i’n meddwl (eto) am y ffyrdd gorau i hybu prosiectau Cymraeg annibynnol ar y we.

Yn y cyfamser…

1. Gwnaf aildrydariad pob dydd er mwyn annog eich hoff gwefannau/fideos Cymraeg ac ati. Aildrydarwch Bob Erthygl Gymraeg O Ansawdd. (Neu efallai… Byddwch Fel Hedd Gwynfor Gyda’r Pynciau Ti’n Licio… Hmm. Dal i weithio ar y sloganau yma a dweud y gwir.)

2. Gadewch Sylwadau Ar Eich Hoff Stwff PLIS! (Pam dydy pobl ddim yn gadael sylwadau ar gofnodion, fideos ayyb? Arfer neu bryder am iaith ysgrifenedig…?)

3. Os wyt ti eisiau tanysgrifio i dy hoff blogiau dylet ti ystyried Feedly neu CommaFeed. Paid ag ofni’r term RSS, mae’n golygu bod y pethau mwyaf diddorol ar gael i ti. Does dim angen derbyn llwyth o e-byst chwaith. Tanysgrifiwch I Bethau.

4. I’r rhai sydd yn rhoi erthyglau, fideos ayyb ar y we, does dim ffasiwn beth â ‘theyrngarwch’ i flog/gyfrif penodol. Mae eisiau hyrwyddo pob cofnod ar rhwydweithiau cymdeithasol. Gwthiwch Stwff Da A Phaid  Bod Yn Swil.

5… (Byddwn i’n croesawu mwy o syniadau.)

O ran 4, hoffwn i feddwl bod modd gosod system sydd yn rhyddhau pobl i flogio heb boeni am gyhoeddusrwydd… Er fy mod i’n rheoli Blogiadur bellach, dw i ddim 100% yn hapus gydag e.

Helo bobl arbennig ar RSS!

(Diweddariad: mae’r arbrawf ar ben felly dw i wedi troi’r cofnod isod ymlaen yn y ffordd arferol.)

rs-thomas-nebWyddoch chi be’? Mae’r cofnod yma dim ond ar gael i bobl sy’n dilyn fy ffrwd RSS. Dw i ddim yn meddwl bod lot o bobl yn dilyn trwy RSS, yn enwedig ers machlud haul Google Reader.

Gawn ni wneud prawf bach? Allech chi adael sylw ar y cofnod i ddweud ‘helo’ (neu ba bynnag neges chi eisiau) plis? Diolch o galon.

Sut i sicrhau bod arloesi agored yn wneud lles i’r byd

Dw i wedi bod yn meddwl lot am anfanteision arloesi agored a sut mae cwmniau/’actorion’ yn gallu defnyddio cynnyrch arloesi agored i wneud drwg. Er enghraifft mae Plaid Genedlaethol Prydain yn defnyddio cod agored WordPress fel sail gwefan nhw. Hefyd rydym ni newydd clywed am Prism, sef system sydd yn chwilio llwyth o ddata ar blatfformau Facebook, Google ayyb ar ran yr NSA a GCHQ i fonitro a sbio ar ddinasyddion. Mae’n debyg bod system o’i fath wedi cael ei adeiladu gyda Hadoop a Linux neu blatfformau tebyg o dan trwyddedau agored.

Es i i un o fy hoff ddigwyddiadau technoleg mis diwethaf, sef OpenTech yn Llundain.

Mae’r enghreifftiau uchod yn tanlinellu pam mae’r araith yma gan Bill Thompson yma o OpenTech eleni mor amserol a phwysig.

Os ydyn ni’n yn byw ‘yn y dyfodol’ pam mae’r economi a gwleidyddiaeth yn teimlo fel eu bod nhw o’r gorffennol? Ydyn ni’n adeiladu cymdeithas caeëdig ar ddata agored? Darllena’r testun.

Gyda llaw mae crynodeb o uchafbwyntiau OpenTech 2013 hefyd.

Mudiadau cymdeithasol a’r rhyngrwyd

Mae Evgeny Morozov wastad yn brofoclyd:

There are two ways to be wrong about the Internet. One is to embrace cyber-utopianism and treat the Internet as inherently democratizing. Just leave it alone, the argument goes, and the Internet will destroy dictatorships, undermine religious fundamentalism, and make up for failures of institutions.

Another, more insidious way is to succumb to Internet-centrism. Internet-centrists happily concede that digital tools do not always work as intended and are often used by enemies of democracy. What the Internet does is only of secondary importance to them; they are most interested in what the Internet means. Its hidden meanings have already been deciphered: decentralization beats centralization, networks are superior to hierarchies, crowds outperform experts. To fully absorb the lessons of the Internet, urge the Internet-centrists, we need to reshape our political and social institutions in its image. […]

Darllena’r erthygl llawn – adolygiad Morozov o’r llyfr Future Perfect gan Steven Johnson.