Rhagfarn ac annhegwch mewn algorithmau

Mae Joy Buolamwini yn ‘fardd cod’ sydd wedi ymchwilio rhagfarn ac annhegwch mewn algorithmau.

Meddalwedd sydd fod adnabod gwynebau ar gamera ond yn methu adnabod gwynebau croenddu yw’r enghraifft cyntaf yn ei araith yma.

Engrheifftiau eraill mewn lluniau: fe drwsiwyd FaceApp er mwyn cael gwared â phroblem o ‘algorithm hiliol’. Roedd angen i Google ymddiheuro am fod eu system wedi tagio dau berson groenddu fel gorilas.

Yn ôl Buolamwini, ‘y person sy’n cael creu’r system yn cael mewnosod ei barn/farn‘.

Dw i’n dychmygu y bydd y problemau yn cynyddu tra bod rhagor o systemau dysgu peirianyddol yn cael eu defnyddio, yn enwedig os mae’r systemau wedi cael ei hyfforddi gyda setiau cyfyngedig o ddata.

Mae’n debyg y byddan ni’n gweld achosion o bobl yn methu cael yswiriant, swyddi a chyfleoedd eraill oherwydd penderfyniadau gan beiriannau. Wrth gwrs fydd hi ddim wastad yn amlwg i’r person sydd yn dioddef. Er enghraifft byddai rhywun yn clywed bod e/hi heb lwyddo i ennill cyfweliad am swydd ond fydd hi ddim yn amlwg bod system wedi dehongi ei CV neu ddata bersonol mewn ffordd ragfarnllyd.

Mae Buolamwini wedi cael sawl profiad personol o ragfarn mewn algorithmau ers blynyddoedd ac wedi ysgrifennu eithaf tipyn o erthyglau am hyn. Yn ogystal mae hi’n cyfeirio at lyfr o’r enw Weapons of Math Destruction gan Cathy O’Neil.

Mae’r gwaith wedi arwain at fudiad o’r enw Algorithmic Justice League a sefydlwyd gan Buolamwini eleni er mwyn casglu rhagor o achosion ac ymgyrchu dros degwch mewn algorithmau.

Dw i wrthi’n ceisio deall yr union ddiffiniad o ‘ragfarn mewn algorithmau’.

Fe ges i gyfarfod gyda swyddogion Google yn Llundain sbêl yn ôl i drafod eu polisïau nhw o ran y Gymraeg, nid yn unig mewn rhyngwynebau ond diffygion sy’n gallu cael eu hystyried fel rhai algorithmig megis statws y Gymraeg ar ganlyniadau chwilio ac o bosib y broses o adeiladu’r mynegai.

Ydy hyn yn berthnasol i’r sgwrs am ragfarn mewn algorithmau? Mae Rhodri ap Dyfrig wedi sôn am hyn.

Yn y bôn ‘dydy cefnogi’r Gymraeg yn iawn ddim yn werth chweil yn fasnachol i ni’ oedd ymateb Google. Mae hi’n bwysig nad ydyn ni’n ildio i’r syniad bod angen i ni greu rhagor o gynnwys Cymraeg er mwyn cyrraedd radar Google a chwmnïau eraill. Er enghraifft mae creu rhagor o erthyglau Wicipedia ac ati yn Gymraeg yn beth da yn ei hun. Mae Google wedi gwneud digon o arian yng Nghymru eisoes ac wedi mwynhau ffafr llywodraeth San Steffan ac awdurdodau eraill mewn sawl ffordd. Dylen ni hefyd cydnabod bod unrhyw ‘feini prawf’ o’r fath megis nifer o erthyglau Wicipedia neu beth bynnag yn hollol, hollol fympwyol.

Beth am feddalwedd yr iPhone (a systemau eraill) sy’n mynnu ‘cywiro’ eich geiriau oherwydd diffyg geiriaduron Cymraeg? Mae sôn hefyd am yr ‘exclusion overhead’, yr ymdrech mae’n rhaid i ddefnyddwyr wneud er mwyn cael meddalwedd i weithio’n iawn tra bod ‘na diffygion dal yn y system.

Pa wers y mae plant yn dysgu bob tro mae bysellfwrdd neu brosesydd geiriau yn newid y gair ‘i’ ac yn mewnosod ‘I’ yn lle yn awtomatig, er enghraifft?

Beth am fformiwla ffrwd Facebook? Pa mor effeithiol ydy systemau fel hyn gyda chynnwys Cymraeg, geiriau Cymraeg, treigladau? Mae hi’n anodd dadansoddi hyn.

Efallai bod yr Echo ac Alexa yn berthnasol yma er bod cwmni Amazon wedi dweud yn blwmp ac yn blaen bod y peiriant ond yn deall dwy iaith, Almaeneg a Saesneg!

Fyddwn i ddim yn synnu pa tasai pobl yn canfod sawl achos o ragfarn ieithyddol mewn algorithmau o fewn sawl gwasanaeth, ‘rhagfarn’ sy’n gweithio yn erbyn ieithoedd lleiafrifedig o gwmpas y byd.

Gadewch wybod yn y sylwadau os ydych chi’n ymwybodol o unrhyw rai.

Pwy sy’n rheoli’r cyfryngau yn y 21ain ganrif?

Yn ôl y sôn mae ymgyrchwyr yn Iran yn siomi gyda newidiadau i Google Reader (ac mae Techcrunch wedi cyhoeddi stori amdano fe). Mae gwasanaethau meddalwedd ar-lein yn bwysig iawn.

Gwasanaethau ar-lein yw’n amgylchedd cyfryngau nawr. Rydyn ni’n trafod Twitter, Facebook ac ati fel yr oedden ni’n trafod y teledu. Ac dylen ni meddwl am bobol fel Mark Zuckerberg, Jeff Bezos ac Apple fel y Rupert Murdochs o’r 21ain ganrif!

Ar draws y byd mae defnyddwyr wedi bod yn defnyddio’r tag #occupygooglereader. Dw i’n gwybod bod y tag yn doniol ond mae angen rhyw fath o ‘mudiad’ poblogaidd sydd yn bwysleisio’r we agored. Mae Google Reader jyst yn enghraifft o wers gyffredinol.

Mae gwahaniaeth rhwng Google Reader (pori’r we agored trwy RSS) a Google+ (seilo). O’n i’n ffan o Google Reader, dw i ddim yn licio’r newidiadau ond dw i ddim yn synnu. Mae’n cyffroes mewn ffordd pa mor clueless mae cwmnïau mawr fel Google gallu bod. Fydd gwendidau Google yn hwb i bobol i ddatblygu gwasanaethau eraill? Gobeithio, efallai maen nhw yn gallu cynnig gwasanaeth heb cloddio’n data. (Unrhyw awgrymiadau? Nôl i feddalwedd lleol?) Dw i ddim yn ystyried deiseb i Google fel yr ateb go iawn yn y tymor hir.

Mae lot o drafodaeth ynglŷn â thechnoleg mor arwynebol, gan gynnwys cyfryngau Cymraeg. Ac rydyn ni i gyd yn rhan o’r cyfryngau.

Mae lot o enghreifftiau.

Mae un enghraifft amlwg: trafod yr iPhone/iPad fel dyfais caledwedd a chyfraniad Jobs fel cyfres o ddyfeisiau – yn hytrach na pheryg yr App Store ac iTunes fel systemau.

Gweler achos Slideshare i ddarllen mwy am manteision y we agored a HTML5. Beth sy’n well i ni yng Nghymru gyda’n prinder o adnoddau: sgwennu unwaith, rhedeg unrhyw le? Neu sgwennu tro ar ôl tro ar gyfer iPhone, Android, Windows ac ati? Gobeithio fydd systemau a fformatau agored yn ennill yn y pen draw ond mae angen hyrwyddo manteision aps ar y we heddiw.

Mae enghraifft amlwg arall ar hyn o bryd. Pam ydyn ni’n crio am ddiffyg cefnogaeth i’r iaith Gymraeg gan Amazon?!?!!!? Mae cyfle i hyrwyddo dyfeisiau sy’n gweithio gyda fformatau agored fel ePub yn hytrach na Kindle, bricsen DRM sy’n rhan o ymgais monopoli Amazon!! Mae’r dyfais Sony yn darllen ePub, er enghraifft. O ran rhyddid mae’n well na Kindle ond beth sy’n mynd ar dy rhestr Nadolig yn mater i ti. Mae’n digon hawdd i ddechrau siop ePub, pobol. (Hefyd… dylai rhywun gwneud cytundeb i fewnforio dyfais Barnes & Noble sydd hefyd yn gweithio gydag ePub.)

Mae’r gair ysgrifenedig yn bwysig. Roedd y wasg Gutenberg yn hwb i’r Diwygiad.

Pa fath o Ddiwygiad fydd yn bosib gyda’n cyfryngau nawr?

Mae Amazon yn colli arian gyda phob dyfais Kindle Fire. Dylai’r ffaith hon dweud rhywbeth wrthym ni. Mae’r dyfais yn rhan o’r plan. Diwygiad Jeff Bezos fydd siopa am gynnyrch di-angen trwy’r dydd. Ac mae’n annoying i weld cyhoeddusrwydd Cymraeg am ddim yn Golwg360 achos maen nhw yn dylanwadol ac yn dilyn termau Amazon heb cwestiynu opsiynau eraill.

Mae’r marchnad e-lyfrau yn Gymraeg yn ifanc iawn ac mae LOT o bosibiliadau. (I’r bobol sy’n meddwl bod llwyddiant rheolaeth Amazon yn yr iaith Gymraeg yn anochel… Beth yw’r ddiod feddal fwyaf poblogaidd yn Yr Alban? Yn aml iawn nid Coca Cola, y cawr byd-eang, ond Irn Bru, y ffefryn lleol, sy’n dod i rhif un yn y siart gwerthiannau. Mae cyfle nawr i ffeindio ein Irn Bru, at ein dant ni.)

Pwynt arall. O ran termau dw i’n casau ‘Gwgl’, ‘Trydar’ ayyb fel enwau. Plis paid â defnyddio cyfieithiadau Cymraeg o enwau cwmniau Americanaidd fel Facebook, Twitter, Google ac Apple. Mae rhaid atgoffa ein hunan pwy sy’n rheoli dosbarthiad o’n hiaith. Rydyn ni’n gallu cyfieithu wici, blogio, ffrwd, y we ac yn blaen achos maen nhw yn agored i dy gwmni di, dy sefydliad di, dy grwp di neu ti fel unigolyn.

Cymru (digidol) rydd!

FrancoDyma cofnod diddorol gan Rhodri ap Dyfrig: pam dyw siaradwyr Cymraeg ddim yn manteisio ar Foursquare?

Mae mwy na Foursquare yna. Mae fe hefyd yn sôn am bolisi gwrth-ieithoedd Quora. Wel, fel y dwedais ar y pryd sa’ i’n trysto unrhyw platfform gyda’r un polisi ieithyddol a Generalísimo Franco.

Ond mae mwy o heriau i’r platfformau nag ieithoedd a mwy na rhyngwyneb yn dy hoff iaith. Pam fod gyda ni polisi? Ydyn nhw wedi ystyried dy bolisi a fy mholisi?

Dw i’n dechrau colli diddordeb mewn platfformau dan gwmniau ‘trwm’ er enghraifft. Mae lot yn teimlo fel rheolaeth top-i-lawr. Os oes na gormod o reolau mympwyol, dw i’n gadael. Er bod rhai o bobol Cymraeg ddim yn mynegi’r problemau gyda’r un geiriau, maen nhw yn sensitif i’r wendidau fel y mae Rhodri yn dweud am enwau llefydd ayyb. Ac dw i’n cymryd bod y stori yn debyg yn ieithoedd eraill.

Dw i’n eitha hapus i dalu platfform gyda fy data ac hyd yn oed ‘gweithio am ddim’ iddyn nhw os dw i’n cael gwerth yn ôl. Os oes gyda ti cyfrif Facebook neu unrhyw gwasanaeth am ddim rwyt ti’n cytuno. Rwyt ti’n hapus i weld lluniau dy ffrindiau a’r clonc diweddaraf mewn cyfnewidfa, ti’n cynnig dy data.

Mae rhyddid yn bwysig i fi. Nid jyst rhyddid ieithyddol.

Rhyddid i bostio am bob math o bwnc. (Os oes gyda ti ddiddordeb yn democratiaeth ac ymgyrchu gweler y stori Facebook am ymgyrchwyr eleni.)

Mae rhyddid i adael. Wyt ti’n gallu allforio dy gynnwys Quora neu Foursquare i wasanaeth arall, dy flog neu ffeil lleol? Sa’ i’n meddwl. ‘Corporate blogging silos‘ fel y mae Dave Winer yn dweud.

Ar blatfformau fel YouTube neu Twitter mae tipyn o reoliaeth ysgafn (tu fas i broblemau hawlfraint) ond mae’n teimlo fel bod ychydig mwy o ryddid. Rydyn ni’n gallu anghofio presennoldeb y cwmni i roi ffocws ar y sgwrs/cynnwys. WordPress.com a rhai o’r wasanaethau Google yn dda o ran allforio dy stwff. Gweler Google Data Liberation Front.

TimWrth gwrs mae lot fawr o stwff yn dod dan y categori cyfryngau digidol, nid jyst Facebook, Twitter nid hyd yn oed YouTube, Flickr ac ati… Un dyfodol delfrydol: mwy o reolaeth yn y gymuned Cymraeg, sef mwy o bethau fel adolygiad.com (ar steroids), blogiau annibynnol, platfformau annibynnol, prosiectau fel Diaspora sydd ddim yn cynnig rhwydwaith gymdeithasol o gwbl ond gwe gymdeithasol. Does dim rhaid i ti fod yn codydd i elwa o ryddid.

(Llun gan Paul Clarke)

Mewn gwirionedd mae’r byd wedi colli rhai o’r egwyddorion Tim Berners-Lee.

Cyn hir bydd gwasanaeth neu mwy nag un dewis o wasanaethau Diaspora yng Nghymru. Neu rywbeth tebyg. Mae cyfathrebu dynol yn rhy bwysig i fod ar blatfform cwmni enfawr.

Nôl i’r we yn hytrach na gweoedd o gwmpas y lle.

Datganoliad digidol!

Blogio fel prosiect vs. Taflu dy waith mewn twll Google+

Sylw da iawn gan Anil Dash am ‘flogio’ ar Google+, Facebook ac ati:

The broken comparison here is forgetting that many of us write (and own) our blogs because we’re making a *work*. It’s like saying “instead of writing a book, just scribble some notes in the back of someone else’s book!”

Based on the past dozen years that I’ve been writing it, I expect that my blog will in some ways be one of the most significant things I create in my life. It exists neither as a sort of filter for opportunity (as you describe Fred [Wilson]’s use) nor a platform for broadcast (as in Kevin Rose’s case). It’s a work I create for myself, that I choose to share with the world, because this is the medium I’m good at.

In that context the idea of letting some company own it is absurd.

Ystyriaeth am Google+ Circles

Dw i ddim eisiau system ‘opsiynau breifatrwydd’ gymhleth arall. Dw i eisiau cadw’r mwyafrif neu popeth o fy nghofnodion ar y we agored ar gyfer chwilio a dolenni.

Ond byddwn i groesawi rywbeth i dagio ac i helpu pobol i ffiltro pethau mas o’u ffrydiau, yn enwedig o ran iaith.

Mae gwahaniaeth rhwng preifatrwydd a ffiltro.

Rhwydwaith hysbysebu cyntaf i wneud llwyddiant go iawn o Gymraeg? Facebook

Facebook hysbysebu ieithoedd Cymraeg

Dylen ni meddwl am Facebook fel ffurlen gais am hysbysebu.

Mae’r platfform wedi bod yn llwyddiannus iawn o hyd gyda gwybodaeth am dy ffrindiau, diddordebau, teulu, crefydd, gwleidyddiaeth, dewisiadau rhywiol, ayyb.

Ond maen nhw wedi bod yn colli un darn pwysig o wybodaeth: ieithoedd.

Mae’r targedu wedi bod yn anodd am dy ieithoedd heblaw dy ddewisiad iaith am y rhyngwyneb.

Nawr maen nhw yn gofyn.

Fel ymchwil dw i wedi dewis pob math o Gymraeg i weld yr hysbysebion: “Welsh”, “Old Welsh”, “Middle Welsh”, “Welsh-Romani”. Dw i’n newid fy niddordebau o bryd i’w gilydd, fel ymchwil hefyd.

Facebook fydd y rhwydwaith hysbysebu cyntaf i wneud llwyddiant go iawn o Gymraeg?

Faint ydy Google AdWords yn cymryd o hysbysebion Cymraeg ar hyn o bryd? Dim llawer. Er bod gyda nhw mwy o gynnwys Cymraeg nag unrhyw un arall trwy’r we agored. Mae Facebook yn dod yn ail gyda’u platfform caeedig.

Wrth gwrs baswn i licio sefyllfa lle mae’r arian hysbysebu yn aros yng Nghymru. Bydd mwy o siawns gyda’r we agored. Roedd Tim Berners-Lee yn hollol gywir.

Yr unig obaith am unrhyw rwydwaith hysbysebu yng Nghymru? Mae’r we agored yn trosgynnu ffasiwn. Dyw Facebook ddim.

YCHWANEGOL 6/12/10: Mae un neu dau person yn cwyno am “Welsh” ayyb eisioes. Ond o leia maen nhw yn atgoffa ni o’r sefyllfa – cwmni yn California sy’n cyfrannu i’r brain drain ar y we agored Cymraeg. Efallai well i ni peidio cwyno amdano fe.

Chwilio Google, sillafu ac awgrymiadau awtomatig yn y Gymraeg (cyfle?)

Siomedig eto!

Ro’n i eisiau darllen rhywbeth am Wenhwyseg.

Wnes i trio “gwenhwysig” (dim ond 3 canlyniad Google). Hmm…

Ar ôl ychydig o waith, wnes i ffeindio’r sillafiad cywir “gwenhwyseg” (775 canlyniad Google).

Y “Wenhwyseg” hefyd. (3240 canlyniad Google)

Mae awgrymiadau awtomatig yn ddefnyddiol iawn yn Saesneg. Ond os ti’n chwilio am “Estury English” (sic), mae fe’n gallu deall dy air a trwsio dy gamsillafiad.

Dw i ddim yn sôn am yr eiriau yma yn enwedig. Dw i’n trio dychmygu’r we gorau am y Gymraeg. Dyn ni ddim wedi cyrraedd eto.

Mae Cysill yn gallu trwsio’r camsillafiadau. Ond faint o bobol/plant/dysgwyr fasai’n defnyddio fe cyn chwilio?

Dyw Google ddim yn adnabod geiriau Cymraeg. Dyw e ddim yn deall camsillafiadau. Dyw e ddim yn deall treigladau. Dyma pham dw i’n siomedig achos dw i eisiau teclynnau gwell.

Felly mae gyda fi awgrymiad agored am broject nesaf i’r dynion a benywod Cysill (neu unrhyw un)!

Does dim peiriant chwilio sy’n “deall” Cymraeg ar gael. Felly dw i’n eisiau Google + Cysill (neu rhywbeth debyg). Dw i eisiau defnyddio cragen Cymraeg ar Google. Mae’n bosib gyda Google Search API.

Does dim ots gyda fi os mae Google yn cynnig rhyngwyneb Cymraeg. OK da iawn mae rhyngwynebau yn neis ond mae lot mwy yn bosib na rhyngwynebau .

Dychmyga’r cyfle: cynulleidfa mawr am hysbysebion ayyb. Efallai dyn ni’n siarad am y brif wefan Cymraeg.

(Gyda llaw, eisiau gwrando ar enghraifft o Wenhwyseg? 0 canlyniad YouTube o gwbl.)

Google Translate is now instant. But still fun (and dangerous).

Google Translate has already accelerated my Welsh learning. It helps to decipher a daunting piece of text.

Now Google Translate is instant. They changed the interface slightly and it flashes up the equivalent translation as you type. Boy.

In other words you get the same flawed “translations”, now even faster!

Try it for Welsh to English.

Example phrases:
Dw i’n cyfieithu.
Defnyddia yn ofalus.
Gwlad beirdd a chantorion, enwogion o fri

I wish there were a proper online Welsh-to-English dictionary that did instant look-ups. It would take some of the friction out of reading difficult books. Just leave the laptop open, type a difficult word and get the meaning NOW.

Having to click is too slow a method because it breaks the flow of the book. Reaching for a dictionary is even worse. The look-up needs to be as near to the speed of thought as possible.
🙂

I say “proper dictionary” because Google still gets words wrong y’see. It’s based on statistical translation and uses the “most likely” translation based on a corpus of text equivalents in both languages. It also seems to have a limited vocabulary.

And a reminder…

Don’t use it for roadsigns! But you can use it to check the gist of a professional’s translation…

Sock And Awe Google Analytics (Just A Flash In The Pan?)

sock and awe

After the Bush/Shoe incident, anyone who’d spent even a few moments in eccentric corners of web knew there would be a creative response online. And it came. Wired has a summary of the shoe-inspired games and animations.

So Sock And Awe wasn’t the only Flash game based on the Bush/Shoe event. But it was the best.

Now Alex Tew, its creator, has sold the site as a property on eBay for £5,215. Whichever way you look at it, that’s a good rate for a few hours of work – not to mention the email subscribers he gathered, which were not part of the sale.

Rory Cellan-Jones at BBC News has the details of this high speed micro-start-up.

As Cellan-Jones notes, the site is based on a current affairs event and will now rapidly decline in value. It’s up to the new owners to extract value from it.

But this doesn’t detract from the cheek and verve of Tew and his colleagues. Everything from the choice of name to the design to the speed of launch and then the one-day auction was executed with skill. See also: his Million Dollar Homepage. If you’re curious about his next move in the world of the web, check out Tew’s forthcoming start-up PopJam.

While the Sock And Awe site was being auctioned, I contacted Tew and asked to see the full visitor stats, via Google Analytics. The visitor counts and top countries were already generally known, but I wanted to see precisely what was happening.

Now that the sale has closed and people are chatting about it, the full analytics make interesting reading so I thought I’d post them up here – with first some graphical highlights then the unexpurgated PDF dumps. (“After the jump”, if you will.)

It’s a good case study in site design and branding.


Sock And Awe – Visitors Overview
The bounce rate is high, which for the average site would normally be very bad. (In other words, most people are just looking at the homepage then leaving.) But Shock And Awe is mainly about the homepage, so it’s an exception to most sites.


Sock And Awe – Top 20 Referring Sites (Detail)
Most visits are getting there by typing into the address bar. Far fewer are clicking to come from other sites. This shows the value of having a good web address that’s memorable and easy to spell. Notice I said “visits” rather than “visitors” (uniques). As you can see from the New vs. Returning PDF, 13% of them are repeat visitors, presumably returning to play again.


Sock And Awe – Map of Visitors
An unusual sign of accord between USA and France, who occupy the top two spots. Google Analytics also records “not set” for country unknown but this is much further down the chart at position 42. Middle Eastern countries can’t get enough of the Bush bashing, as you can see from the full countries PDF

All of the analytics in my blog post here were taken at around 6:15AM GMT on Thursday 18th December. As you can see, the graphs and figures plummet on the 18th because they’re not showing a full day’s stats. It may be better to disregard that day’s totals and regard all analytics as a snapshot showing qualitative insights.

Grab the ZIP file of all sockandawe.com analytics. Or view individual pages below.

Dashboard
This is the overview data.
Dashboard

Visitors
Check out Time on Site for All Visitors – the earlier visitors have much longer attention spans!
Visitors Overview
Map Overlay
New vs. Returning
Languages
Visits
Page Views
Absolute Unique Visitors
Bounce Rate
Time on Site for All Visitors

Traffic Sources
As I mentioned before, the direct traffic is by far the largest. With no time to mount an SEO campaign, Sock And Awe still captures some keyword search traffic, again thanks to the memorable name. (Google and other engines recognise matches with the domain name.) It also captures a few who mistakenly type the URL into their search bar instead of their address bar. (Incidentally, you may be wondering why my own personal blog is called, of all things, Quixotic Quisling. Well, I like to play the long game.)
Traffic Sources Overview
All Traffic Sources
Direct Traffic
Referring Sites
Search Engines
Search Keywords

Content
Content analytics are perhaps the least interesting because this site has very few pages. Although Top Content does give a hint how many people attempted to sign up for the newsletter – at least 30,000 it would appear. (After signing up, they arrived at sockandawe.com/email for a confirmation message. This folder has now been removed.) I say “attempted to sign up” because my own experience is that many people try search queries in these boxes, even despite clear labelling. Tens of thousands is still a good order of magnitude, even if half are bad. Many of the web addresses listed in Content account for framed visits (one recognisable example is somebody using Babelfish, in vain, to attempt to get a translation).
Content Report
Top Content
Top Landing Pages
Top Exit Pages
Average Pageviews

Quick word on Development Costs
According to reports, the game took a night to build. The game engine is very simple – if you think about it, it just compares the X-position of the mouse cursor (which is invisible) with the random X-position of Bush’s head graphic. If the distance is within a pre-set striking tolerance, then the whack graphic is shown. I would say the most time consuming part of the Flash game development was designing the graphics and animation.

Similarly, the bandwidth costs would be low. If you run the site through an analyser, it’s currently around 200kb of data. The site has been slightly modified to remove the subscription option and add advertising, but these are not big changes.

Discussion
Can you glean any more significant insights from these stats? You can comment or send me a message on Twitter.

The Freaky Future of TinEye

In a dizzying round-up, Reportr alerts us to 10 tech trends, the 11th presumably being to drop letter ‘e’s now that single-word domains are in short supply (cf. Flickr, Dopplr, Tumblr…)

The thing that caught my attention was the mention of visual search. I’ve been playing with a new search engine, TinEye, for a couple of months. It claims to be the first on the web – it’s probably the best example so far.

You submit an image to TinEye and it returns similar images from all around the web, based on pattern matching.

Their page of cool TinEye searches is a good introduction.

This is a nothing shy of a REVELATION. It’s funny how tech journalists remain all cool when they see something like that. Well I’m going to point out it’s AMAZING. Inevitable maybe. Given there is so much information on the web, there do remain undiscovered and undeveloped ways in which we can retrieve it. Visual search is a known problem – it just required somebody to sniff out the winning search index algorithm, for accuracy and speed.

In the life of the web, we have become accustomed to fairly good text-based search. The search box has become a second brain for many. We live in a post-search world. (At least, those of us who live in countries with easy access to the web do.)

How does Google find the stuff we want? At the moment a particular page or file has a URL. It may have other metadata such as a filename and keyword tags or alt tags. And unless you’re talking about a video or image, it could be a document with some kind of text body. It also has the pages from around the web which link to it. Those are the only clues, unless I’m forgetting any.

It’s pretty easy for computers to do pattern matching on text. Good search algorithms that work on text databases have been known for decades. But it’s the indexing of the whole web that’s always the big challenge. When you do a Google search, you’re not really searching the web itself, you’re searching Google’s indexes.

What is so amazing about TinEye is they are introducing another clue into the search – the content of the image – and found a quick enough way to index it.

Before I get too excited about TinEye, right now you can hope for hit-and-miss results at best, particularly as the pool of indexed images is relatively low. Since some early announcements of the service this has increased and they recently widened this pool to 901 million images, some of which might be yours.

It remains at the beta test stage, but it’s already quite useful. Some photographers and other visual artists have already been able to track down where their images have been used.

Visual search is still in its infancy and we can expect other players to possibly rival TinEye. There’s a shopping service called like.com mentioned in the Reportr trends piece, but I can’t seem to get past the nauseous feeling of entering a glitzy shopping mall the minute I arrive. It does pose another question for me.

What about the commercial outcomes of visual search? How will companies try to seek traffic from visual search? Will there be attempts at search engine optimisation? Will we see images being priced and ads being sold like Google AdWords? (GOOG)

TinEye doesn’t do human face recognition yet. Could it be just a matter of time, processing power and a dash of ingenuity? Let’s imagine a world where it is possible and it becomes a commonplace thing for use and abuse. Permit me to do some wild speculation.

What about finding doppelgangers and lost relatives? Missing people? It’s possible that a missing person could be an incidental feature of a photograph that somebody posts online.

Could it be used for casting films or theatre, when a new Kubrick absolutely has to find an actor with distinctive facial features?

What about looking for a partner? In a world already filled with all manner of weirdness, would someone try to seek a replacement partner who looks like their ex?

How could police use and potentially misuse this technology? Could they find missing suspects? Match fingerprints?

The future of TinEye and visual search could be like having eyes everywhere… It’s very promising and possibly a bit unsettling.