Wednesday November 10th, 2021Sunday July 9th, 2023 by Carl Morris (Blog)

Sharing books: Wikisource now offers OCR

In brief, I’ve only just found out that Wikisource offers OCR via Tesseract JS which is a game-changer for sharing books in Welsh.

4 Replies to “Sharing books: Wikisource now offers OCR”

Huw says:

Sunday November 14th, 2021 at 12:01 AM

Diolch am dynnu sylw at hwn.

Er mwyn gwneud cynnydd ym maes prosesu iaith naturiol (natural language processing), sef adain testun o ddeallusrwydd artiffisial, mae angen mwy o ddata o safon da. Mae Wicidestun yn helpu gyda hyn yn fawr.

Dwi di defnyddio Tesseract tipyn o’r blaen. Mae’n cyfuno rheolau gyda model rhwydwaith niwral LSTM (long short-term memory), sef y gallu i ddarogan y gair nesaf mewn dilyniant. E.e. Y gath ___. Gall ddarogan y gair nesaf mewn brawddeg (short-term memory) yn seiliedig ar y testun ar ddechrau paragraff (long memory) etc.

Y broblem gyda safon OCR y Gymraeg Tesseract yw fod y data sydd y tu ôl i’r model LSTM yn wael. Gweler https://github.com/tesseract-ocr/langdata/tree/main/cym sy’n dangos bod y data wedi ei grafu o Wicipedia! Arfer cyffredin efo ‘dysgu’ modelau iaith deallusrwydd artiffisial.

Trwy gael data da i wella Tesseract i grafu mwy o ddata da, gall greu corpws mwy at bwrpasau deallusrwydd artiffisial.

Dwi’n gwybod bod yr uchod yn swnio fel tipyn o broses adborthol, oherwydd dyna ydyw! Gall hyn creu risg newydd ei hun gan fod model LSTM yn ceisio mynd ar ôl patrymau mae’n ei hadnabod yn barod, a’r patrymau hynny’n cael eu defnyddio i atgyfnerthu’r model etc. Y canlyniad yw diffyg y model i ‘gyffredinoli’ ar ddata, a chymell unrhyw fath o ddarogan ac adnabod patrymau i’r hyn mae’n ei wybod eisoes.
Carl Morris says:

Monday November 15th, 2021 at 10:52 AM

Pwyntiau diddorol iawn Huw, diolch.

Rhaid bod cymryd Wicipedia fel corpws yn well na dim byd. Ond mae llawer wedi newid ar Wicipedia ers 2015 hefyd!
Huw says:

Monday November 15th, 2021 at 11:30 AM

Tydi Wikipedia ddim yn beth drwg, oherwydd mae’n cynnwys amrywiaeth o destunau – rhyddiaith a thechnegol – gyda chyfraniadau gan sawl awdur. Oherwydd hyn mae sawl arddull o ysgrifennu gydag amrediad eang o eiriau gwahanol i adeiladu corpws. Mae hyn yn wir am ieithoedd sydd efo nifer o erthyglau hir, cynhwysfawr, ond mae diffyg hyn yn y Gymraeg. Oes, mae’r nifer o erthyglau yn y Gymraeg yn cynyddu, ond maent yn tueddu i fod yn bytiau.

Ffynhonell arall yw’r Cofnod o’r Senedd. Dwi’n meddwl bod Google wedi defnyddio hyn i gyfrannu at ei gwasanaeth cyfieithu. Y broblem yw ei fod yn math unffurf diflas o’r Gymraeg.

O ystyried y ddau ffynhonell uchod, bydd cael Wicidestun o gymorth mawr. Bydd yn ein cynorthwyo i addysgu cyfrifiaduron sut i adnabod a dehongli’r Gymraeg.

Nid oes digon o ddata ar gael ar hyn o bryd, ond byse modd ysgrifennu brawddeg a chael model iaith i ddarogan parhad i’r dilyniant. Trwy ddewis model sydd wedi ei haddysgu ar destunau o adegau gwahanol, byse modd ysgrifennu rhywbeth yng Nghymraeg William Morgan, Daniel Owen neu Kate Roberts.

Mewn tasg gwahanol, edrychais ar amlder geiriau yn y Traethodydd dros sawl degawd. Lawrlwythais y PDF o ‘Cylchgronau Cymru’ y Llyfrgell Genedlaethol a chymwyso OCR Tesseract. Dyma ffynhonell arall o destun sydd prin yn cael ei ddefnyddio. Mwy yma: https://github.com/huwwaters/PIN/blob/master/atal_eiriau_y_traethodydd.csv
Rhys Wynne says:

Tuesday December 14th, 2021 at 11:23 AM

Mae Alwyn wedi gwneud gwaith ardderchog, er mae wedi dod ar draws mater sy’n creu cyfyng gyngor iddo:
https://cy.wikipedia.org/wiki/Wicipedia:Y_Caffi#Hiliaeth_mewn_hen_lyfrau

Mae darllen y sylwadau uchod gan Huw yn ddiddordol, ac mae ei bwynt: Tydi Wikipedia ddim yn beth drwg, oherwydd mae’n cynnwys amrywiaeth o destunau – rhyddiaith a thechnegol – gyda chyfraniadau gan sawl awdur. yn berthnasol iawn i mi, gan fod y golygydd ynof yn ysu am safonni erthyglau a sicrhau cysondeb o ran ffurf, sillafu, cystrawen, ond mae’n debyg mai eu gydael gyda chyn lleied o newid ddylwn i oni bai bod gwall.

Comments are closed.