OCR包括兩個主要階段,先是要在影象中鎖定准確的字元位置,其次才是根據鎖定的目的區塊最先翻箱倒櫃,用資料庫中的資料比對出那是甚麼字(或圖案)翻譯那些翻箱倒櫃辨識奇形異狀文字的工作今朝的OCR軟體已做得很好,是個和功課系同一樣成熟重大的商品,所以這部份根本沒我的事!車牌辨識因為只需辨識少數的字元與字型,這部門天成翻譯公司就簡單本身做了,沒必要買OCR軟體,如果買了就賠死了!
如果OCR或機器學習軟體完全沒有字元在哪裡的出發點資訊,那就必須在原圖上逐點掃描,乃至也不知道方針巨細,一個字模上是10x20的字型,在原始影象上多是任何寬高比1:2的圖形,加上會傾斜乃至變形!OCR或機械進修軟體即使能跑出正確結果,所需時候也會慢到讓人沒法接管的!OCR本身當然有「根基」的字元鎖定程式,可是能力有限,碰著印刷複雜或不是極清楚的影象就很輕易辨識失敗。
天成翻譯公司「臨時」不消機械學習的緣由也差不多!用機器進修機制來辨識字元,對我今朝的需求來說沒需要。至於用機械進修幫我判定字元外形位置?判斷目的是否需要融會或切割呢?這是抽象思考,AI今朝還沒這麼伶俐啦!如果罷休讓他們「自天成翻譯公司進修」可能會算到天荒地老!利用軟體的客戶鐵定會抓狂的!請記得:機器進修的弱點是需要許多計較,你的手機或PC效能可以跟Alphago相比嗎?
良多人會嫌疑:「
所以不要誤解天成翻譯公司對機器進修有偏見!還誤解我是自己不懂才有意不消的!真的不是這樣!我曾最討厭JavaScript,可是HTML5鼓起後,一年以內天成翻譯公司就變成JS的專家,還能教學生用JS寫出近似Line的通訊軟體!晚期的學生以為我一向都是寫JS的人!學姊返校跟我創業時卻很驚訝:「教員你不是一貫喜好用VB,很厭煩JS的嗎?怎麼學弟們最熟練的說話是JS,而不是VB了?」以此觀之,我是堅持抗拒新科技的老固執嗎?你們本身判定吧!
所以我做的工作很像二廚替大廚準備食材,就是影象處理需要的準備步調,灰階化→二值化→輪廓化→切割為自力字元方針。簡單嗎?很難的!因為狀況很是多,如前面的圖形吧?點矩陣列表機印的文字,在影像上底子就是離散的目的,若何「融合」它們成為一個單一目的送給OCR辨識就是個很難處理的邏輯。相對的,印刷字太擠,影象相連沾在一路時,兩個字被當作一個字送去辨識,OCR固然沒這麼伶俐,怎麼比對謎底都是錯的!此時天成翻譯公司就必須「切臘腸」,准確切開相連目的以後才能餵給OCR翻譯
天成翻譯公司提了一下準備做藥盒辨識的議題,許多機器學習或深度學習的建議又來了!明顯在這個 AI 的新時期,機械學習變成顯學了!事實上我對此也是略知一二的,但現實操作的手藝上確切是沒經驗,但天成翻譯公司估量研發的時候與獲得足夠樣本或資料庫的本錢較高,讓我不會將機械進修看成最佳的選項,甚至我判定較合適用這類體式格局解決的案子,就直接推辭或保舉他人做了!
當然這些跟我的工作算是無關的,即便是辨識藥盒上的字串,他們也不是要我「翻譯全文」只是要抓出批號與過時日,我的大麻煩並非「字很奇怪」而是字的位置範圍欠好確定,必需有一個程式在任何顏色、字元巨細與印刷體例下,即便字元沾連或破裂我都能正確圈出那些字來辨識,因為字的可能性不會太多,我不會用OCR,否則買授權就是我自己工作報價的很多多少倍了!
事實上機器進修的強項是和OCR軟體近似的!首要用於「認知」誰人圖案是甚麼意義!目前我除做車牌辨識以外,最大項的工作就是替以OCR為根本,推出影象辨識軟硬體商品的公司辦事。他們需要天成翻譯公司幫手確當然不是若何辨識奇希奇怪的字,而是處理從原始影像中准確抓出字元區塊的這個步調!
我今朝的工作可以算是OCR(Optical Character Recognition,光學字元辨識),就是讓影像中的文字變成真正可以在電腦中被辨認編輯的文字資料,車牌辨識其實就是此中一個最廣用的案例!天成翻譯公司以研究車牌為出發點,不測地遭到業界正視,起頭幫手許多領域去影像中「找字元」!掃描文件是在2D的基礎上做,拍攝的照片則是在3D的根本上處置,前者已不簡單了,後者變數就更多!
所謂機器「進修」就隱含了嘗試毛病的意義,感受上OCR資料庫是死的,機器進修多了一些想像的空間,似乎他會積累經驗?或至少比定型資料比對更有彈性!然則各位可想到運算時候的問題?OCR軟體今朝很貴,主要緣由就是它可以非常快速的從十分多的可能字元中比對出結果,它的價值是「快」不是伶俐!所以這些年它不但沒有被機械進修軟體取代,還繼續連結很貴!
本文來自: http://blog.udn.com/yccsonar/105937889有關各國語文翻譯公證的問題歡迎諮詢天成翻譯公司02-77260931