KompjuteraTeknologjia e informacionit

Vizioni modern kompjuterik. Detyrat dhe teknologjitë e vizionit kompjuterik. Programimi i vizionit kompjuterik në Python

Si të mësoni një kompjuter për të kuptuar se çfarë është paraqitur në foto ose foto? Duket e lehtë për ne, por për një kompjuter ajo është vetëm një matricë e përbërë nga zero dhe ato, nga të cilat është e nevojshme për nxjerrjen e informacionit të rëndësishëm.

Çfarë është vizioni kompjuterik? Kjo është aftësia e kompjuterit për të "parë"

Vizioni është një burim i rëndësishëm informacioni për një person, me ndihmën e saj ne marrim, sipas të dhënave të ndryshme, nga 70 deri në 90% të të gjithë informacionit. Dhe, natyrisht, nëse duam të krijojmë një makinë të zgjuar, ne duhet të zbatojmë të njëjtat aftësi në kompjuter.

Detyra e vizionit kompjuterik mund të formulohet jo fuzzy. Çfarë është "shikoni"? Është për të kuptuar se ku ndodhet, vetëm duke kërkuar. Ky është dallimi në mes të vizionit kompjuterik dhe vizionit njerëzor. Vizioni për ne është burimi i njohurive rreth botës, si dhe një burim informacioni metrik - dmth. Aftësia për të kuptuar distancat dhe dimensionet.

Bërthama semantike e imazhit

Duke parë imazhin, ne mund ta karakterizojmë atë në një numër mënyrash, për të thënë, për të nxjerrë informacione semantike.

Për shembull, duke parë këtë foto, mund të themi se kjo është jashtë dhomës. Cili është ky qytet, trafiku rrugor. Se ka makina këtu. Nga konfigurimi i ndërtesës dhe nga hieroglifet, mund të supozojmë se kjo është Azia Juglindore. Sipas portretit të Mao Zedong, kuptojmë se kjo është Pekini, dhe nëse dikush e ka parë transmetimin ose ka vizituar atje, ai do të jetë në gjendje të mendojë se ky është sheshi i famshëm Tiananmen.

Çfarë mund të themi për pamjen, duke e konsideruar atë? Ne mund të zgjedhim objektet në imazh, të themi, ka njerëz atje, më afër këtu është gardhi. Këtu janë cadrat, këtu është ndërtesa, këtu janë posterat. Këto janë shembuj të klasave të objekteve shumë të rëndësishme, të cilat po kërkohen aktualisht.

Ne gjithashtu mund të nxjerrim disa atribute ose atribute të objekteve. Për shembull, këtu mund të përcaktojmë se ky nuk është një portret i disa kinezëve të zakonshëm, domethënë Mao Zedong.

Me makinë, ju mund të përcaktoni se ky është një objekt që lëviz, dhe është e vështirë, domethënë, nuk deformohet gjatë lëvizjes. Për flamujt mund të thuash se këto janë objekte, ato gjithashtu lëvizin, por ato nuk janë të ngurta, të deformuara përgjithmonë. Dhe gjithashtu në skenë ka një erë, mund të përcaktohet nga flamuri në zhvillim, dhe madje mund të përcaktoni drejtimin e erës, për shembull, ajo fryn nga e majta në të djathtë.

Vlera e distancave dhe gjatësisë në vizionin kompjuterik

Shumë e rëndësishme është informacioni metrik në shkencë për vizionin kompjuterik. Këto janë të gjitha distancat e mundshme. Për shembull, për një rover, kjo është veçanërisht e rëndësishme, sepse komandat nga Toka shkojnë rreth 20 minuta dhe përgjigja është e njëjtë. Rrjedhimisht, lidhja atje dhe prapa - 40 minuta. Dhe nëse hartojmë një plan lëvizjeje për urdhrat e Tokës, atëherë duhet ta marrim këtë parasysh.

Për fat të mirë, teknologjitë e vizionimit kompjuterik integrohen në video games. Sipas videove, mund të ndërtoni modele tre-dimensionale të objekteve, njerëzve dhe fotografive të përdoruesit, që mund të rivendosin modelet tre-dimensionale të qyteteve. Dhe pastaj ecni mbi to.

Vizioni kompjuterik - kjo është një zonë mjaft e gjerë. Ajo është e ndërthurur ngushtë me shkencat e ndryshme të tjera. Vizioni pjesërisht kompjuter Captures fushën e përpunimit të imazhit dhe nganjëherë identifikon fushën e vizionit kompjuterik, historikisht kështu.

Analiza, njohja e modelit - mënyra për të krijuar mendje më të lartë

Ne do t'i analizojmë këto koncepte veç e veç.

Përpunimi i imazhit është një fushë e algoritmeve në të cilat hyrja dhe dalja janë një imazh, dhe ne tashmë po bëjmë diçka me të.

Analiza e imazhit është një fushë e vizionit kompjuterik që fokusohet në punën me një imazh dy-dimensional dhe nxjerr konkluzione nga kjo.

Njohja e imazhit është një disiplinë matematikore abstrakte që njeh të dhënat në formën e vektorëve. Kjo është, hyrja është një vektor dhe ne duhet të bëjmë diçka me të. Prej kësaj vektori, nuk është aq e rëndësishme për ne që të dimë.

Vizioni kompjuterik - kjo ishte fillimisht një restaurim i strukturës së imazheve dy-dimensionale. Tani kjo zonë është bërë më e gjerë dhe mund të trajtohet në përgjithësi si vendimmarrja për objektet fizike, bazuar në imazhin. Kjo është, është detyrë e inteligjencës artificiale.

Paralelisht me vizionin kompjuterik në një zonë krejtësisht të ndryshme, në gjeodezi, u zhvillua fotogrametria - kjo është matja e distancave ndërmjet objekteve në imazhe dy-dimensionale.

Robotët mund të "shohin"

Dhe gjëja e fundit është vizioni i makinës. Nga vizioni kompjuterik nënkuptohet shikimi i robotëve. Kjo është zgjidhja e disa problemeve të prodhimit. Mund të themi se vizioni kompjuterik është një shkencë e madhe. Ajo bashkon disa nga shkencat e tjera pjesërisht. Dhe kur vizioni kompjuterik merr një aplikacion të veçantë, ai kthehet në një vizion kompjuteri.

Fusha e vizionit kompjuterik ka shumë aplikime praktike. Ajo është e lidhur me automatizimin e prodhimit. Në ndërmarrje, ajo bëhet më efektive për të zëvendësuar punën manuale me makineri. Makina nuk lodhet, nuk fle, ka një plan të parregulluar të punës, është gati të punojë 365 ditë në vit. Pra, duke përdorur punën në makinë, ne mund të kemi një rezultat të garantuar në një kohë të caktuar, dhe kjo është mjaft interesante. Të gjitha detyrat për sistemet e vizionimit kompjuterik kanë një aplikim vizual. Dhe nuk ka asgjë më të mirë se të shohësh rezultatin menjëherë nga figura, vetëm në fazën e llogaritjes.

Në pragun e botës së inteligjencës artificiale

Plus zonën - është e komplikuar! Një pjesë e rëndësishme e trurit është përgjegjëse për vizionin dhe besohet se nëse i mëson kompjuterit të "shohë", domethënë të përdorë plotësisht vizionin kompjuterik, atëherë kjo është një nga detyrat e plota të inteligjencës artificiale. Nëse mund ta zgjidhim problemin në nivelin njerëzor, ka shumë të ngjarë që në të njëjtën kohë të zgjidhim problemin e UA. Cila është shumë e mirë! Ose jo shumë mirë, nëse shikoni në "Terminator 2".

Përse vizioni është i vështirë? Për shkak se imazhi i objekteve të njëjta mund të ndryshojë shumë në varësi të faktorëve të jashtëm. Varësisht nga pikat e vëzhgimit, objektet duken ndryshe.

Për shembull, një dhe figurë e njëjtë, e qëlluar nga kënde të ndryshme. Dhe ajo që është më interesante, një figurë mund të ketë një sy, dy sy ose një e gjysmë. Dhe varësisht nga konteksti (nëse është foto e një njeriu në një T-shirt me sy të pikturuar), atëherë syri mund të jetë më shumë se dy.

Kompjuteri ende nuk e kupton, por tashmë "sheh"

Një faktor tjetër që krijon kompleksitet është ndriçimi. E njëjta skenë me ndriçim të ndryshëm do të duket ndryshe. Madhësia e objekteve mund të ndryshojë. Dhe objekte të çdo klase. E pra, si mund të thoni për një njeri që lartësia e tij është 2 metra? Asnjë mënyrë. Lartësia e një personi mund të jetë 2.3 m dhe 80 cm. Ashtu si objektet e llojeve të tjera, ato megjithatë janë objekte të së njëjtës klasë.

Objekte veçanërisht të gjalla i nënshtrohen një sërë deformimesh. Flokët e njerëzve, sportistëve, kafshëve. Shikoni fotot e drejtimit të kuajve, është e pamundur të përcaktohet se çfarë ndodh me burrin dhe burrin e tyre. Një mbivendosje e objekteve në imazh? Nëse futni një fotografi të tillë në një kompjuter, edhe makina më e fuqishme do ta ketë të vështirë të japë zgjidhjen e duhur.

Lloji tjetër është maskimi. Disa objekte, kafshët janë të maskuar nën mjedisin, dhe me shkathtësi të mjaftueshme. Dhe njollat janë të njëjta dhe ngjyra. Por megjithatë i shohim ato, edhe pse jo gjithmonë nga larg.

Një problem tjetër është lëvizja. Objektet në lëvizje i nënshtrohen deformimeve të paimagjinueshme.

Shumë objekte janë shumë të ndryshueshme. Këtu, për shembull, në dy foto poshtë objekteve të tilla si "kolltuk".

Dhe për këtë ju mund të uleni. Por për të mësuar makinën se gjëra të tilla të ndryshme në formë, ngjyrë, material janë të gjitha objektet e "karriges" - shumë e vështirë. Kjo është detyra. Integrimi i metodave të vizionit kompjuterik - kjo është për të mësuar makinën për të kuptuar, analizuar, supozuar.

Integrimi i vizionit kompjuterik në platforma të ndryshme

Në masat, vizioni kompjuterik filloi të depërtojë deri në vitin 2001, kur u krijuan detektorët e parë të fytyrës. Kanë bërë dy autorë: Viola, Jones. Ky ishte algoritmi i parë i shpejtë dhe mjaft i besueshëm, i cili demonstroi fuqinë e metodave të mësimit të makinës.

Tani, vizioni kompjuterik ka një aplikim praktik mjaft të ri - njohjen e një personi nga fytyra.

Por është e pamundur të njohësh një person, siç tregohet në filma - në kënde arbitrare, me kushte të ndryshme ndriçimi. Por për të zgjidhur problemin, një ose disa njerëz të ndryshëm me ndriçim të ndryshëm ose në pozicione të ndryshme, të ngjashme, si fotot në pasaportë, mund të jenë me një shkallë të lartë besimi.

Kërkesat për fotot e pasaportës janë kryesisht për shkak të veçorisë së algoritmeve të njohjes së fytyrës.

Për shembull, nëse keni një pasaportë biometrike, atëherë në disa aeroporte moderne mund të përdorni një sistem automatik të kontrollit të pasaportave.

Problemi i pazgjidhur i vizionit kompjuterik është aftësia për të njohur tekstin arbitrar

Ndoshta dikush përdor sistemin e njohjes së tekstit. Një nga këto është Fine Reader, një sistem shumë popullor në Runet. Ka shumë forma ku duhet të plotësoni të dhënat, ato janë skanuar në mënyrë të përkryer, informacioni është i njohur mirë nga sistemi. Por me tekst arbitrar në imazh, gjërat janë shumë më të këqija. Kjo detyrë mbetet e pazgjidhur.

Lojërat që përfshijnë vizionin kompjuterik, kapjen e lëvizjeve

Një zonë e veçantë e veçantë është krijimi i modeleve tre-dimensionale dhe kapjes së lëvizjes (e cila është zbatuar me sukses në lojërat kompjuterike). Programi i parë, duke përdorur vizionin kompjuterik, është një sistem i ndërveprimit me një kompjuter duke përdorur gjeste. Kur u krijua, kishte shumë gjëra që ishin të hapura.

Algorithm vetë është mjaft e thjeshtë, por për të konfiguruar atë, ishte e nevojshme për të krijuar një gjenerator i imazheve artificiale të njerëzve për të marrë një milion fotografi. Supercomputer me ndihmën e tyre kap parametrat e algoritmit, sipas të cilit tani punon më mirë.

Kjo është mënyra se si një milion imazhe dhe një javë superkompjuterë lejojnë krijimin e një algoritmi që konsumon 12% të fuqisë së një procesori dhe ju mundëson të perceptoni paraqitjen e një personi në kohë reale. Ky është sistemi Microsoft Kinect (2010).

Kërkimi i imazheve sipas përmbajtjes ju lejon të ngarkoni një foto në sistem dhe sipas rezultateve ajo do të shfaqë të gjitha fotografitë me të njëjtin përmbajtje dhe të marra nga e njëjta kënd.

Shembuj të vizionit kompjuterik: hartat tridimensionale dhe dy dimensionale tani janë duke u bërë me të. Hartat për drejtuesit e makinave përditësohen rregullisht sipas të dhënave nga DVR-të.

Ekziston një bazë me miliarda foto me geometra. Duke ngarkuar një fotografi në këtë bazë të dhënash, ju mund të përcaktoni se ku është bërë dhe madje nga cili perspektivë. Natyrisht, me kusht që vendi është mjaft popullor, që në një kohë ka pasur turistë dhe bëri një seri fotografish të zonës.

Robotët janë kudo

Robotika tani është kudo, pa të. Tani ka makina në të cilat ka kamera të veçanta që njohin këmbësorët dhe shenjat rrugore në mënyrë që të kalojnë komandat tek shoferi (kjo është në një kuptim një program vizioni kompjuterik që ndihmon një entuziast makine). Dhe ka makina robotike plotësisht të automatizuara, por ata nuk mund të mbështeten vetëm në sistemin e kamerës pa përdorur shumë informata shtesë.

Një kamera moderne është një analog i një kamera obscura

Le të flasim për imazhin dixhital. Kamerat dixhitale moderne janë ndërtuar mbi parimin e obscura të kamerës. Vetëm në vend të vrimës përmes së cilës një rreze dritë depërton dhe projekton konturin e objektit në murin e pasmë të kamerës, ne kemi një sistem optik të veçantë të quajtur lente. Detyra e tij është të mbledhë një rreze të madhe drite dhe ta transformojë atë në mënyrë të tillë që të gjitha rrezet të kalojnë përmes një pike virtuale në mënyrë që të marrin një projeksion dhe të formojnë një imazh në një film apo matricë.

Kamerat dixhitale moderne (matricë) përbëhen nga elementë të veçantë - piksele. Çdo pixel ju lejon të matni energjinë e dritës, e cila bie në këtë piksel në total dhe nxjerr një numër. Prandaj, në një aparat fotografik dixhital, ne marrim në vend të një imazhi një sërë matjesh të ndriçimit të dritës që ka rënë në një pikëpamje të veçantë - fushat e kompjuterit të parë. Prandaj, ndërsa imazhi është zgjeruar, ne nuk shohim linja të lëmuara dhe konturet e qarta, por një rrjet pikselësh që janë të ngjyrosura në tone të ndryshme - pikselë.

Më poshtë mund të shihni imazhin e parë dixhital në botë.

Por ajo që mungon në këtë imazh? Color. Dhe çfarë është ngjyra?

Perceptimi psikologjik i ngjyrës

Ngjyra është ajo që shohim. Ngjyra e objektit, objekti i njëjtë për njeriun dhe catin do të jetë ndryshe. Meqë ne (në njerëzit) dhe kafshët kanë një sistem optik - vizion, është ndryshe. Prandaj, ngjyra është një pronë psikologjike e vizionit tonë, që del nga vëzhgimi i objekteve dhe dritës. Dhe jo pronësia fizike e objektit dhe e dritës. Ngjyra është rezultat i bashkëveprimit të komponentëve të dritës, skenës dhe sistemit tonë vizual.

Programimi i vizionit kompjuterik në Python duke përdorur bibliotekat

Nëse vendosni të studioni seriozisht vizionin kompjuterik, duhet menjëherë të përgatiteni për një sërë vështirësish, kjo shkencë nuk është më e lehtë dhe fsheh një numër të kurtheve. Por "Vizionimi kompjuterik i programimit në Python" në autorësinë e Jan Eric Solem është një libër në të cilin gjithçka është përcaktuar në gjuhën më të thjeshtë të mundshme. Këtu do të njiheni me metodat e njohjes së objekteve të ndryshme në 3D, mësoni se si të punoni me imazhe stereo, realitet virtual dhe shumë aplikacione të tjera të vizionit kompjuterik. Ka mjaft shembuj në libër në Python. Por shpjegimet janë paraqitur, në mënyrë të tillë, në përgjithësi, në mënyrë që të mos mbingarkohen me shumë informacione shkencore dhe të rënda. Puna i përshtatet studentëve, vetëm të dashuruar dhe entuziastë. Ju mund ta shkarkoni këtë libër dhe të tjerët në lidhje me vizionin kompjuterik (format pdf) në internet.

Për momentin ekziston një bibliotekë e hapur e algoritmeve të vizionit kompjuterik, si dhe përpunimi i imazhit dhe algoritme numerike të OpenCV. Ajo zbatohet në shumicën e gjuhëve moderne të programimit, ajo ka kodin e kodit të hapur. Nëse flasim për vizionin kompjuterik, Python e përdor atë si një gjuhë programimi, atëherë ai gjithashtu ka mbështetjen e kësaj biblioteke, përveç kësaj, ajo vazhdimisht evoluon dhe ka një komunitet të madh.

Kompania "Microsoft" ofron shërbimet e saj Api, të cilat mund të trajnojnë rrjetet nervore për të punuar me imazhet e individëve. Është gjithashtu e mundur të përdoret vizioni kompjuterik, Python duke përdorur si gjuhë programimi .

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 sq.delachieve.com. Theme powered by WordPress.