Στυλιζαρισμός εικόνων χρησιμοποιώντας νευρικά δίκτυα: Όχι μυστικισμός, απλά ματάν. Ostagram: Υπηρεσία με βάση το νευρικό δίκτυο, συνδυάζοντας φωτογραφίες και στολίδια σε αριστουργήματα τέχνης Neural Network Artist

25.06.2019

Διαβάστε επίσης

Τα εκπληκτικά αρχεία του ανθρώπινου σώματος είναι το μεγαλύτερο στόμα στον κόσμο

Τα βασικά της ανατομίας για την εικόνα μιας πλαστικής ανατομίας βασικού ανθρώπου

Επιταχυνόμενη καύση: Επαγγελματική ασθένεια του σύγχρονου δασκάλου

Από τον Αύγουστο του 2015, οι γερμανοί ερευνητές από το Πανεπιστήμιο του Tubingen υπέβαλαν την επιλογή τους για το ύφος των διάσημων καλλιτεχνών σε άλλες φωτογραφίες, οι υπηρεσίες άρχισαν να φαίνονται ότι αυτή η ευκαιρία δημιουργήθηκε. Στη δυτική αγορά ξεκίνησε, και στα ρωσικά - το πλήρες αντίγραφό του.

Σε σελιδοδείκτες

Παρά το γεγονός ότι το Ostagram ξεκίνησε τον Δεκέμβριο, άρχισε να κερδίζει γρήγορα δημοτικότητα στα κοινωνικά δίκτυα στα μέσα Απριλίου. Ταυτόχρονα, υπήρχαν λιγότερο από χιλιάδες άτομα στο έργο στο Vkontakte στις 19 Απριλίου.

Για να χρησιμοποιήσετε την υπηρεσία, πρέπει να προετοιμάσετε δύο εικόνες: μια φωτογραφία που πρόκειται να υποβληθεί σε επεξεργασία και μια εικόνα με ένα παράδειγμα στυλ για επικάλυψη στην αρχική εικόνα.

Η υπηρεσία έχει μια δωρεάν έκδοση: δημιουργεί μια εικόνα σε ελάχιστη ανάλυση μέχρι 600 pixels κατά μήκος της μεγαλύτερης πλευράς της εικόνας. Ο χρήστης λαμβάνει το αποτέλεσμα μόνο ενός από τα επαναλήψεις του φίλτρου που εφαρμόζεται στη φωτογραφία.

Πληρωμένες εκδόσεις δύο: Το Premium δίνει μια εικόνα μέχρι 700 pixels κατά μήκος της μεγαλύτερης πλευράς και ισχύει για την εικόνα των 600 επαναλήψεων της επεξεργασίας του νευρικού δικτύου (πιο επαρχημένων και πιο εντατικής επεξεργασίας). Ένα τέτοιο στιγμιότυπο θα είναι 50 ρούβλια.

Στην έκδοση HD, μπορείτε να ρυθμίσετε τον αριθμό των επαναλήψεων: 100 θα κοστίσει 50 ρούβλια και 1000 - 250 ρούβλια. Σε αυτή την περίπτωση, η εικόνα θα έχει ανάλυση μέχρι 1200 pixels κατά μήκος της μεγαλύτερης πλευράς και μπορεί να χρησιμοποιηθεί για την εκτύπωση σε καμβά: Ostagram προσφέρει μια τέτοια υπηρεσία με παράδοση από 1800 ρούβλια.

Τον Φεβρουάριο, οι εκπρόσωποι του Ostagram που δεν θα δεχτούν αιτήματα για επεξεργασία εικόνων από χρήστες από τους χρήστες από τους αναπτυγμένους καπιταλισμό ", αλλά στη συνέχεια πρόσβαση σε επεξεργασία φωτογραφιών για τους χρήστες" Vkontakte "από όλο τον κόσμο. Κρίνοντας από τον κώδικα Ostagram που δημοσιεύθηκε στο Github, το Σεργκέι Morugin, ένας 30χρονος κάτοικος Nizhny Novgorod ασχολείται με την ανάπτυξή της.

Η TJ έρχεται σε επαφή με τον εμπορικό διευθυντή του έργου που εισήχθη από τον Andrey. Σύμφωνα με τον ίδιο, ο Ostagram εμφανίστηκε πριν από την Instapainting, αλλά εμπνεύστηκε από ένα παρόμοιο έργο που ονομάζεται VIPART.

Η ανάπτυξη του Ostagram ασχολήθηκε σε μια ομάδα φοιτητών από το NSTU. Alekseeva: Μετά την αρχική δοκιμή σε μια στενή ομάδα φίλων στα τέλη του 2015, το έργο αποφασίστηκε να δημοσιοποιηθεί. Αρχικά, η επεξεργασία εικόνας ήταν εντελώς δωρεάν και σχεδιάστηκε να κερδίσει χρήματα για την πώληση τυπωμένων ζωγραφιών. Σύμφωνα με τον Αντρέι, η σφραγίδα αποδείχθηκε ότι ήταν το μεγαλύτερο πρόβλημα: οι άνθρωποι που αντιμετωπίζονται με νευρικά οχήματα σπάνια φαίνονται ωραία για τα ανθρώπινα μάτια και ο τελικός πελάτης πρέπει να προσαρμόσει το αποτέλεσμα για μεγάλο χρονικό διάστημα πριν εφαρμόσει σε καμβά, η οποία απαιτεί μεγάλους πόρους μηχανών .

Για την επεξεργασία εικόνας, οι δημιουργοί του Ostagram ήθελαν να χρησιμοποιήσουν τους διακομιστές Cloud Amazon, αλλά μετά την εισροή των χρηστών κατέστη σαφές ότι το κόστος αυτών θα ξεπεράσει χιλιάδες δολάρια την ημέρα με ελάχιστη απόδοση επένδυσης. Andrei, ταυτόχρονα να είναι ένας επενδυτής του έργου, μισθωμένη ισχύ διακομιστή στο Nizhny Novgorod.

Το κοινό του έργου είναι περίπου χίλιες ανά ημέρα, ωστόσο, σε μερικές μέρες έφτασε 40 χιλιάδες ανθρώπους εις βάρος των μεταβάσεων από τα ξένα μέσα που είχαν ήδη καταφέρει να παρατηρήσουν το έργο ενώπιον του εγχώριου (Ostagram κατάφερε να αυξηθεί με τους ευρωπαϊκούς DJs) . Τη νύχτα, όταν η κυκλοφορία είναι χαμηλή, η επεξεργασία εικόνας μπορεί να πραγματοποιηθεί σε 5 λεπτά και μέρα για να καταλάβει μέχρι και μία ώρα.

Εάν οι προηγούμενοι ξένοι χρήστες έχουν συνειδητά περιορισμένη πρόσβαση στην επεξεργασία εικόνας (για να ξεκινήσει η δημιουργία για να ξεκινήσει με τη Ρωσία), τώρα ο Ostagram βασίζεται ήδη στο δυτικό κοινό.

Μέχρι σήμερα, οι προοπτικές αποπληρωμής είναι υπό όρους. Εάν κάθε χρήστης είχε πληρώσει για την επεξεργασία 10 ρούβλια, τότε ίσως θα βράσει. [...]
Είμαστε πολύ δύσκολο να μοιραστούμε στη χώρα μας: Είμαστε έτοιμοι να περιμένουμε μια εβδομάδα, αλλά δεν θα πληρώσουμε μια δεκάρα γι 'αυτό. Οι Ευρωπαίοι για αυτό είναι πιο ευνοϊκοί - όσον αφορά την πληρωμή για την άρση, τη βελτίωση της ποιότητας - επομένως, ο προσανατολισμός πηγαίνει στην αγορά.

Andrei, αντιπροσωπευτικό Ostagram

Σύμφωνα με τον Andrei, η ομάδα Ostagram εργάζεται σε μια νέα έκδοση του ιστότοπου με μια μεγάλη προκατάληψη στην κοινωνικότητα: "Θα είναι παρόμοια με μια γνωστή εξυπηρέτηση, αλλά τι να κάνει." Το έργο ενδιαφέρεται ήδη για τους εκπροσώπους του Facebook στη Ρωσία, αλλά πριν οι διαπραγματεύσεις για την πώληση δεν φθάνουν στην υπηρεσία.

Παραδείγματα υπηρεσίας

Στην κορδέλα στον ιστότοπο του Ostagram, είναι επίσης δυνατό να δείτε τον συνδυασμό των εικόνων που αποδείχθηκε τις τελικές εικόνες: συχνά είναι ακόμα πιο ενδιαφέρον από το αποτέλεσμα. Ταυτόχρονα, τα φίλτρα είναι εικόνες που χρησιμοποιούνται ως αποτέλεσμα για την επεξεργασία - μπορεί να αποθηκευτεί για περαιτέρω χρήση.

Χαιρετισμούς σε σας, Habr! Σίγουρα παρατηρήσατε ότι το θέμα των φωτογραφιών στυλ για διάφορα καλλιτεχνικά στυλ συζητείται ενεργά σε αυτά. Ανάγνωση όλων αυτών των δημοφιλών άρθρων, ίσως να σκεφτείτε ότι κάτω από την κουκούλα αυτών των εφαρμογών, η μαγεία συνεχίζεται και το νευρικό δίκτυο πραγματικά φανταστεί και αναδιαμορφώνει την εικόνα από το μηδέν. Έτσι συνέβη ότι η ομάδα μας αντιμετώπισε ένα παρόμοιο έργο: στο πλαίσιο του εσωτερικού εταιρικού Hackaton κάναμε μια λογιστικοποίηση βίντεο, επειδή Η εφαρμογή για φωτογραφίες ήταν ήδη. Σε αυτή τη θέση, θα καταλάβουμε πώς αυτό το δίκτυο "Redraws" και θα αναλύσουμε τα άρθρα, χάρη στην οποία έγινε δυνατή. Σας συνιστούμε να εξοικειωθείτε με την τελευταία θέση πριν να διαβάσετε αυτό το υλικό και γενικά με τα θεμέλια των συνεδριακών νευρωνικών δικτύων. Περιμένετε μια μικρή φόρμουλα, ένα μικρό κώδικα (παραδείγματα θα οδηγήσω στο Theano και Lasagne), καθώς και πολλές εικόνες. Αυτή η ανάρτηση είναι χτισμένη στη χρονολογική διαδικασία για την εμφάνιση άρθρων και, κατά συνέπεια, οι ίδιες ιδέες. Μερικές φορές θα το αραιώσω στην πρόσφατη εμπειρία μας. Εδώ είναι ένα αγόρι από την κόλαση να προσελκύσει την προσοχή.

Οπτικοποίηση και κατανόηση των συνεδριακών δικτύων (28 Νοεμβρίου 2013)

Πρώτα απ 'όλα, αξίζει να αναφερθεί το άρθρο στο οποίο οι συγγραφείς ήταν σε θέση να δείξουν ότι το νευρωνικό δίκτυο δεν είναι ένα μαύρο κουτί, αλλά ένα αρκετά ερμηνευτικό πράγμα (παρεμπιπτόντως, σήμερα μπορεί να ειπωθεί όχι μόνο για συνεδριακά δίκτυα για τον υπολογιστή όραμα). Οι συγγραφείς αποφάσισαν να μάθουν πώς να ερμηνεύουν την ενεργοποίηση των νευρώνων των κρυμμένων στρωμάτων, γι 'αυτό χρησιμοποίησαν το αποκλοπνευματικό νευρωνικό δίκτυο (deconvnet) που προτείνεται από αρκετά χρόνια νωρίτερα (παρεμπιπτόντως, ο ίδιος Zayler και ο Fergus, οι οποίοι είναι συγγραφείς και αυτό δημοσίευση). Το αποσπαστικό δίκτυο είναι στην πραγματικότητα το ίδιο δίκτυο με σπασμούς και blogings, αλλά εφαρμόζεται με αντίστροφη σειρά. Στην αρχική λειτουργία DeconVnet, το δίκτυο χρησιμοποιήθηκε στη λειτουργία εκπαίδευσης χωρίς δάσκαλο για τη δημιουργία εικόνων. Αυτή τη φορά, οι συγγραφείς το εφαρμόζουν απλά για το αντίθετο πέρασμα από τα σημάδια που αποκτήθηκαν μετά το άμεσο πέρασμα στο δίκτυο, στην αρχική εικόνα. Ως αποτέλεσμα, αποδεικνύεται μια εικόνα που μπορεί να ερμηνευτεί ως σήμα που προκάλεσε αυτή την ενεργοποίηση στους νευρώνες. Φυσικά, τίθεται το ερώτημα: πώς να κάνει το αντίθετο πέρασμα μέσω μιας συνέλιξης και μιας μη γραμμικότητας; Και ιδιαίτερα μέσω του Max-Pulling, σίγουρα δεν είναι μια ανεστραμμένη λειτουργία. Εξετάστε και τα τρία εξαρτήματα.

Αντίστροφη Relu.

Σε συνεδριακά δίκτυα, καθώς χρησιμοποιείται συχνά μια λειτουργία ενεργοποίησης Relu (x) \u003d max (0, x)που κάνει όλες τις ενεργοποιήσεις στο στρώμα όχι αρνητικό. Συνεπώς, όταν το πέρασμα μέσω της μη γραμμικότητας, είναι επίσης απαραίτητο να ληφθούν αρνητικά αποτελέσματα. Για αυτό, οι συγγραφείς προσφέρουν να χρησιμοποιήσουν το ίδιο Relu. Από την άποψη της αρχιτεκτονικής Theano, είναι απαραίτητο να παρακάμψετε τη λειτουργία της κλίσης της επιχείρησης (ένας απείρως πολύτιμος φορητός υπολογιστής είναι στις συνταγές του Λαζαγάν, από εκεί θα χειριστεί τις λεπτομέρειες για το τι είναι για την κατηγορία ModifiedBackbackProp).

Class ZeiLerBackProp (ModifiedBackbackprop): Def Grads (self, είσοδο, out_grads): (INP,) \u003d εισόδους (GRD,) \u003d out_grads # επιστρέψτε (GRD * (GRD\u003e 0). Διορθώθηκε ρητά (INP.DTYPE),) Επιστροφή (self.nonlinearity (GRD),) # χρησιμοποιήστε τη δεδομένη μη γραμμικότητα

Αντίστροφη τρυπάνι

Είναι λίγο πιο περίπλοκο εδώ, αλλά όλα είναι λογικά: αρκεί να εφαρμόσετε τη μεταφερόμενη έκδοση του ίδιου παλτού πυρήνα, αλλά στις εκροές από το reelu αντί του προηγούμενου στρώματος που χρησιμοποιείται στο άμεσο πέρασμα. Αλλά φοβάμαι ότι με λόγια δεν είναι τόσο προφανές, θα εξετάσουμε την απεικόνιση αυτής της διαδικασίας (θα βρείτε ακόμη περισσότερες απεικονίσεις πακέτων).

Κόψτε με βήμα \u003d 1

Κόψτε με βήμα \u003d 1	Αντίστροφη έκδοση

Κόψτε με βήμα \u003d 2

Κόψτε με βήμα \u003d 2	Αντίστροφη έκδοση

Αντίστροφη τράβηγμα

Αυτή είναι αυτή η λειτουργία (σε αντίθεση με το προηγούμενο) γενικά ομιλώντας δεν ανεστραμμένο. Αλλά θέλαμε ακόμα να περάσουμε από ένα μέγιστο στο αντίθετο πέρασμα. Για αυτό, οι συγγραφείς προσφέρουν να χρησιμοποιήσουν έναν χάρτη όπου υπήρχε ένα μέγιστο άμεσο πέρασμα (max switches θέσης). Όταν το αντίστροφο πέρασμα, το σήμα εισόδου μέσα στην εμφανίσεις μετατρέπεται σε περίπου τη δομή του σήματος προέλευσης, είναι πολύ ευκολότερο να δούμε τι να περιγράψουμε.

Αποτέλεσμα

Ο αλγόριθμος απεικόνισης είναι εξαιρετικά απλός:

Κάντε ένα άμεσο πέρασμα.
Επιλέξτε το στρώμα ενδιαφέροντος για εμάς.
Ασφαλίστε την ενεργοποίηση ενός ή περισσοτέρων νευρώνων και επαναφέρετε τα υπόλοιπα.
Κάνετε αντίστροφη έξοδο.

Κάθε γκρίζο τετράγωνο στην παρακάτω εικόνα αντιστοιχεί στην απεικόνιση του φίλτρου (η οποία χρησιμοποιείται για μια συνέλιξη) ή τα βάρη ενός νευρώνα και κάθε έγχρωμη εικόνα είναι το τμήμα της αρχικής εικόνας που ενεργοποιεί τον αντίστοιχο νευρώνα. Για τη σαφήνεια, οι νευρώνες μέσα σε ένα στρώμα ομαδοποιούνται σε θεματικές ομάδες. Σε γενικές γραμμές, ξαφνικά το νευρικό δίκτυο μαθαίνουν ακριβώς τι έγραψε ο Hewubel και Weizel σχετικά με τη δομή του οπτικού συστήματος, για την οποία τιμήθηκε το βραβείο Νόμπελ το 1981. Χάρη σε αυτό το άρθρο, λάβαμε μια οπτική αναπαράσταση του τι μαθαίνει ένα συνεδριακό νευρικό δίκτυο σε κάθε στρώμα. Αυτές οι γνώσεις που θα σας επιτρέψουν να χειριστείτε το περιεχόμενο της δημιουργίας εικόνας αργότερα, αλλά πριν από αυτό, τα εξής λίγα χρόνια έχουν περάσει τη βελτίωση των μεθόδων των νευρωνικών δικτύων "προδοσίας". Επιπλέον, οι συντάκτες του άρθρου πρότειναν έναν τρόπο να αναλύσουν τον τρόπο ανάλυσης του τρόπου με τον οποίο είναι καλύτερο να οικοδομήσουμε μια συνεδριακό αρχιτεκτονική του νευρικού δικτύου για να επιτύχει τα καλύτερα αποτελέσματα (αν και η Imagenet 2013 δεν είχαν κερδίσει, αλλά πήρε στην κορυφή. Απάντηση.: Η Taki αποδεικνύεται ότι κερδίζεται, ο Clarifai είναι αυτοί, είναι).

Οπτικοποίηση FICH

Εδώ είναι ένα παράδειγμα απεικόνισης ενεργοποίησης χρησιμοποιώντας το DeconVnet, σήμερα αυτό το αποτέλεσμα είναι ήδη τόσο έτσι, αλλά τότε ήταν μια σημαντική ανακάλυψη.

Χαρακτηριστικά Χάρτες χρησιμοποιώντας DeconVnet

Βαθιά μέσα σε συνεδριακές δίκτυα: Οπτικοποίηση μοντέλων ταξινόμησης εικόνας και χαρτών stacerny (19 Απρ 2014)

Αυτό το άρθρο είναι αφιερωμένο στη μελέτη των μεθόδων για την απεικόνιση της γνώσης που περικλείονται σε ένα συνεδριακό νευρικό δίκτυο. Οι συγγραφείς προσφέρουν δύο τρόπους απεικόνισης με βάση την καταγωγή κλίσης.

Οπτικοποίηση μοντέλου κλάσης

Λοιπόν, φανταστείτε ότι έχουμε ένα εκπαιδευμένο νευρικό δίκτυο για την επίλυση του καθήκοντος ταξινόμησης για ορισμένους αριθμούς τάξεων. Υποδηλώνουν με την αξία της ενεργοποίησης του νευρώνα εξόδου, η οποία αντιστοιχεί στην τάξη ΝΤΟ.. Στη συνέχεια, το επόμενο έργο της βελτιστοποίησης μας δίνει ακριβώς την εικόνα που μεγιστοποιεί την επιλεγμένη κλάση:

Αυτή η εργασία είναι εύκολη να αποφασίσετε χρησιμοποιώντας το Theano. Συνήθως ζητάμε από το πλαίσιο να πάρει ένα παράγωγο σύμφωνα με τις παραμέτρους του μοντέλου, αλλά αυτή τη φορά πιστεύουμε ότι οι παράμετροι είναι σταθερές και το παράγωγο λαμβάνεται μέσω της εικόνας εισόδου. Η ακόλουθη λειτουργία επιλέγει τη μέγιστη τιμή του στρώματος εξόδου και επιστρέφει μια λειτουργία που υπολογίζει το παράγωγο της εικόνας εισόδου.

DEF COMPITE_SALLERY_FUNCTUNCE: "" "Συγκρίνετε μια λειτουργία για να υπολογίσετε τους χάρτες solity και τις προβλεπόμενες τάξεις για ένα δεδομένο μίνι μάρκετ των εικόνων εισόδου." "" INP \u003d Net ["Εισαγωγή"]. Input_Var Outp \u003d lasagne.layers.get_output (net ["fc8 "], retalinistic \u003d true) max_outp \u003d t.max (outp, axis \u003d 1) solacer \u003d theano.grad (max_outp.sum (max_outp.sum (), wrt \u003d inp) max_class \u003d t.argmax (outp, axis \u003d 1) Επιστρέψτε το Theano. λειτουργία ()

Πιθανότατα είδατε ασκούμενους παράξενους εικόνες με σκύλους σκύλων - Deepdream. Στο αρχικό άρθρο, οι συγγραφείς χρησιμοποιούν την ακόλουθη διαδικασία για τη δημιουργία εικόνων που μεγιστοποιούν την επιλεγμένη κλάση:

Αρχικοποιήστε την αρχική εικόνα των μηδενικών.
Υπολογίστε την τιμή του παραγώγου σε αυτήν την εικόνα.
Αλλάξτε την εικόνα προσθέτοντας την προκύπτουσα εικόνα από το παράγωγο.
Επιστροφή στο σημείο 2 ή βγείτε από έναν κύκλο.

Τέτοιες αυτές εικόνες λαμβάνονται:

Και αν αρχικοποιήσετε την πρώτη εικόνα μιας πραγματικής φωτογραφίας και εκτελέστε την ίδια διαδικασία; Αλλά σε κάθε επανάληψη, θα επιλέξουμε μια τυχαία τάξη, θα επαναφέρετε το υπόλοιπο και θα υπολογίσετε την τιμή του παραγώγου, τότε θα είναι ένα τόσο βαθύ όνειρο.

Προσοχή 60 MB

Γιατί τόσα πολλά σκυλιά και τα μάτια; Όλα είναι απλά: σε περίπτωση σχεδόν 200 σκύλων από 1000 μαθήματα, έχουν μάτια. Καθώς και πολλές τάξεις όπου οι άνθρωποι απλά έχουν.

Εκχύλιση ταξικής καταστροφής

Εάν αυτή η διαδικασία αρχικοποιηθεί από την πραγματική φωτογραφία, σταματήστε μετά την πρώτη επανάληψη και αρνείται την αξία του παραγώγου, τότε θα λάβουμε μια τέτοια εικόνα προσθέτοντας το οποίο στην αρχική, θα αυξήσουμε την αξία της ενεργοποίησης της επιλεγμένης κλάσης .

Χαρακτηριστικά Χάρτες που χρησιμοποιούν παράγωγο

Και πάλι το αποτέλεσμα "SO-SO". Είναι σημαντικό να σημειωθεί ότι αυτός είναι ένας νέος τρόπος για να απεικονίσουμε τις ενεργοποιήσεις (τίποτα δεν μας εμποδίζει να στερεώσουμε τις τιμές ενεργοποίησης όχι στο τελευταίο στρώμα, αλλά γενικά σε οποιοδήποτε στρώμα του δικτύου και να πάρετε ένα παράγωγο της εικόνας εισόδου). Το επόμενο άρθρο θα συνδυάσει και τις δύο προηγούμενες προσεγγίσεις και μας δίνει ένα εργαλείο για να προσαρμόσετε την υπηρεσία μεταφοράς με το στυλ που θα περιγραφεί αργότερα.

Σειρά για απλότητα: Όλο το Convolutional Net (13 Απριλίου 2015)

Αυτό το άρθρο γενικά όχι για την απεικόνιση, αλλά ότι η αντικατάσταση της περιστασίας pullea με ένα μεγάλο άχυρο δεν οδηγεί σε απώλεια ποιότητας. Αλλά ως υποπροϊόν της έρευνάς τους, οι συγγραφείς προσέφεραν έναν νέο τρόπο οπτικοποίησης του χαρακτηριστικού, το οποίο εφαρμόστηκαν σε μια ακριβέστερη ανάλυση του τι μάθει το μοντέλο. Η ιδέα τους έχει ως εξής: Εάν απλά πάρουμε ένα παράγωγο, στη συνέχεια με αποσυνδέσεις, τα χαρακτηριστικά που ήταν στην εικόνα εισόδου είναι μικρότερη από το μηδέν (η χρήση του Relu για την εικόνα εισόδου) δεν είναι πίσω κατά τη διάρκεια της αποσύνθεσης. Και αυτό οδηγεί στο γεγονός ότι οι αρνητικές τιμές εμφανίζονται στην επέκταση της εικόνας. Από την άλλη πλευρά, αν χρησιμοποιείτε το DeconVnet, τότε ένα άλλο Relu λαμβάνεται από το παράγωγο Relu - σας επιτρέπει να μην περάσετε τις αρνητικές τιμές, αλλά όπως είδατε το αποτέλεσμα, αποδεικνύεται "έτσι". Αλλά τι γίνεται αν συνδυάζετε αυτές τις δύο μεθόδους;

Κατηγορία Κατασκευής (MODIFIEDBACKPROP): DEF grad (self, είσοδοι, out_grads): (INP,) \u003d εισόδους (GRD,) \u003d OUT_GRADS DTYPE \u003d INP.DTYPE RETURN (GRD * (INP\u003e 0). Δυστυχώς (GRD) \u003e 0) .Συκλικό (DTYPE),)

Στη συνέχεια, αποδεικνύεται μια εντελώς καθαρή και ερμηνεία εικόνα.

Χαρακτηριστικά Χάρτες που χρησιμοποιούν καθοδηγούμενη backpropagation

Πήγαινε βαθύτερα.

Τώρα ας το σκεφτόμαστε, τι μας δίνει; Επιτρέψτε μου να σας υπενθυμίσω ότι κάθε στρώμα προγύμνασης είναι μια συνάρτηση που λαμβάνει έναν τρισδιάστατο tensor και μια έξοδος στην έξοδο δίνει επίσης ένα τρισδιάστατο tensor, ίσως μια άλλη διαστατική ΡΕ. Χ. w. Χ. Η.; ΡΕ.Το ΕΘΑ είναι ο αριθμός των νευρώνων στο στρώμα, καθένας από αυτούς παράγει ένα πιάτο (χάρτης χαρακτηριστικών) w.igth x. Η.ΟΚΤΩ.

Ας προσπαθήσουμε να κρατήσουμε το ακόλουθο πείραμα στο δίκτυο VGG-19:

conv1_2.

Ναι, σχεδόν δεν βλέπετε τίποτα, γιατί Η περιοχή συνταγών είναι πολύ μικρή, αυτή είναι η δεύτερη συνέλιξη του 3x3, αντίστοιχα, η συνολική περιοχή είναι 5x5. Αλλά η αύξηση, θα δούμε ότι το χαρακτηριστικό είναι απλά ένας ανιχνευτής κλίσης.

conv3_3.

conv4_3.

conv5_3.

pool5.

Και τώρα θα φανταστούμε ότι αντί για ένα μέγιστο σε μια επιδρομή, θα πάρουμε την παράγωγη αξία όλων των στοιχείων των ζαριών στην εικόνα εισόδου. Τότε προφανώς η περιοχή συνταγής της ομάδας νευρώνων θα καλύψει όλη την εικόνα εισόδου. Για τα πρώτα στρώματα, θα δούμε φωτεινά κάρτες από τα οποία καταλήγουμε στο συμπέρασμα ότι αυτοί είναι ανιχνευτές λουλουδιών, στη συνέχεια, οι κλίσεις, στη συνέχεια τα σύνορα και ούτω καθεξής προς την κατεύθυνση της επιπλοκής των μοτίβων. Το βαθύτερο το στρώμα, τόσο πιο θαμπό εικόνα αποδεικνύεται. Αυτό εξηγείται από το γεγονός ότι τα βαθύτερα στρώματα, ένα πιο περίπλοκο μοτίβο, το οποίο ανιχνεύουν και το σύνθετο πρότυπο εμφανίζονται λιγότερο συχνά, το απλό, επομένως, ο χάρτης ενεργοποίησης στερεώνεται. Η πρώτη μέθοδος είναι κατάλληλη για την κατανόηση των στρωμάτων με σύνθετα πρότυπα και το δεύτερο είναι μόνο για απλό.

conv1_1

conv2_2.

conv4_3.

Μπορείτε να κατεβάσετε μια πιο ολοκληρωμένη βάση δεδομένων ενεργοποίησης για πολλές εικόνες και.

Ένας νευρικός αλγόριθμος καλλιτεχνικού στυλ (2 Σεπ 2015)

Έτσι, πέρασε μερικά χρόνια από τη στιγμή της πρώτης επιτυχημένης περιστροφής του νευρικού δικτύου. Εμείς (με την έννοια - στην ανθρωπότητα) υπάρχει ένα ισχυρό εργαλείο στα χέρια, γεγονός που καθιστά δυνατή την κατανόηση του τι μαθαίνει το νευρικό δίκτυο και επίσης να αφαιρέσει αυτό που δεν θα το θέσουμε πραγματικά να μάθουν. Οι συγγραφείς αυτού του άρθρου αναπτύσσουν μια μέθοδο που επιτρέπει σε μια εικόνα να δημιουργήσει μια παρόμοια κάρτα ενεργοποίησης για μια εικόνα στόχου και ίσως ούτε ένα πράγμα - αυτή είναι η βάση του στυλιζαριστή. Σερβίρουμε λευκό θόρυβο στην είσοδο και μια παρόμοια επαναληπτική διαδικασία όπως στο Deep Dream, παρουσιάζουμε αυτήν την εικόνα σε αυτό το οποίο τα σημάδια των σημείων είναι παρόμοια με την εικόνα στόχου.

Απώλεια περιεχομένου.

Όπως ήδη αναφέρθηκε, κάθε στρώμα του νευρικού δικτύου παράγει τρισδιάστατο tensor κάποια διάσταση.

Υποδηλώνει ως ΕΓΩ.Στρώμα από την είσοδο ως. Στη συνέχεια, αν ελαχιστοποιήσουμε τις σταθμισμένες διαφορές αθροίσματος μεταξύ της εικόνας εισόδου και κάποια εικόνα στην οποία αγωνιζόμαστε ΝΤΟ., τότε αποδεικνύεται ακριβώς τι χρειάζεστε. Πιθανώς.

Για πειράματα με αυτό το άρθρο, αυτός ο μαγικός φορητός υπολογιστής μπορεί να χρησιμοποιηθεί, συμβαίνουν υπολογισμοί εκεί (τόσο στο GPU όσο και στην CPU). Η GPU χρησιμοποιείται για τον υπολογισμό της δυνατότητας του νευρικού δικτύου και της αξίας της λειτουργίας κόστους. Το Theano δίνει μια συνάρτηση που μπορεί να υπολογίσει την κλίση της λειτουργίας στόχου eval_grad. Στην εικόνα εισόδου Χ.. Στη συνέχεια, όλα αυτά σερβίρονται σε LBFGS και ξεκινά η επαναληπτική διαδικασία.

# Αρχικοποιήστε με μια εικόνα θορύβου που δημιουργείται_image.Set_Value (floatx (np.random.uniform (-128, 128, (1, 3, image_w, image_w)))))) x0 \u003d generated_image.get_value (). Astype ("float64") xs \u003d xs.Append (x0) # βελτιστοποιήστε, αποθηκεύοντας το αποτέλεσμα περιοδικά για i in range (8): εκτύπωση (i) scipy.optimize.fmin_l_bfgs_b (eval_loss, x0.flatten (), fprime \u003d eval_grad, maxfun \u003d 40) x0 \u003d generated_image.get_value (). Astype ("float64") xs.Append (x0)

Αν ξεκινήσουμε τη βελτιστοποίηση μιας τέτοιας συνάρτησης, τότε παίρνουμε γρήγορα μια εικόνα παρόμοια με τον στόχο. Τώρα μπορούμε να αναδημιουργήσουμε εικόνες παρόμοιες με κάποια εικόνα περιεχομένου.

Απώλεια περιεχομένου: CONV4_2

Βελτιστοποίηση της διαδικασίας

Εύκολο να παρατηρήσετε δύο χαρακτηριστικά της ληφθείσας εικόνας:

Τα χρώματα χάθηκαν - αυτό είναι το αποτέλεσμα του γεγονότος ότι σε ένα συγκεκριμένο παράδειγμα χρησιμοποιείται μόνο ένα στρώμα conv4_2 (ή, με άλλες λέξεις, το βάρος W χρησιμοποιήθηκε μαζί του και για τα υπόλοιπα μηδενικά στρώματα). Όπως θυμάσαι, είναι τα πρώτα στρώματα που περιέχουν πληροφορίες σχετικά με τα χρώματα και τις μεταβάσεις κλίσης και αργότερα περιέχουν πληροφορίες σχετικά με μεγαλύτερα αντικείμενα που παρατηρούμε - τα χρώματα χάνονται και δεν υπάρχει περιεχόμενο.
Ορισμένα σπίτια "πήγαν", δηλ. Οι ευθείες γραμμές ελαφρώς στριμμένες - αυτό οφείλεται στο γεγονός ότι το βαθύτερο στρώμα, οι λιγότερες πληροφορίες σχετικά με τη χωρική θέση της δυνατότητας περιέχονται (το αποτέλεσμα της χρήσης δέσμης και βράχων).

Η προσθήκη πρώιμων στρωμάτων διορθώνει αμέσως την κατάσταση με τα λουλούδια.

Απώλεια περιεχομένου: CONV1_1, CONV2_1, CONV4_2

Ελπίζω για αυτό το σημείο αισθανθήκατε ότι μπορείτε να διαχειριστείτε τι θα διαστρεβλωθεί σε μια εικόνα από λευκό θόρυβο.

Απώλεια στυλ.

Και έτσι φτάσαμε στο πιο ενδιαφέρον: Τι γίνεται με εμάς να περάσουμε το ύφος; Τι είναι το στυλ; Προφανώς, το στυλ δεν είναι ότι βελτιστοποιήσαμε στην απώλεια περιεχομένου "E, επειδή υπάρχουν πολλές πληροφορίες σχετικά με τις χωρικές θέσεις των χαρακτηριστικών. Έτσι το πρώτο πράγμα που πρέπει να γίνει είναι με οποιονδήποτε τρόπο να καταργήσετε αυτές τις πληροφορίες από τις αναπαραστάσεις που αποκτήθηκαν κάθε στρώμα.

Ο συγγραφέας προσφέρει τον ακόλουθο τρόπο. Παίρνουμε ένα Tensor στην έξοδο από κάποιο στρώμα, θα επεκτατήσουμε τις χωρικές συντεταγμένες και θα εξετάσουμε το Matrix Covariance μεταξύ των μήτρων. Υποδηλώνουν αυτή τη μετατροπή ως ΣΟΛ.. Τι κάνουμε πραγματικά; Μπορεί να ειπωθεί ότι μετρήσαμε πόσο συχνά σημάδια μέσα στα ζάρια βρίσκονται σε ζεύγη ή, με άλλα λόγια, προσεγγίζαμε την κατανομή των σημείων στη μήτρα με μια πολυδιάστατη κανονική κατανομή.

Στη συνέχεια, η απώλεια στυλ εισάγεται ως εξής, όπου ΜΙΚΡΟ. - Αυτή είναι μια εικόνα με στυλ:

Ας προσπαθήσουμε για το Vincent; Παίρνουμε, κατ 'αρχήν, κάτι που αναμένεται είναι ο θόρυβος στο στυλ του Van Gogh, οι πληροφορίες σχετικά με τη χωρική θέση των χαρακτηριστικών είναι εντελώς χαμένες.

Βικέντιος

Και τι γίνεται αν βάζετε μια φωτογραφία αντί για το στυλ; Αποδεικνύεται ότι είναι ήδη γνωστά χαρακτηριστικά, γνωστά χρώματα, αλλά η χωρική θέση χαθεί εντελώς.

Φωτογραφία με απώλεια στυλ

Σίγουρα αναρωτιέστε, γιατί υπολογίζουμε το Matrix Covariance, και όχι κάτι άλλο; Μετά από όλα, υπάρχουν πολλοί τρόποι για τη συσχέτιση των σημείων, ώστε να χαθούν χωρικές συντεταγμένες. Αυτό είναι πραγματικά μια ανοιχτή ερώτηση, και αν πάρετε κάτι πολύ απλό, τότε το αποτέλεσμα δεν θα αλλάξει δραματικά. Ας το ελέγξουμε, θα υπολογίσουμε τη μήτρα της συνδιακύμανσης, αλλά απλά η μέση τιμή κάθε ζαριά.

Απλή απώλεια στυλ

Συνδυασμένη απώλεια

Φυσικά, προκύπτει η επιθυμία να αναμίξει αυτές τις δύο λειτουργίες του κόστους. Στη συνέχεια, θα δημιουργήσουμε από το λευκό θόρυβο ότι θα υπάρχουν σημάδια από την εικόνα του περιεχομένου (που έχουν δεσμευτική σε χωρικές συντεταγμένες) και θα υπάρχουν σημάδια "στυλ που δεν συνδέονται με χωρικές συντεταγμένες, δηλ. Ελπίζουμε ότι οι λεπτομέρειες του περιεχομένου του περιεχομένου θα παραμείνουν άθικτες από τα μέρη τους, αλλά θα επαναληφθούν με το επιθυμητό στυλ.

Στην πραγματικότητα, υπάρχει επίσης ένας κανονιστής, αλλά θα το ορίσουμε για απλότητα. Παραμένει η απάντηση στην επόμενη ερώτηση: Τι είδους στρώματα (βάρος) χρησιμοποιούν κατά τη βελτιστοποίηση; Και φοβάμαι ότι δεν έχω απάντηση σε αυτή την ερώτηση και τους συγγραφείς του άρθρου επίσης. Έχουν μια πρόταση να χρησιμοποιήσουν τα εξής, αλλά δεν σημαίνει καθόλου ότι ένας άλλος συνδυασμός θα λειτουργήσει χειρότερα, πάρα πολύ χώρο αναζήτησης. Ο μόνος κανόνας που ακολουθεί από την κατανόηση του μοντέλου: δεν έχει νόημα να λαμβάνουν τα γειτονικά στρώματα, επειδή Δεν θα διαφέρουν τα σημάδια ο ένας από τον άλλο, επειδή το στυλ προστίθεται μέσω στρώματος από κάθε ομάδα CONV * _1.

# Ορίστε απώλειες απώλειας απώλειας \u003d # απώλειες απώλειας περιεχομένου.Append (0.001 * content_loss (photo_features, gen_features, "conv4_2")) # απώλειες απώλειας στυλ.append (0.2E6 * style_loss (art_features, gen_features, "conv1_1")) losses.append (Art_features, gen_features, "conv2_1")) losses.Append (0.2E6 * style_loss (art_features, gen_features, "conv3_1)) losses.Append (0.2E6 * STYLOSS (ART_FEATURES, GEN_FEATURES," CONV4_1 ")) Απώλειες (Conv4_1)) 0.2E6 * STYLOSH_LOSS (ART_FEATURES, GEN_FEATURES, "CONV5_1")) # Συνολικές απώλειες ποινής παραλλαγής.Append (0.1E-7 * Total_Variation_Loss (Generated_image)) Total_loss \u003d

Το τελικό μοντέλο μπορεί να αναπαρασταθεί στην παρακάτω φόρμα.

Αλλά το αποτέλεσμα των σπιτιών με το Van Gogh.

Προσπαθήστε να ελέγξετε τη διαδικασία

Ας θυμηθούμε τα προηγούμενα μέρη, ήδη δύο χρόνια πριν από το τρέχον άρθρο, άλλοι επιστήμονες διερεύνησαν τι μαθαίνει πραγματικά το νευρικό δίκτυο. Οπλισμένοι με όλα αυτά τα άρθρα, μπορείτε να θεραπεύσετε την απεικόνιση των χαρακτηριστικών των διαφόρων στυλ, διάφορες εικόνες, διάφορες άδειες και μεγέθη και προσπαθήστε να κατανοήσετε ποια στρώματα με το βάρος που πρέπει να πάρετε. Αλλά ακόμη και το πλακίδιο των στρωμάτων δεν ελέγχει πλήρως τι συμβαίνει. Το πρόβλημα εδώ είναι πιο εννοιολογικό: Δεν βελτιστοποιούμε αυτή τη λειτουργία! Πώς ρωτάς; Η απάντηση είναι απλή: αυτή η λειτουργία ελαχιστοποιεί ένα υπόλοιπο ... καλά, καταλαβαίνετε. Αλλά τι θέλουμε πραγματικά είναι ότι μας αρέσει η εικόνα. Ο κυρτός συνδυασμός χαρακτηριστικών περιεχομένου και απώλειας στυλ δεν αποτελεί μέτρο του γεγονότος ότι το μυαλό μας θεωρεί όμορφο. Σημειώθηκε ότι αν συνεχίσετε να ορίζετε για πολύ καιρό, η λειτουργία κόστους φυσικά πέφτει κάτω και κάτω, αλλά η αισθητική ομορφιά του αποτελέσματος πέφτει απότομα.

Λοιπόν, εντάξει, υπάρχει ένα άλλο πρόβλημα. Ας υποθέσουμε ότι βρήκαμε ένα στρώμα που αφαιρεί τα σημάδια που χρειάζεστε. Ας υποθέσουμε μερικές τριγωνικές υφές. Αλλά αυτό το στρώμα εξακολουθεί να περιέχει πολλά άλλα σημάδια, όπως κύκλους που δεν θέλουμε πραγματικά να δούμε στην προκύπτουσα εικόνα. Σε γενικές γραμμές, αν μπορούσατε να προσλάβετε ένα εκατομμύριο κινέζικα, θα μπορούσατε να απεικονίσετε όλα τα χαρακτηριστικά του στυλ του στυλ και η πλήρης ευημερία απλά σημειώστε αυτά που χρειαζόμαστε και μόνο τα συμπεριλάβετε στη λειτουργία κόστους. Αλλά για προφανείς λόγους, αυτό δεν είναι τόσο απλό. Αλλά τι γίνεται αν απλά διαγράψουμε όλους τους κύκλους που δεν θέλουμε να δούμε το αποτέλεσμα, από το στυλ του στυλ; Στη συνέχεια, απλά δεν λειτουργούν ενεργοποιούν τους αντίστοιχους νευρώνες που αντιδρούν στους κύκλους. Και, φυσικά, στη συνέχεια στην προκύπτουσα εικόνα που δεν θα εμφανιστεί. Το ίδιο με λουλούδια. Φανταστείτε μια φωτεινή εικόνα με πολλά χρώματα. Η κατανομή των χρωμάτων θα είναι πολύ λανθασμένη σε όλο το χώρο, το ίδιο θα είναι η κατανομή της προκύπτουσας εικόνας, αλλά στη διαδικασία βελτιστοποίησης, αυτές οι κορυφές που ήταν στο πρωτότυπο πιθανότατα χάνονται. Αποδείχθηκε ότι μια απλή μείωση του χρώματος παλέτας χρώμα επιλύει αυτό το πρόβλημα. Η πυκνότητα διανομής των περισσότερων χρωμάτων θα είναι μηδέν και θα υπάρχουν μεγάλες κορυφές σε διάφορα τμήματα. Έτσι, χειρίζοντας το πρωτότυπο στο Photoshop, χειρίζουμε τα σημάδια που ανακτώνται από την εικόνα. Ένα άτομο είναι πιο εύκολο να εκφράσει τις επιθυμίες του οπτικά από ό, τι προσπαθεί να τα διαμορφώσει στη γλώσσα των μαθηματικών. Μέχρι. Ως αποτέλεσμα, σχεδιαστές και διαχειριστές, οπλισμένοι με το Photoshop και τα σενάρια για την απεικόνιση των σημείων, οι επιτυχημένες φορές τρεις φορές το αποτέλεσμα είναι καλύτερο από τα μαθηματικά με τους προγραμματιστές.

Ένα παράδειγμα χειρισμού του χρώματος και το μέγεθος των χαρακτηριστικών

Και μπορείτε να πάρετε μια απλή εικόνα ως στυλ

Αποτελέσματα

Και εδώ είναι ένα widget, αλλά μόνο με την επιθυμητή υφή

Δίκτυα υφής: Σύνθεση τροφοδοσίας υφών και στυλιζαρισμένων εικόνων (10 Μαρ 2016)

Φαίνεται ότι αυτό θα μπορούσε να σταματήσει, αν όχι μια απόχρωση. Ο αλγόριθμος στυλιζαρισμού που περιγράφεται παραπάνω λειτουργεί για πολύ μεγάλο χρονικό διάστημα. Εάν λάβετε μια συνειδητοποίηση όπου το LBFGS ξεκινάει από την CPU, η διαδικασία διαρκεί πέντε λεπτά. Εάν ξαναγράψετε έτσι ώστε τόσο η βελτιστοποίηση να πηγαίνει στη GPU, η διαδικασία θα διαρκέσει 10-15 δευτερόλεπτα. Δεν είναι καλό πουθενά. Ίσως οι συγγραφείς αυτού και το επόμενο άρθρο σκέφτηκαν για το ίδιο. Και οι δύο δημοσιεύσεις βγήκαν ανεξάρτητα με τη διαφορά των 17 ημερών, μετά από σχεδόν ένα χρόνο μετά το προηγούμενο άρθρο. Οι συντάκτες του σημερινού άρθρου, καθώς και οι συντάκτες του προηγούμενου, ασχολήθηκαν με τη δημιουργία υφών (αν απλά επαναφέρετε την απώλεια στυλ περίπου θα πετύχει). Προσφέρθηκαν να βελτιστοποιήσουν όχι μια εικόνα που ελήφθη από το λευκό θόρυβο, αλλά κάποιο νευρικό δίκτυο που δημιουργεί μια στυλιζαρισμένη εικόνα.

Τώρα, εάν η διαδικασία Stylization δεν περιλαμβάνει οποιαδήποτε βελτιστοποίηση, απαιτείται μόνο ένα άμεσο πέρασμα. Και η βελτιστοποίηση απαιτείται μόνο μία φορά για την προπόνηση μιας γεννήτριας δικτύου. Αυτό το άρθρο χρησιμοποιεί μια ιεραρχική γεννήτρια, όπου κάθε επόμενο z. Το μέγεθος είναι μεγαλύτερο από το προηγούμενο και το Secessable από το θόρυβο στην περίπτωση της δημιουργίας υφής και από μια συγκεκριμένη βάση εικόνας για έναν στυλίστα. Είναι κρίσιμο να χρησιμοποιήσετε κάτι διαφορετικό από το εκπαιδευτικό τμήμα του IMAJNE, επειδή Τα χαρακτηριστικά μέσα στο δίκτυο απώλειας υπολογίζονται από το δίκτυο που εκπαιδεύεται ακριβώς στο εκπαιδευτικό τμήμα.

Αντιληπτικές απώλειες για μεταφορά στυλ σε πραγματικό χρόνο και σούπερ ανάλυση (27 Μαρ 2016)

Όπως φαίνεται από το όνομα, οι συγγραφείς που καθυστέρησαν μόνο για 17 ημέρες με την ιδέα του δικτύου δημιουργίας ασχολήθηκαν με αύξηση της ανάλυσης της εικόνας. Προφανώς εμπνεύστηκαν από την επιτυχία της υπολειμματικής μάθησης στο τελευταίο γεγονός.

Συνεπώς, υπολειπόμενο μπλοκ και μπλοκ.

Έτσι, τώρα έχουμε στα χέρια σας εκτός από τον έλεγχο του στυλιζαρίσματος υπάρχει επίσης μια γρήγορη γεννήτρια (χάρη σε αυτά τα δύο άρθρα, ο χρόνος παραγωγής μιας εικόνας μετράται με δεκάδες MS).

Κατάληξη

Πληροφορίες από τα εξεταζόμενα άρθρα και τον κώδικα συγγραφέων που χρησιμοποιήσαμε ως σημείο εκκίνησης για να δημιουργήσουμε μια άλλη αίτηση για το styling της πρώτης εφαρμογής του λογισμικού:

Δημιουργούν κάτι τέτοιο.

Πολυάριθμα και όχι εντελώς διακριτά αποστάγματα εμφανίζονται στις πιο συνηθισμένες φωτογραφίες. Πιο συχνά για κάποιο λόγο σκυλιά. Αυτή η εικόνα του Διαδικτύου άρχισε να συμπληρώνει τον Ιούνιο του 2015, όταν ξεκίνησε η Deepdream από την Google - μία από τις πρώτες ανοικτές υπηρεσίες που βασίζονται σε νευρωνικά δίκτυα και προορίζονται για επεξεργασία εικόνας.

Αυτό συμβαίνει περίπου ως: ο αλγόριθμος αναλύει τις φωτογραφίες, βρίσκει θραύσματα που τον υπενθυμίζουν τα γνωστά αντικείμενα - και στρεβλώνουν την εικόνα σύμφωνα με αυτά τα δεδομένα.

Αρχικά, το έργο δημοσιεύτηκε ως ανοιχτός κώδικας και στη συνέχεια σε απευθείας σύνδεση υπηρεσίες που δημιουργήθηκαν στο Διαδίκτυο, που δημιουργήθηκαν στις ίδιες αρχές. Μία από τις πιο βολικές και πιο δημοφιλές είναι η βαθιά γεννήτρια ονείρου: Μια μικρή επεξεργασία φωτογραφιών εδώ διαρκεί μόνο περίπου 15 δευτερόλεπτα (οι προηγούμενοι χρήστες έπρεπε να περιμένουν περισσότερο από μία ώρα).

Πώς μάθουν τα νευρικά δίκτυα να δημιουργούν τέτοιες εικόνες; Και γιατί, παρεμπιπτόντως, είναι τόσο καλούμενοι;

Τα νευρωνικά δίκτυα στη συσκευή τους μιμούνται πραγματικά νευρωνικά δίκτυα ενός ζωντανού οργανισμού, αλλά το κάνουν με τη βοήθεια μαθηματικών αλγορίθμων. Δημιουργώντας μια βασική δομή, μπορείτε να το εκπαιδεύσετε σύμφωνα με τις μεθόδους μάθησης μηχανών. Αν μιλάμε για την αναγνώριση εικόνων, τότε χιλιάδες εικόνες πρέπει να παραλειφθούν μέσω του νευρικού δικτύου. Εάν το έργο της νευροδείας είναι διαφορετικό, τότε οι ασκήσεις κατάρτισης θα είναι διαφορετικές.

Αλγόριθμοι για την αναπαραγωγή σκακιού, για παράδειγμα, αναλύστε τα παιχνίδια σκακιού. Ο ίδιος αλγόριθμος Alphago από το Google Deepmind στο κινεζικό παιχνίδι Go - το οποίο θεωρήθηκε ως μια σημαντική ανακάλυψη, αφού είναι πολύ πιο δύσκολη και αξίζει περισσότερο από το σκάκι.

Παίζοντας με ένα απλοποιημένο μοντέλο νευρωνικού δικτύου και είναι καλύτερα να κατανοήσουμε τις αρχές της.

Το YouTube έχει επίσης μια σειρά εξατομικευμένων χεριών Κυλίνδρων Για το πώς λειτουργούν τα νευρικά δίκτυα.

Μια άλλη δημοφιλής εξυπηρέτηση είναι το Dreamscope, το οποίο δεν μπορεί μόνο να ονειρεύεται τα σκυλιά, αλλά και διάφορα γραφικά στυλ. Επεξεργασία εικόνας Εδώ εμφανίζεται επίσης πολύ απλή και γρήγορα (περίπου 30 δευτερόλεπτα).

Προφανώς, το αλγοριθμικό τμήμα της υπηρεσίας είναι μια τροποποίηση του προγράμματος νευρωνικού στυλ, το οποίο είμαστε ήδη.

Πιο πρόσφατα υπήρχε ένα πρόγραμμα που ζωγραφίζει ρεαλιστικά τις ασπρόμαυρες εικόνες. Σε προηγούμενες εκδόσεις, παρόμοια προγράμματα αντιμετώπισαν την εργασία τους πολύ μακριά και θεωρήθηκαν ένα μεγάλο επίτευγμα, εάν τουλάχιστον το 20% των ανθρώπων δεν μπορούν να διακρίνουν μια πραγματική εικόνα από την εικόνα που ζωγραφίζεται από τον υπολογιστή.

Επιπλέον, ο χρωματισμός εδώ διαρκεί μόνο 1 λεπτό.

Η ίδια εταιρεία ανάπτυξης ξεκίνησε επίσης μια υπηρεσία που αναγνωρίζει διαφορετικούς τύπους αντικειμένων σε εικόνες.

Αυτές οι υπηρεσίες μπορεί να φαίνονται απλά αστεία ψυχαγωγία, αλλά στην πραγματικότητα όλα είναι πολύ πιο ενδιαφέροντα. Οι νέες τεχνολογίες περιλαμβάνονται στην πρακτική των καλλιτεχνών των ανθρώπων και αλλάζουν τις ιδέες μας για την τέχνη. Πιθανώς, σύντομα οι άνθρωποι θα πρέπει να ανταγωνίζονται τα αυτοκίνητα και στον τομέα της δημιουργικότητας.

Διδάξτε τους αλγόριθμους να αναγνωρίσουν τις εικόνες - την εργασία κατά την οποία οι προγραμματιστές της τεχνητής νοημοσύνης αγωνίζονται από καιρό. Ως εκ τούτου, τα προγράμματα που οι παλιές εικόνες χρωμάτων σχεδιάζονται στον ουρανό των σκύλων μπορούν να θεωρηθούν μέρος μιας μεγαλύτερης και περίπλοκης διαδικασίας.