About: Audio-visual speech recognition

An Entity of Type: Application106570110, from Named Graph: http://dbpedia.org, within Data Space: dbpedia.org:8891

Audio visual speech recognition (AVSR) is a technique that uses image processing capabilities in lip reading to aid speech recognition systems in recognizing undeterministic phones or giving preponderance among near probability decisions.

Property	Value
dbo:abstract	Audio visual speech recognition (AVSR) is a technique that uses image processing capabilities in lip reading to aid speech recognition systems in recognizing undeterministic phones or giving preponderance among near probability decisions. Each system of lip reading and speech recognition works separately, then their results are mixed at the stage of . As the name suggests, it has two parts. First one is the audio part and second one is the visual part. In audio part we use features like log mel spectrogram, mfcc etc. from the raw audio samples and we build a model to get feature vector out of it . For visual part generally we use some variant of convolutional neural network to compress the image to a feature vector after that we concatenate these two vectors (audio and visual ) and try to predict the target object. (en)
dbo:wikiPageExternalLink	https://ai.googleblog.com/2018/04/looking-to-listen-audio-visual-speech.html https://arxiv.org/abs/1804.03619 https://web.archive.org/web/20060910004053/http:/www.research.ibm.com/AVSTG/
dbo:wikiPageID	6990718 (xsd:integer)
dbo:wikiPageLength	1388 (xsd:nonNegativeInteger)
dbo:wikiPageRevisionID	1111446148 (xsd:integer)
dbo:wikiPageWikiLink	dbc:Multimodal_interaction dbr:Lip_reading dbc:Applications_of_computer_vision dbr:Speech_recognition dbc:Computational_linguistics dbc:Speech_recognition dbr:Phone_(phonetics) dbr:Image_processing dbr:Feature_fusion
dbp:wikiPageUsesTemplate	dbt:Comp-ling-stub
dcterms:subject	dbc:Multimodal_interaction dbc:Applications_of_computer_vision dbc:Computational_linguistics dbc:Speech_recognition
rdf:type	yago:WikicatApplicationsOfComputerVision yago:Abstraction100002137 yago:Application106570110 yago:Code106355894 yago:CodingSystem106353757 yago:Communication100033020 yago:Program106568978 yago:Writing106359877 yago:WrittenCommunication106349220 yago:Software106566077
rdfs:comment	Audio visual speech recognition (AVSR) is a technique that uses image processing capabilities in lip reading to aid speech recognition systems in recognizing undeterministic phones or giving preponderance among near probability decisions. (en)
rdfs:label	Audio-visual speech recognition (en)
owl:sameAs	freebase:Audio-visual speech recognition yago-res:Audio-visual speech recognition wikidata:Audio-visual speech recognition http://su.dbpedia.org/resource/Audio-visual_speech_recognition http://ur.dbpedia.org/resource/سمع_بصری_کلام_شناسی https://global.dbpedia.org/id/4Tijz dbr:Audio-visual speech recognition
prov:wasDerivedFrom	wikipedia-en:Audio-visual_speech_recognition?oldid=1111446148&ns=0
foaf:isPrimaryTopicOf	wikipedia-en:Audio-visual_speech_recognition
is dbo:wikiPageRedirects of	dbr:Visual_speech_recognition dbr:Avsr dbr:Audio_visual_speech_recognition dbr:Audiovisual_speech_recognition dbr:AVSR
is dbo:wikiPageWikiLink of	dbr:Visual_speech_recognition dbr:Speech_recognition dbr:Automated_Lip_Reading dbr:Outline_of_computer_vision dbr:Avsr dbr:Audio_visual_speech_recognition dbr:Audiovisual_speech_recognition dbr:AVSR
is foaf:primaryTopic of	wikipedia-en:Audio-visual_speech_recognition