推薦課程
average > 0 ? $model->average . '分' : '10.0分' ?>

視覺問答與對(duì)話系統(tǒng)的新技術(shù)進(jìn)展

北京航空航天大學(xué) 副教授

秦曾昌,北京航空航天大學(xué)自動(dòng)化科學(xué)與電氣工程學(xué)院教授,教育部新世紀(jì)優(yōu)秀人才。英國布里斯托(Bristol)大學(xué)機(jī)器學(xué)習(xí)與人工智能方向碩士、博士。美國加州大學(xué)伯克利分校 (UC Berkeley) 博士后、牛津 (Oxford) 大學(xué)與卡內(nèi)基梅隆大學(xué) (CMU) 訪問學(xué)者。目前主要研究方向?yàn)槿斯ぶ悄?、機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘、跨媒體檢索與自然語言理解。主持過國家自然基金在內(nèi)的省部級(jí)基金10余項(xiàng),出版英文專著1本、發(fā)表包括T-IP, T-Multimedia, Information Fusion, AAAI, IJCAI, MM,CVPR, EMNLP等專業(yè)期刊或會(huì)議論文近 130余篇。 是我國第一次太空授課專家組成員,也是青少年科技創(chuàng)新大賽、機(jī)器人大賽、宋慶齡發(fā)明獎(jiǎng)等國內(nèi)外很多青少年科技比賽的評(píng)審專家,開展網(wǎng)絡(luò)科普獲得搜狐視頻2023年百大播主稱號(hào)。

秦曾昌,北京航空航天大學(xué)自動(dòng)化科學(xué)與電氣工程學(xué)院教授,教育部新世紀(jì)優(yōu)秀人才。英國布里斯托(Bristol)大學(xué)機(jī)器學(xué)習(xí)與人工智能方向碩士、博士。美國加州大學(xué)伯克利分校 (UC Berkeley) 博士后、牛津 (Oxford) 大學(xué)與卡內(nèi)基梅隆大學(xué) (CMU) 訪問學(xué)者。目前主要研究方向?yàn)槿斯ぶ悄?、機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘、跨媒體檢索與自然語言理解。主持過國家自然基金在內(nèi)的省部級(jí)基金10余項(xiàng),出版英文專著1本、發(fā)表包括T-IP, T-Multimedia, Information Fusion, AAAI, IJCAI, MM,CVPR, EMNLP等專業(yè)期刊或會(huì)議論文近 130余篇。 是我國第一次太空授課專家組成員,也是青少年科技創(chuàng)新大賽、機(jī)器人大賽、宋慶齡發(fā)明獎(jiǎng)等國內(nèi)外很多青少年科技比賽的評(píng)審專家,開展網(wǎng)絡(luò)科普獲得搜狐視頻2023年百大播主稱號(hào)。

課程費(fèi)用

6800.00 /人

課程時(shí)長(zhǎng)

50分鐘以下及更短時(shí)間

成為教練

課程簡(jiǎn)介

案例背景:
對(duì)于跨模態(tài)信息的處理是目前很多推薦、廣告、檢索等智能系統(tǒng)的核心問題之一,尤其是針對(duì)跨模態(tài)的問答與對(duì)話技術(shù)。我們將討論如何應(yīng)用深度學(xué)習(xí)模型對(duì)視覺問答系統(tǒng)于視覺對(duì)話系統(tǒng)提出新的技術(shù)解決方案。

解決思路:
我們將討論利用多模態(tài)信息的融合、圖卷積模型來設(shè)計(jì)相應(yīng)的對(duì)話系統(tǒng)與問答系統(tǒng)。并考慮如何更好的利用知識(shí)圖譜與先驗(yàn)的關(guān)系信息。

成果:
研究成果已經(jīng)發(fā)布了國際同行認(rèn)可的頂級(jí)期刊和會(huì)議。期待在實(shí)際工業(yè)落地的應(yīng)用。
Jing Yu, Weifeng Zhang, Yuhang Lu, Zengchang Qin, Yue Hu, Jianlong Tan, Qi Wu (2020), Reasoning on the relation: enhancing visual representation for visual question answering and cross-modal retrieval, IEEE Transaction on Multimedia (IF=5.452).
3. Weifeng Zhang, Jing Yu, Hua Hu, Haiyang Hu, Zengchang Qin (2020), Multimodal feature fusion by relational reasoning and attention for visual question answering, Information Fusion (IF=10.716), Vol. 55: pp. 116-126.
Xiaoze Jiang, Jing Yu, Zengchang Qin, Yingying Zhuang, Xingxing Zhang, Yue Hu and Qi Wu (2020), DualVD: An adaptive dual encoding model for deep visual understanding in visual dialogue, Proceedings of National Conference on Artificial Intelligence (AAAI-2020)

目標(biāo)收益

1 了解視覺問答系統(tǒng)技術(shù)的發(fā)展與前沿 2 了解最新關(guān)于視覺對(duì)話的研究工作 3 了解設(shè)計(jì)智能對(duì)話和問答系統(tǒng)的核心算法。

培訓(xùn)對(duì)象

課程內(nèi)容

案例方向


智能語音/NLP/推薦/廣告系統(tǒng)實(shí)戰(zhàn)/計(jì)算機(jī)視覺

案例背景


對(duì)于跨模態(tài)信息的處理是目前很多推薦、廣告、檢索等智能系統(tǒng)的核心問題之一,尤其是針對(duì)跨模態(tài)的問答與對(duì)話技術(shù)。我們將討論如何應(yīng)用深度學(xué)習(xí)模型對(duì)視覺問答系統(tǒng)于視覺對(duì)話系統(tǒng)提出新的技術(shù)解決方案。

收益


1 了解視覺問答系統(tǒng)技術(shù)的發(fā)展與前沿 2 了解最新關(guān)于視覺對(duì)話的研究工作 3 了解設(shè)計(jì)智能對(duì)話和問答系統(tǒng)的核心算法。

解決思路


我們將討論利用多模態(tài)信息的融合、圖卷積模型來設(shè)計(jì)相應(yīng)的對(duì)話系統(tǒng)與問答系統(tǒng)。并考慮如何更好的利用知識(shí)圖譜與先驗(yàn)的關(guān)系信息。

結(jié)果


研究成果已經(jīng)發(fā)布了國際同行認(rèn)可的頂級(jí)期刊和會(huì)議。期待在實(shí)際工業(yè)落地的應(yīng)用。
Jing Yu, Weifeng Zhang, Yuhang Lu, Zengchang Qin, Yue Hu, Jianlong Tan, Qi Wu (2020), Reasoning on the relation: enhancing visual representation for visual question answering and cross-modal retrieval, IEEE Transaction on Multimedia (IF=5.452).
3. Weifeng Zhang, Jing Yu, Hua Hu, Haiyang Hu, Zengchang Qin (2020), Multimodal feature fusion by relational reasoning and attention for visual question answering, Information Fusion (IF=10.716), Vol. 55: pp. 116-126.
Xiaoze Jiang, Jing Yu, Zengchang Qin, Yingying Zhuang, Xingxing Zhang, Yue Hu and Qi Wu (2020), DualVD: An adaptive dual encoding model for deep visual understanding in visual dialogue, Proceedings of National Conference on Artificial Intelligence (AAAI-2020)

課程費(fèi)用

6800.00 /人

課程時(shí)長(zhǎng)

50分鐘以下及更短時(shí)間

預(yù)約體驗(yàn)票 我要分享

近期公開課推薦

近期公開課推薦

活動(dòng)詳情

提交需求