Academic papers in multimedia | 3,102 results

Name	Publication URL	DOI	Academic Discipline	Author Names
‌ Rethinking Event-based Human Pose Estimation with 3D Event Representations	arxiv.org/pdf/2311.04591.pdf	doi.org/10.48550/arXiv.2311.04591	Computer Vision Computer science Electrical engineering Multimedia Robotics	Hao ShiHuajian NiJiaan ChenKailun YangKaiwei WangXiaoting YinYaozu YeZe Wang
‌ V2A-Mapper: A Lightweight Solution for Vision-to-Audio Generation by Connecting Foundation Models	arxiv.org/pdf/2308.09300.pdf	doi.org/10.48550/arXiv.2308.09300	Computer Vision Artificial Intelligence (AI) Computer science Electrical engineering Multimedia Sound	Heng WangJianbo MaRichard CartwrightSantiago PascualWeidong Cai
‌ Synthesizing Event-centric Knowledge Graphs of Daily Activities Using Virtual Space	arxiv.org/pdf/2307.16206.pdf	doi.org/10.48550/arXiv.2307.16206	Artificial Intelligence (AI) Computer science Database Information retrieval Multimedia	Ken FukudaKoji KitamuraMikiko OonoShusaku EgamiTakanori Ugai
‌ A Unified Framework for Modality-Agnostic Deepfakes Detection	arxiv.org/pdf/2307.14491.pdf	doi.org/10.48550/arXiv.2307.14491	Computer science Electrical engineering Multimedia Sound	Cai YuJiahe TianJiao DaiJin LiuJizhong HanPeng ChenShan JiaSiwei LyuXi WangYesheng Chai
‌ Preventing Unauthorized AI Over-Analysis by Medical Image Adversarial Watermarking	arxiv.org/pdf/2303.09858.pdf	doi.org/10.48550/arXiv.2303.09858	Computer Vision Computer science Electrical engineering Multimedia	Bangzheng PuChen ChiHuazhu FuShiji ZhaoXingxing Wei
‌ PathAsst: Redefining Pathology through Generative Foundation AI Assistant for Pathology	arxiv.org/pdf/2305.15072.pdf	doi.org/10.48550/arXiv.2305.15072	Computer Vision Computer science Multimedia	Chenglu ZhuHonglin LiKai ZhangLin YangRuojia ZhaoSunyi ZhengXiaoxuan YuXinheng LyuYizhi ZhaoYunlong ZhangYuxuan SunZhongyi Shui
‌ A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?	arxiv.org/pdf/2303.11717.pdf	doi.org/10.48550/arXiv.2303.11717	Machine learning Computer Vision Artificial Intelligence (AI) Computer science Multimedia	Chaoning ZhangChenghao LiChenshuang ZhangChoong Seon HongChu Myaet ThwalDonguk kimHeng Tao ShenIn So KweonLe Luang HuyLik-Hang LeeMengchun ZhangSheng ZhengSumit Kumar DamSung-Ho BaeYang YangYe Lin TunYu Qiao
‌ StegoHound: A Novel Multi-Approaches Method for Efficient and Effective Identification and Extraction of Digital Evidence Masked by Steganographic Techniques in WAV and MP3 Files	arxiv.org/pdf/2307.07293.pdf	doi.org/10.48550/arXiv.2307.07293	Computer science Multimedia	Istteffanny I. AraujoMaider D. UribarriMohamed C. GhanemRamzi Djemai
‌ Smartphone Apps for Tracking Food Consumption and Recommendations: Evaluating Artificial Intelligence-based Functionalities, Features and Quality of Current Apps	arxiv.org/pdf/2208.02490.pdf	doi.org/10.48550/arXiv.2208.02490	Computer science Multimedia Software engineering	Anik DasFahmida AhmedMuhammad Ashad KabirSabiha SamadSamsun NaherSheikh Mohammed Shariful IslamSumaiya Amin
‌ VDIP-TGV: Blind Image Deconvolution via Variational Deep Image Prior Empowered by Total Generalized Variation	arxiv.org/pdf/2310.19477.pdf	doi.org/10.48550/arXiv.2310.19477	Computer Vision Computer science Electrical engineering Multimedia	Feng-Lei FanTieyong ZengTingting WuZhi LiZhiyan Du
‌ iReason: Multimodal Commonsense Reasoning using Videos and Natural Language with Interpretability	arxiv.org/pdf/2107.10300.pdf	doi.org/10.48550/arXiv.2107.10300	Machine learning Computer Vision Artificial Intelligence (AI) Computer science Electrical engineering Multimedia	Aman ChadhaVinija Jain
‌ SLMIA-SR: Speaker-Level Membership Inference Attacks against Speaker Recognition Systems	arxiv.org/pdf/2309.07983.pdf	doi.org/10.48550/arXiv.2309.07983	Machine learning Computer science Electrical engineering Multimedia Sound	Fu SongGuangke ChenYedi Zhang
‌ Multimodal foundation models are better simulators of the human brain	arxiv.org/pdf/2208.08263.pdf	doi.org/10.48550/arXiv.2208.08263	Artificial Intelligence (AI) Computer science Multimedia	Changde DuHao SunHaoyu LuHuiguang HeJi-Rong WenJingyuan WenMingyu DingNanyi FeiQiongyi ZhouXin ZhaoZhiwu Lu
‌ Semantically Video Coding: Instill Static-Dynamic Clues into Structured Bitstream for AI Tasks	arxiv.org/pdf/2201.10162.pdf	doi.org/10.48550/arXiv.2201.10162	Computer Vision Computer science Multimedia	Runsen FengRuoyu FengSimeng SunTianyu HeXin JinZhibo Chen
‌ VERITE: A Robust Benchmark for Multimodal Misinformation Detection Accounting for Unimodal Bias	arxiv.org/pdf/2304.14133.pdf	doi.org/10.48550/arXiv.2304.14133	Computer Vision Computer science Multimedia	Christos KoutlisPanagiotis C. PetrantonakisStefanos-Iordanis PapadopoulosSymeon Papadopoulos
‌ Large Multi-modal Encoders for Recommendation	arxiv.org/pdf/2310.20343.pdf	doi.org/10.48550/arXiv.2310.20343	Computer science Information retrieval Multimedia	Craig MacdonaldIadh OunisRichard MccreadieZijun LongZixuan Yi
‌ LiveVV: Human-Centered Live Volumetric Video Streaming System	arxiv.org/pdf/2310.08205.pdf	doi.org/10.48550/arXiv.2310.08205	Computer science Multimedia ‌ Human–computer interaction	Boyan LiFangxin WangHaowen YangJunhua LiuKaiying HanKaiyuan HuYili JinYongting Chen
‌ CPED: A Large-Scale Chinese Personalized and Emotional Dialogue Dataset for Conversational AI	arxiv.org/pdf/2205.14727.pdf	doi.org/10.48550/arXiv.2205.14727	Artificial Intelligence (AI) Computer science Multimedia ‌ Human–computer interaction	Jianxin PangMinlie HuangQianfeng TieWeiquan FanWenjing HanXiangmin XuXiaofen XingYirong Chen
‌ Explainable Recommendation: A Survey and New Perspectives	arxiv.org/pdf/1804.11192.pdf	doi.org/10.48550/arXiv.1804.11192	Artificial Intelligence (AI) Computer science Information retrieval Multimedia	Xu ChenYongfeng Zhang
‌ Multimodal Lecture Presentations Dataset: Understanding Multimodality in Educational Slides	arxiv.org/pdf/2208.08080.pdf	doi.org/10.48550/arXiv.2208.08080	Machine learning Computer Vision Artificial Intelligence (AI) Computer science Multimedia	Chaitanya AhujaDong Won LeeLouis-Philippe MorencyPaul Pu LiangSanika Natu
‌ No-Reference Quality Assessment for 360-degree Images by Analysis of Multi-frequency Information and Local-global Naturalness	arxiv.org/pdf/2102.11393v1	doi.org/10.48550/arXiv.2102.11393	Computer Vision Computer science Electrical engineering Multimedia ‌ Computational geometry	Jiahua XuQiuping JiangWei ZhouZhibo Chen
‌ Narrative Smoothing: Dynamic Conversational Network for the Analysis of TV Series Plots	arxiv.org/pdf/1602.07811.pdf	doi.org/10.48550/arXiv.1602.07811	Computer science Information retrieval Multimedia	Georges LinarèsSerigne GueyeVincent LabatutXavier Bost
‌ MULTI-CASE: A Transformer-based Ethics-aware Multimodal Investigative Intelligence Framework	arxiv.org/pdf/2401.01955.pdf	doi.org/10.48550/arXiv.2401.01955	Computer science Multimedia ‌ Human–computer interaction	Daniel A. KeimLucas JoosMatthias MillerMaximilian T. FischerYannick Metz
‌ Bridging High-Quality Audio and Video via Language for Sound Effects Retrieval from Visual Queries	arxiv.org/pdf/2308.09089.pdf	doi.org/10.48550/arXiv.2308.09089	Computer Vision Computer science Electrical engineering Information retrieval Multimedia Sound	Juan Pablo BelloJulia WilkinsJustin SalamonMagdalena FuentesOriol Nieto
‌ CLIPSep: Learning Text-queried Sound Separation with Noisy Unlabeled Videos	arxiv.org/pdf/2212.07065v2	doi.org/10.48550/arXiv.2212.07065	Machine learning Computer Vision Computer science Electrical engineering Multimedia Sound	Hao-Wen DongJulian McAuleyNaoya TakahashiTaylor Berg-KirkpatrickYuki Mitsufuji

Chaoning ZhangChenghao LiChenshuang ZhangChoong Seon HongChu Myaet ThwalDonguk kimHeng Tao ShenIn So KweonLe Luang HuyLik-Hang LeeMengchun ZhangSheng ZhengSumit Kumar DamSung-Ho BaeYang YangYe Lin TunYu Qiao