Accepted Papers – ICMR2023

Long Papers

1. Chunhong Cao, Gai Li, Huawei Fu, Xingxing Li and Xieping Gao. SPAE: Spatial Preservation-based Autoencoder for ADHD functional brain networks modelling

2. Mingjun Li, Shuo Xu and Feng Su. Learning and Fusing Multi-Scale Representations for Accurate Arbitrary-Shaped Scene Text Recognition

3. Mingqi Chen, Feng Shuang, Shaodong Li and Xi Liu. ASCS-Reinforcement Learning: A Cascaded Framework for Accurate 3D Hand Pose Estimation

4. Cheng-Yu Fang and Xian-Feng Han. Joint Geometric-Semantic Driven Character Line Drawing Generation

5. Sven Schultze, Ani Withöft, Larbi Abdenebaoui and Susanne Boll. Explaining Image Aesthetics Assessment: An Interactive Approach

6. Yizhe Zhu, Jialin Gao and Xi Zhou. AVForensics: Audio-driven Deepfake Video Detection with Masking Strategy in Self-supervision

7. Beibei Zhang, Yaqun Fang, Fan Yu, Jia Bei and Tongwei Ren. MMSF: A Multimodal Sentiment-Fused Method to Recognize Video Speaking Style

8. Ying He, Gongqing Wu, Desheng Cai and Xuegang Hu. Cross-View Sample-Enriched Graph Contrastive Learning Network for Personalized Micro-video Recommendation

9. Giacomo Nebbia and Adriana Kovashka. Hypernymization of Named Entity-rich captions for grounding-based multi-modal pretraining.

10. Siteng Huang, Qiyao Wei and Donglin Wang . Reference-Limited Compositional Zero-Shot Learning

11. Omar Adjali, Paul Grimal, Olivier Ferret, Sahar Ghannay and Hervé Le Borgne . Explicit Knowledge Integration for Knowledge-Aware Visual Question Answering about Named Entities

12. Maria Pegia, Björn Þór Jónsson, Anastasia Moumtzidou, Ilias Gialampoukidis, Stefanos Vrochidis and Ioannis Kompatsiaris. MuseHash: Supervised Bayesian Hashing for Multimodal Image Representation

13. Harsh Sinha and Adriana Kovashka. Towards Shape-regularized Learning for Mitigating Texture Bias in CNNs

14. Chun Zhang, Keyan Ren, Qingyun Bian and Yu Shi. Less is More: Decoupled High-Semantic Encoding for Action Recognition

15. Soyun Choi, Youjia Zhang and Sungeun Hong. Intra-inter Modal Attention Blocks for RGB-D Semantic Segmentation

16. Jiancheng Pan, Qing Ma and Cong Bai. Reducing Semantic Confusion: Scene-aware Aggregation Network for Remote Sensing Cross-modal Retrieval

17. Yizhao Gao and Zhiwu Lu. CMMT: Cross-Modal Meta-Transformer for Video-Text Retrieval

18. Chunhong Cao, Huawei Fu, Gai Li, Mengyang Wang and Xieping Gao. Modeling Functional Brain Networks with Multi-Head Attention-based Region-Enhancement for ADHD Classification

19. Lina Sun, Yewen Li and Yumin Dong. Learning From Expert: Vision-Language Knowledge Distillation for Unsupervised Cross-Modal Hashing Retrieval

20. Yusong Wang, Dongyuan Li, Kotaro Funakoshi and Manabu Okumura . EMP: Emotion-guided Multi-modal Fusion and Contrastive Learning for Personality Traits Recognition

21. Bingchao Wu, Yangyuxuan Kang, Bei Guan and Yongji Wang. We Are Not So Similar: Alleviating User Representation Collapse in Social Recommendation

22. Guoxing Yang, Haoyu Lu, Zelong Sun and Zhiwu Lu. Shot Retrieval and Assembly with Text Script for Video Montage Generation

23. Peiwang Tang, Qinghua Zhang and Xianchao Zhang. A Recurrent Neural Network based Generative Adversarial Network for Long Multivariate Time Series Forecasting

24. Tiening Sun, Zhong Qian, Peifeng Li and Qiaoming Zhu. Graph Interactive Network with Adaptive Gradient for Multi-Modal Rumor Detection

25. Nitish Nag, Hyungik Oh, Mengfan Tang, Mingshu Shi and Ramesh Jain. Integrative Multi-Modal Computing for Personal Health Navigation

26. Wen-Jiin Tsai and Yi-Cheng Tien. Attention-based Video Virtual Try-On

27. Shenshen Li, Xing Xu, Fumin Shen and Yang Yang. Multi-granularity Separation Network for Text-Based Person Retrieval with Bidirectional Refinement Regularization

28. Zeqing Xia and Zhouhui Lian. CurveSDF: Binary Image Vectorization Using Signed Distance Fields

29. Chiyu Zhang, Yang Jun, Zaiyan Dai and Peng Cao . Edge Enhanced Image Style Transfer via Transformers

30. Jiaxin Deng, Dong Shen, Haojie Pan, Xiangyu Wu, Ximan Liu, Gaofeng Meng, Fan Yang, Size Li, Ruiji Fu and Zhongyuan Wang. A Unified Model for Video Understanding and Knowledge Embedding with Heterogeneous Knowledge Graph Dataset

31. Yingnan Fu, Wenyuan Cai, Ming Gao and Aoying Zhou. Symbol Location-Aware Network for Improving Handwritten Mathematical Expression Recognition

32. Wenxiu Geng, Xiangxian Li and Yulong Bian. A Dual-branch Enhanced Multi-task Learning Network for Multimodal Sentiment Analysis

33. Yankun Wu, Yuta Nakashima and Noa Garcia. Not Only Generative Art: Stable Diffusion for Content-Style Disentanglement in Art Analysis

34. Pengzhi Li, Yikang Ding, Linge Li, Jingwei Guan and Zhiheng Li. Towards Practical Consistent Video Depth Estimation

35. Haram Choi, Cheolwoong Na, Jinseop Kim and Jihoon Yang. Exploration of Lightweight Single Image Denoising with Transformers and Truly Fair Training

36. Konstantin Schall, Kai Uwe Barthel, Nico Hezel and Klaus Jung. Improving Image Encoders for General-Purpose Nearest Neighbor Search and Classification

37. Shuo Chen, Yingjun Du, Pascal Mettes and Cees Snoek. Multi-Label Meta Weighting for Long-Tailed Dynamic Scene Graph Generation

38. Ruilin Zhang, Haiyang Zheng and Hongpeng Wang. TDEC: Deep Embedded Image Clustering with Transformer and Distribution Information

39. Ying Li, Chunming Guan and Jiaquan Gao . TsP-Tran: Two-Stage Pure Transformer for Multi-Label Image Retrieval

40. Yangming Zhou, Yuzhou Yang, Qichao Ying, Zhenxing Qian and Xinpeng Zhang. Multi-modal Fake News Detection on Social Media via Multi-grained Information Fusion

41. Zefan Zhang, Yi Ji and Chunping Liu. Knowledge-Aware Causal Inference Network for Visual Dialog

42. Juheon Hwang, Jiwoo Kang, Kyoungoh Lee and Sanghoon Lee . Unlocking Potential of 3D-aware GAN for More Expressive Face Generation

43. Victoria Sherratt, Kevin Pimbblet and Nina Dethlefs. Multi-channel Convolutional Neural Network for Precise Meme Classification

44. Yuze Wang, Junyi Wang, Yansong Qu and Yue Qi. RIP-NeRF: Learning Rotation-Invariant Point-based Neural Radiance Field for Fine-grained Editing and Compositing

45. Tiancong Cheng, Ying Zhang, Yifang Yin, Roger Zimmermann, Zhiwen Yu and Bin Guo . A Multi-Teacher Assisted Knowledge Distillation Approach for Enhanced Face Image Authentication

46. Bing Han, Jianshu Li, Wenqi Ren, Man Luo, Jian Liu and Xiaochun Cao. SIGMA-DF: Single-Side Guided Meta-Learning for Deepfake Detection

47. Liang Li and Weiwei Sun. Label-wise Deep Semantic-Alignment Hashing for Cross-Modal Retrieval

48. Jiazhi Guan, Hang Zhou, Zhizhi Guo, Tianshu Hu, Lirui Deng, Meng Fang, Chengbin Quan and Youjian Zhao . Dual-Modality Co-Learning for Unveiling Deepfake in Spatio-Temporal Space

49. Han Wang and Ziwei Xiong. Dual-Stream Multimodal Learning for Topic-Adaptive Video Highlight Detection

50. Jialin Tian, Xing Xu, Zuo Cao, Gong Zhang, Fumin Shen and Yang Yang. Zero-shot Sketch-based Image Retrieval with Adaptive Balanced Discriminability and Generalizability

51. Ying Zhang, Lilei Zheng, Vrizlynn Thing, Roger Zimmermann, Bin Guo and Zhiwen Yu. FaceLivePlus: A Unified System for Face Liveness Detection and Face Verification

52. Hugo Schindler, Adrian Popescu, Khoa Nguyen and Jerome Deshayes-Chossart. Raising User Awareness about the Consequences of Online Photo Sharing

53. Feng Zhao, Min Zhang, Tiancheng Huang and Donglin Wang. TAGM: Task-Aware Graph Model for Few-shot Node Classification

54. Marco Arazzi, Marco Cotogni, Antonino Nocera and Luca Virgili. Predicting Tweet Engagement with Graph Neural Networks

55. Yaoqing Li, Sheng-Hua Zhong, Shuai Li and Yan Liu. A Robust Deep Learning Enhanced Monocular SLAM System for Dynamic Environments

56. Yutian Luo, Yizhao Gao and Zhiwu Lu. Learning with Adaptive Knowledge for Continual Image-Text Modeling

57. Yu Zang, Zhe Xue, Shilong Ou, Yunfei Long, Hai Zhou and Junping Du. FedPcf : An Integrated Federated Learning Framework with Multi-Level Prospective Correction Factor

Short Papers

1. Meishan Liu, Meng Jian, Ge Shi and Lifang Wu. Graph Contrastive Learning on Complementary Embedding for Recommendation

2. Shuiying Liao, Yujuan Ding and Pik Yin Mok. Recommendation of Mix-and-Match Clothing by Modeling Indirect Personal Compatibility

3. Kun He, Changyu Li and Jie Shao. Strong-Weak Cross-View Interaction Network for Stereo Image Super-Resolution

4. Sahar Tahmasebi, Sherzod Hakimov, Ralph Ewerth and Eric Müller-Budack. Improving Generalization for Multimodal Fake News Detection

5. Daichi Suzuki, Go Irie and Kiyoharu Aizawa. Text-to-Image Fashion Retrieval with Fabric Textures

6. Zhexu Shen, Liang Yang, Zhihan Yang and Hongfei Lin. More Than Simply Masking: Exploring Pre-training Strategies for Symbolic Music Understanding

7. Arun Zachariah and Praveen Rao. Video Retrieval for Everyday Scenes With Common Objects

8. Feng Kai, Liu Tao, Zhang Heng, Meng Zihao and Miao Zemin. TNOD: Transformer Network with Object Detection for Tag Recommendation

9. Christos Koutlis, Manos Schinas and Symeon Papadopoulos . MemeFier: Dual-stage modality fusion for image meme classification

10. Jiabao Sheng, Yuanpeng Zhang, Jing Cai, Sai-Kit Lam, Zhe Li, Jiang Zhang and Xinzhi Teng. Multi-view Contrastive Learning with Additive Margin for Adaptive Nasopharyngeal Carcinoma Radiotherapy Prediction

11. Aristotelis Ballas and Christos Diou. CNNs with Multi-Level Attention for Domain Generalization

12. Mingyuan Ge, Mingyong Li, Yewen Li and Longfei Ma. Deep Enhanced-Similarity Attention Cross-modal Hashing Learning

13. Werner Bailer, Rahel Arnold, Vera Benz, Davide Coccomini, Silvan Heller, Anastasios Gkagkas, Gylfi Þór Guðmundsson, Björn Þór Jónsson, Jakub Lokoc, Nicola Messina, Nick Pantelidis and Jiaxin Wu . Improving Query and Assessment Quality in Text-Based Interactive Video Retrieval Evaluation

14. Nico Zhou, Tse-Yu Pan, Herman Prawiro, Jian-Wei Peng, Wen-Cheng Chen, Hung-Kuo Chu and Min-Chun Hu. Offensive Tactics Recognition in Broadcast Basketball Videos Based on 2D Camera View Player Heatmaps

15. Panagiota Alexoudi, Ioannis Mademlis and Ioannis Pitas. Escaping local minima in deep reinforcement learning for video summarization

16. Pu Ching, Hung-Kuo Chu and Min-Chun Hu. SOFA: Style-based One-shot 3D Facial Animation Driven by 2D landmarks

17. Florian Spiess, Ralph Gasser, Silvan Heller, Heiko Schuldt and Luca Rossetto . A Comparison of Video Browsing Performance between Desktop and Virtual Reality Interfaces

18. Tianqi Zhao, Ming Kong, Tian Liang, Qiang Zhu, Kun Kuang and Fei Wu. CLAP: Contrastive Language-Audio Pre-training Model for Multi-modal Sentiment Analysis

19. Iacopo Ghinassi, Lin Wang, Chris Newell and Matthew Purver. Multimodal Topic Segmentation of Podcast Shows with Pre-trained Neural Encoders

20. Georgios Orfanidis, Konstantinos Ioannidis, Anastasios Tefas, Stefanos Vrochidis and Ioannis Kompatsiaris. Tweaking EfficientDet for frugal training

Technical Demonstrations

1. Kento Terauchi and Keiji Yanai. CalorieCam360: Simultaneous Eating Action Recognition of Multiple People Using Omnidirectional Camera

2. Giuseppe Amato, Paolo Bolettieri, Fabio Carrara, Fabrizio Falchi, Claudio Gennaro, Nicola Messina, Lucia Vadicamo and Claudio Vairo . VISIONE: A Large-Scale Video Retrieval System with Advanced Search Functionalities

3. Manos Schinas, Panagiotis Galopoulos and Symeon Papadopoulos. MAAM: Media Asset Annotation and Management

4. Kai Uwe Barthel, Nico Hezel, Konstantin Schall and Klaus Jung. navigu.net: NAvigation in Visual Image Graphs gets User-friendly

5. Stefanos Stoikos, David Kauchak, Douglas Turnbull and Alexandra Papoutsaki. Cross-Language Music Recommendation Exploration

Brave New Ideas

1. David Alonso del Barrio and Daniel Gatica-Perez. Framing the News: From Human Perception to Large Language Model Inferences

Doctoral Symposium Papers

1. Shenshen Li. Dual-Path Semantic Construction Network for Composed Query-Based Image Retrieval

Reproducibility Papers

1. Mitchell Lee, Chris Lee, Sanjay Penmetsa, Min Chen, Mizuki Miyashita and Naatosi Fish. Reproducibility Companion Paper: MeTILDA – Platform for Melodic Transcription in Language Documentation and Application

ICDAR ’23 Papers

1. Huy Quang Ung, Yutaro Mishima, Hao Niu and Shinya Wada. Towards Multimodal Spatio-Temporal Transformer-based Models for Congestion Prediction

2. Wenbin Gan, Minh Son Dao and Koji Zettsu. Procedural Driving Skill Coaching from More Skilled Drivers to Safer Drivers: A Review

3. Hao Niu, Duc Nguyen, Kei Yonekawa, Mori Kurokawa, Chihiro Ono, Daichi Amagata, Takuya Maekawa and Takahiro Hara. User-irrelevant Cross-domain Association Analysis for Cross-domain Recommendation with Transfer Learning

4. Thanh-Son Nguyen, Vinh Dang, Minh-Triet Tran and Duc-Tien Dang-Nguyen. Leveraging Cross-Modals for Cheapfakes Detection

5. Ioannis Prokopiou, Pantelis Vikatos, Christos Chatzis and Christos Christodoulou. MTSS: Movie Trailers Surveillance System using Social Media Analytics and Public Mood

6. Tatsuya Konishi, Shuichiro Haruta, Mori Kurokawa, Kenta Tsukatsune, Yuto Mizutani, Tomoaki Saito, Hideki Asoh and Chihiro Ono. CG-GNN: A Novel Compiled Graphs-based Feature Extraction Method for Enterprise Social Networks

7. Roman Macháček, Leila Mozaffari, Zahra Sepasdar, Sravanthi Parasa, Pål Halvorsen, Michael A. Riegler and Vajira Thambawita. Mask-conditioned latent diffusion for generating gastrointestinal polyp images

8. Xuan Luo, Sota Kato, Asahi Obata, Budrul Ahsan, Ryotaro Okada and Takafumi Nakanishi. A Joint Scene Text Recognition and Visual Appearance Model for Protest Issue Classification

9. Kha-Luan Pham, Manh-Thien Nguyen, Anh-Duy Tran, Minh-Son Dao and Duc-Tien Dang-Nguyen. Detecting Cheapfakes using Self-Query Adaptive-Context Learning

MAD ’23 Papers

1. Dan-Cristian Stanciu and Bogdan Ionescu. Autoencoder-based Data Augmentation for Deepfake Detection

2. Awais Khan and Khalid Mahmood Malik. SpoTNet: A spoofing-aware Transformer Network for Effective Synthetic Speech Detection

3. Stefanos-Iordanis Papadopoulos, Christos Koutlis, Symeon Papadopoulos and Panagiotis Petrantonakis. Synthetic Misinformers: Generating and Combating Multimodal Misinformation

4. Benjamin Shultz. In the Spotlight: The Russian Government’s Use of Official Twitter Accounts to Influence Discussions About its War in Ukraine

5. Davide Salvi, Paolo Bestagini and Stefano Tubaro. Synthetic Speech Detection through Audio Folding

6. David Alonso del Barrio and Daniel Gatica-Perez. Examining European Press Coverage of the No-Vax Movement: A NLP framework

7. Pantelis Dogoulis, Giorgos Kordopatis-Zilos, Symeon Papadopoulos and Ioannis Kompatsiaris. Improving Synthetically Generated Images Detection in Cross-Concept Settings

LSC’23 Papers

1. Maria Tysse Hordvik, Julie Sophie Teilstad Østby, Manoj Kesavulu, Thao-Nhu Nguyen, Tu-Khiem Le, Duc-Tien Dang-Nguyen. LifeLens: Transforming Lifelog Search with Innovative UX/UI Design

2. Ahmed Alateeq, Mark Roantree, Cathal Gurrin. Voxento 4.0: A More Flexible Visualisation and Control for Lifelogs

3. Thao-Nhu Nguyen, Tu-Khiem Le, Van-Tu Ninh, Cathal Gurrin, Minh-Triet Tran, Thanh Binh Nguyen, Graham Healy, Annalina Caputo, Sinead Smyth. E-LifeSeeker: An Interactive Lifelog Search Engine for LSC’23

4. Ricardo Ribeiro, Luísa Amaral, Wei Ye, Alina Trifan, António J. R. Neves, Pedro Iglésias. MEMORIA: A Memory Enhancement and MOment RetrIeval Application for LSC 2023

5. Ly Duyen Tran, Binh Nguyen, Liting Zhou, Cathal Gurrin. MyEachtra: Event-based Interactive Lifelog Retrieval System for LSC’23

6. Quang-Linh Tran, Ly-Duyen Tran, Binh Nguyen, Cathal Gurrin. MemoriEase: An Interactive Lifelog Retrieval System for LSC’23

7. Luca Rossetto, Oana Inel, Svenja Lange, Florian Ruosch, Ruijie Wang, Abraham Bernstein. Multi-Mode Clustering for Graph-Based Lifelog Retrieval

8. Naushad Alam, Yvette Graham, Cathal Gurrin. Memento 3.0: An Enhanced Lifelog Search Engine for LSC’23

9. Nhat Hoang-Xuan, Thang-Long Nguyen-Ho, Cathal Gurrin, Minh-Triet Tran. Lifelog Discovery Assistant: Suggesting Prompts and Indexing Event Sequences for FIRST at LSC 2023

10. Klaus Schoeffmann. lifeXplore at the Lifelog Search Challenge 2023

11. Tien-Thanh Nguyen-Dang, Xuan-Dang Thai, Gia-Huy Vuong, Van-Son Ho, Minh-Triet Tran, Van-Tu Ninh, Minh-Khoi Pham, Tu-Khiem Le, Graham Healy. LifeInsight: An Interactive Lifelog Retrieval System with Comprehensive Spatial Insights and Query Assistance

12. Florian Spiess, Ralph Gasser, Heiko Schuldt, Luca Rossetto. The Best of Both Worlds: Lifelog Retrieval with a Desktop-Virtual Reality Hybrid System