Archive - JaehyungSeo's Resume

2026

M3DocDep: Multi-modal, Multi-page, Multi-document Dependency Chunking with Large Vision-Language Models

Evidential Transformation Network: Turning Pretrained Models into Evidential Models for Uncertainty Estimation

2025

VAETKI Technical Report

The Impact of Negated Text on Hallucination with Large Language Models

KoLEG: On-the-Fly Korean Legal Knowledge Editing with Continuous Retrieval

MultiDocFusion : Hierarchical and Multimodal Chunking Pipeline for Enhanced RAG on Long Industrial Documents

Metric Calculating Benchmark: Complicate Instruction Following Benchmark for Large Language Models

LimaCost: Data Valuation for Instruction Tuning of Large Language Models

An analysis on language transfer of pre-trained language model with cross-lingual post-training

K-HALU: Multiple Answer Korean Hallucination Benchmark for Large Language Models

Find the Intention of Instruction: Comprehensive Evaluation of Instruction Understanding for Large Language Models

CoME: An Unlearning-based Approach to Conflict-free Model Editing

2024

Intelligent Predictive Maintenance RAG framework for Power Plants: Enhancing QA with StyleDFS and Domain Specific Instruction Tuning

[Best Paper] Post-negation Text Induce New Hallucinations in Large Language Models

Length-aware Byte Pair Encoding for Mitigating Over-segmentation in Korean Machine Translation

KoCommonGEN v2: A Benchmark for Navigating Korean Commonsense Reasoning Challenges in Large Language Models

Leveraging Pre-existing Resources for Data-Efficient Counter-Narrative Generation in Korean

Detecting Critical Errors Considering Cross-Cultural Factors in English-Korean Translation

Exploiting hanja-based resources in processing korean historic documents written by common literati

Hyper-BTS Dataset: Scalability and Enhanced Analysis of Back TranScription (BTS) for ASR Post-Processing

Generative Interpretation: Toward Human-Like Evaluation for Educational Question-Answer Pair Generation

2023

Doubts on the reliability of parallel corpus filtering

KEBAP: Korean Error Explainable Benchmark Dataset for ASR and Post-processing

CReTIHC: Designing Causal Reasoning Tasks about Temporal Interventions and Hallucinated Confoundings

CHEF in the Language Kitchen: A Generative Data Augmentation Leveraging Korean Morpheme Ingredients

Informative Evidence-guided Prompt-based Fine-tuning for English-Korean Critical Error Detection

Uncovering the Risks and Drawbacks Associated with the Use of Synthetic Data for Grammatical Error Correction (IEEE-ACCESS 2023)

PEEP-Talk: A Situational Dialogue-based Chatbot for English Education

Synthetic Alone: Exploring the Dark Side of Synthetic Data for Grammatical Error Correction (ICML-DMLR workshop 2023)

Knowledge Graph-Augmented Korean Generative Commonsense Reasoning (ICML-DMLR workshop 2023)

A Survey on Evaluation Metrics for Machine Translation (Mathematics 2023)

2022

PU-GEN: Enhancing generative commonsense reasoning for language models with human-centered knowledge

PicTalky: Augmentative and Alternative Communication Software for Language Developmental Disabilities

SaJuTeller: Conditional Generation Deep-Learning based Fortune Telling Model (HCLT 2022)

SRLev-BIH: An Evaluation Metric for Korean Generative Commonsense Reasoning (HCLT 2022)

KoCED: English-Korean Critical Error Detection Dataset (HCLT 2022)

Ko-ATOMIC: Korean Commonsense Knowledge Graph (HCLT 2022)

Dialogue Relation Extraction using Dialogue Graph (HCLT 2022)

DART: Data Augmentation using Retrieval Technique (HCLT 2022)

A Synthetic Dataset for Korean Knowledge Graph-to-Text Generation (HCLT 2022)

A Study on Prompt-based Persona Dialogue Generation (HCLT 2022)

Plain Template Insertion: Korean-Prompt-Based Engineering for Few-Shot Learners

The ASR Post-Processor Performance Challenges of BackTranScription (BTS): Data-Centric and Model-Centric Approaches (Mathematics 2022)

Focus on FoCus: Is FoCus focused on Context, Knowledge and Persona? (Customized Chat Grounding Persona and Knowledge Workshop at COLING 2022)

QUAK: A Synthetic Quality Estimation Dataset for Korean-English Neural Machine Translation

Utilization Strategy of User Engagements in Korean Fake News Detection (IEEE Access 2022)

A Dog Is Passing Over The Jet? A Text-Generation Dataset for Korean Commonsense Reasoning and Evaluation

BERTOEIC: Solving TOEIC Problems Using Simple and Efficient Data Augmentation Techniques with Pretrained Transformer Encoders (Applied Sciences 2022)

Priming Ancient Korean Neural Machine Translation

Empirical Analysis of Noising Scheme based Synthetic Data Generation for Automatic Post-editing

Empirical Analysis of Parallel Corpora and In-Depth Analysis Using LIWC (Applied Sciences 2022)

Return on Advertising Spend Prediction with Task Decomposition-Based LSTM Model (Mathematics 2022)

Dense-to-Question and Sparse-to-Answer: Hybrid Retriever System for Industrial Frequently Asked Questions

Word-Level Quality Estimation for Korean-English Neural Machine Translation (IEEE Access 2022)

Policy-based performance comparison study of Real-time Simultaneous Translation (KCS 2022)

Error Analysis of Recent Conversational Agent-based Commercialization Education Platform (KCS 2022)

A study on Korean multi-turn response generation using generative and retrieval model (KCS 2022)

An Automatic Post Editing With Efficient and Simple Data Generation Method (IEEE Access 2022)

2021

Study on Zero-shot based Quality Estimation (KCS 2021)

Study on Decoding Strategies in Neural Machine Translation (KCS 2021)

A Study on Verification of Back TranScription(BTS)-based Data Construction (KCS 2021)

Recent Automatic Post Editing Research (KCS 2021)

A New Tool for Efficiently Generating Quality Estimation Datasets (Data-centric AI Workshop at NeurlPS 2021)

Automatic Knowledge Augmentation for Generative Commonsense Reasoning (Data-centric AI Workshop at NeurlPS 2021)

The Verification of the Transfer Learning-based Automatic Post Editing Model (KCS 2021)

Grounded Vocabulary for Image Retrieval Using a Modified Multi-Generator Generative Adversarial Network (IEEE Access 2021)

Word-level Korean-English quality estimation (HCLT 2021)

Reading Comprehension requiring Discrete Reasoning Over Paragraphs for Korean (HCLT 2021)

Persona-based Korean Conversational Model (HCLT 2021)

Korean Fake News Detection with User Graph (HCLT 2021)

[Outstanding Paper] KommonGen: A Dataset for Korean Generative Commonsense Reasoning Evaluation

Graph-to-Text Generation Using Relation Extraction Datasets (HCLT 2021)

Comparative study of Korean speech recognition based on SpecAugment and Kaldi (HCLT 2021)

[Best Paper Awards] Categorization and Analysis of Error Types in the Korean Speech Recognition System (HCLT 2021)

BackTranScription (BTS)-based Jeju Automatic Speech Recognition Post-processor Research (HCLT 2021)

An empirical study on automatic post editing for neural machine translation (IEEE Access 2021)

Automatic Knowledge Augmentation for Generative Commonsense Reasoning (LoResMT2021)

BTS: Back TranScription for Speech-to-Text Post-Processor using Text-to-Speech-to-Text

Research on Recent Quality Estimation (DC 2021)

Comparative analysis of current approaches to quality estimation for neural machine translation (Applied Sciences 2021)