M-MAD: Multidimensional Multi-Agent Debate for Advanced Machine Translation Evaluation

The code for M-MAD will be released upon acceptance of the paper. Stay tuned for updates!

🤖 About M-MAD

The M-MAD framework is a systematic LLM-based multi-agent framework for advanced LLM-as-a-judge MT evaluation. It operates in three stages:

Dimension Partition: Decomposing the heuristic MQM annotation guideline into distinct dimensions for independent LLM-as-a-judge assessments.
Multi-Agent Debate: Conducting multi-agent debates within each dimension, harnessing LLMs' inherent knowledge, reasoning, and collaborative abilities.
Final Judgement: Synthesizing the debated outcomes through a final judge agent to produce a comprehensive evaluation judgment.

📄 Paper

For a detailed explanation of the M-MAD framework, please refer to the paper:
Multidimensional Multi-Agent Debate for Advanced Machine Translation Evaluation (arXiv)

Meta-evaluation

To run the meta-evaluation for the metrics, execute the following file:

wmt23_metrics.ipynb

Citation

@article{feng2024mmad,
  title={M-MAD: Multidimensional Multi-Agent Debate Framework for Fine-grained Machine Translation Evaluation},
  author={Feng, Zhaopeng and Su, Jiayuan and Zheng, Jiamei and Ren, Jiahan and Zhang, Yan and Wu, Jian and Wang, Hongwei and Liu, Zuozhu},
  journal={arXiv preprint arXiv:2412.20127},
  year={2024}
}

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
asset		asset
metrics_scores		metrics_scores
README.md		README.md
wmt23_metrics.ipynb		wmt23_metrics.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

M-MAD: Multidimensional Multi-Agent Debate for Advanced Machine Translation Evaluation

🤖 About M-MAD

📄 Paper

Meta-evaluation

Citation

About

Releases

Packages

Contributors 2

Languages

SU-JIAYUAN/M-MAD

Folders and files

Latest commit

History

Repository files navigation

M-MAD: Multidimensional Multi-Agent Debate for Advanced Machine Translation Evaluation

🤖 About M-MAD

📄 Paper

Meta-evaluation

Citation

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages