王者荣耀问答助手[大模型实战营 结题项目][更新更多数据,计划采用RAG方...

发布网友

我来回答

1个回答

热心网友

经过多次更新与调整,项目聚焦于构建王者荣耀问答助手,主要围绕多模态数据集的构建与利用。数据集包含了来自《王者荣耀》的游戏图像、文本和音频内容,其中包含各个英雄的默认皮肤,以及不同英雄间的复杂关系信息。文件结构中,已整理上传了多模态王者数据集至 Github,形成了以手机游戏《王者荣耀》为背景的多模态数据集,涵盖英雄的图像、语音和文本信息。

在数据的更新中,项目重点关注了局内沟通语音、铭文和装备图片的收集与整合,同时添加了更多英雄皮肤对应的台词语音数据。针对语音资源的缺失问题,项目提出将优化数据的全面性和完整性,以期覆盖更多英雄语音和不同皮肤的语音。此外,项目还计划利用爬虫技术收集更多数据,提高数据集的丰富度。

项目的核心目标在于利用RAG(Retrieval Augmented Generation)方法,实现对王者荣耀游戏中图像、语音和文本的多模态检索与训练,以增强问答助手的交互体验。RAG方法允许系统在回答问题时,结合检索到的相关图像和语音信息,从而提供更准确、更直观的答案。为此,项目团队将实现以下功能:

1. **数据增强与完整性**:通过爬取更多数据,确保问答助手对英雄、技能、背景故事、关系等信息的全面了解。
2. **关系提取**:利用数据中的英雄关系信息,构建知识图谱或实体关系模型,提升问答助手对英雄间复杂关系的识别能力。
3. **数据可靠性提升**:集成搜索功能,与网站最新数据进行对比验证,确保问答助手提供信息的时效性和准确性。
4. **RAG整合**:基于RAG技术,实现语音、图像与文本的多模态检索与生成,提高问答系统的交互性和实用性。

为了达到这些目标,项目团队将运用爬虫技术收集更多数据,并实施反爬策略以应对目标网站的反爬机制。数据准备方面,将对数据格式进行调整,以适应RAG技术的需求。在模型训练与微调过程中,项目团队将关注输出格式的保持一致,以及模型性能的持续优化。

在数据处理与训练完成后,项目团队将对模型进行测试与评估,确保其在问答场景中的表现。同时,团队将考虑使用特定的工具和方法对长文本进行分割,以优化检索与摘要创建的过程。在集成RAG技术时,将采用特定的Embedding方法,如Sentence Transformer,以及调用LangChain等库来构建模板,以支持更高效的问答交互。

项目团队还计划探索替代的Embedding方法,如使用jina-embeddings-v2-base-zh,以优化处理中文语料的性能,并考虑使用Hand-on-RAG等工具来进一步增强问答助手的功能。在数据集构建与模型训练的全过程中,团队将持续迭代优化,以实现问答助手的高效、准确与便捷性,最终提供一个全面、互动性强的王者荣耀问答解决方案。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com