王者荣耀问答助手[大模型实战营结题项目][更新更多数据,计划采用RAG方...

发布网友

共1个回答

热心网友

经过多次更新与调整，项目聚焦于构建王者荣耀问答助手，主要围绕多模态数据集的构建与利用。数据集包含了来自《王者荣耀》的游戏图像、文本和音频内容，其中包含各个英雄的默认皮肤，以及不同英雄间的复杂关系信息。文件结构中，已整理上传了多模态王者数据集至 Github，形成了以手机游戏《王者荣耀》为背景的多模态数据集，涵盖英雄的图像、语音和文本信息。

在数据的更新中，项目重点关注了局内沟通语音、铭文和装备图片的收集与整合，同时添加了更多英雄皮肤对应的台词语音数据。针对语音资源的缺失问题，项目提出将优化数据的全面性和完整性，以期覆盖更多英雄语音和不同皮肤的语音。此外，项目还计划利用爬虫技术收集更多数据，提高数据集的丰富度。

项目的核心目标在于利用RAG（Retrieval Augmented Generation）方法，实现对王者荣耀游戏中图像、语音和文本的多模态检索与训练，以增强问答助手的交互体验。RAG方法允许系统在回答问题时，结合检索到的相关图像和语音信息，从而提供更准确、更直观的答案。为此，项目团队将实现以下功能：

1. **数据增强与完整性**：通过爬取更多数据，确保问答助手对英雄、技能、背景故事、关系等信息的全面了解。
2. **关系提取**：利用数据中的英雄关系信息，构建知识图谱或实体关系模型，提升问答助手对英雄间复杂关系的识别能力。
3. **数据可靠性提升**：集成搜索功能，与网站最新数据进行对比验证，确保问答助手提供信息的时效性和准确性。
4. **RAG整合**：基于RAG技术，实现语音、图像与文本的多模态检索与生成，提高问答系统的交互性和实用性。

为了达到这些目标，项目团队将运用爬虫技术收集更多数据，并实施反爬策略以应对目标网站的反爬机制。数据准备方面，将对数据格式进行调整，以适应RAG技术的需求。在模型训练与微调过程中，项目团队将关注输出格式的保持一致，以及模型性能的持续优化。

在数据处理与训练完成后，项目团队将对模型进行测试与评估，确保其在问答场景中的表现。同时，团队将考虑使用特定的工具和方法对长文本进行分割，以优化检索与摘要创建的过程。在集成RAG技术时，将采用特定的Embedding方法，如Sentence Transformer，以及调用LangChain等库来构建模板，以支持更高效的问答交互。

项目团队还计划探索替代的Embedding方法，如使用jina-embeddings-v2-base-zh，以优化处理中文语料的性能，并考虑使用Hand-on-RAG等工具来进一步增强问答助手的功能。在数据集构建与模型训练的全过程中，团队将持续迭代优化，以实现问答助手的高效、准确与便捷性，最终提供一个全面、互动性强的王者荣耀问答解决方案。

全部栏目

王者荣耀问答助手[大模型实战营 结题项目][更新更多数据,计划采用RAG方...

王者荣耀问答助手[大模型实战营结题项目][更新更多数据,计划采用RAG方...