要偏向于更为全面的文献数据。
生命周期评价的本质是用来评估产品或服务从生产到消费再到废弃的整个过程对环境和社会的影响,它考虑了资源使用、能源消耗、排放物的产生等方面。
那么为了提高最后基于电力lca这个领域搭建的专业模型的准确度,对文献进行精细筛选,选取同时包括流程图,数据,各单元过程投入产出详细数据,数据时间地点落去方法,技术细节的文献,作为最终的数据。
将精细筛选后的论文数据,结合unstructed库进行数据处理。
进行信息精细化拆解与清洗,使以pdf形式存储的文献数据通过分割,分区,变成便于嵌入模型的结构化数据。
对文字进行筛选与清理,图像的内容进行识别,存储图像的解释信息,表格转化为htl格式。
最后统一变成标题加内容的格式。
在这里我列举了简单的数据处理流程。
先是对数据进行分割。
随后是对文本进行拆分,识别内容是否为文本,如果是,就填进text_ist。
将表格转化为htl格式,将图片变为图片解释信息。
第二部分是知识库的构建。
向量知识库,能将各类数据(如文本、图像、音频等)转化为向量形式进行存储。
数据之间的相似性和关联性得以量化,不像平时你存储你的,我存储我的,向量数据库给予了一个统一的标准。
也正是因为统一了格式,利用相似度对比,检索更加高效。
构建知识库的流程先是提取分割文本进行向量化的操作。
向量化的本质是将离散的符号信息,如词或句子,映射到连续的向量空间中,以便计算机能够处理。
向量化将高维数据转化为低维数据,保留了数据的关键特征又降低了数据的复杂度。
选择pipee存储向量数据,它支持查询,插入,删除等一些列操作。
选择eaviate作为向量搜索引擎,可以通过主题的分类检索,进行语义搜索、问答提取等等功能。
第三部分是chatbot的构建。
先前已经构建好了针对电力lca领域的专业大模型,但是缺少检验模型的手段,即缺少模型优化环节,本项目设置通过chatbot模式,通过与用户进行问答的形式,检验模型是否能调用电力行业lca领域向量数据库回答该领域专业性问题和时效性问题的有效性。
chatbot是模拟人类对话的一种形式,就我们平时能使到的chatgpt就是以chatbot的形式来呈现的,而chatbot在这里的功能实现主要是为了体现检索功能,大致可分为知识库检索功能和在线搜索。
那么就产生了三种检索模式。
仅基于大语言模型,连接知识库搜索,和在线搜索。
前端部分我采用streait来完成,ui设计如图所示。
这边是功能按钮,中间是对话框。
先前有讲到了,我们来检测针对专业领域的大模型的标准就是检测是否有能力回答专业领域的问题,并针对结果进行优化。
这里我向chatbot提出同一个问题。
请关闭浏览器阅读模式后查看本章节,否则将出现无法翻页或章节内容丢失等现象。
谢依晴做梦也没想到,她刚买了一大袋零食,还没来得及吃上一口,就一不留神被撞进了古代。小小的姑娘,有一点点可爱,有一点点甜,有一点点迷糊,还有一点点暴力倾向还好,家里爷爷奶奶慈祥,爹娘宠溺,...
她穿成了年代文里和她同名的恶毒女配,无心与女主抢男神,一心只想搞事业,当个无忧无虑的小富婆。谁知她在改变后,原来那位对她一脸不屑的男神,却对她如影随形,任她怎么甩都甩不掉。她一脸憋屈妹妹我可是要努...
逛个街都能穿越,人家穿越不是公主就是小姐,偏我穿到一个小农女身上。好不容易带着全家奔小康,却意外救回个跟屁虫,看在你长的不赖的份上先收留一阵子。某男这次我帮了你,你要拿什么来偿还我某...
一场地震,让江山山原本衣食无忧的一家三口穿到了缺衣少食的年代。aaaa 左边是怀中嗷嗷待哺的儿子,右边是他们一家三口即将面临着黑户这个问题。aaaa 小两口同时望天,想破口大骂。aa...
伟大的汉王朝渐渐走向了末路。数十年间,人间沦为鬼域,白骨遮蔽平野,天下龙蛇纷起,竞问鼎之轻重。尸山血海之中,一名年轻的武人持刀起身,茫然四望,但见凛凛英雄犹在而汉鼎余烟未尽,孰能续之?...
慢火清炖港综世界,火候要够味道得足。周文强。他是差人中的神话,他是商界传奇,他是改变了一个时代的巨人雷洛如果不是强哥,我至今还只是一个懵懂的小差佬啦,我知现在有很多人叫我洛哥,可无论我如...