译者 | 朱先忠
审校 | 重楼
- 使用冻结的预训练视觉编码器和LLM降低计算成本,与视觉和语言网络的联合训练相比,大幅减少所需的训练资源。
- 通过引入Q-Former来改善视觉语言对齐。Q-Former使视觉和文本嵌入更加接近,从而提高了推理任务的性能和执行多模态检索的能力。
- Visual Encoder:一种冻结的视觉模型,例如ViT,它从输入图像中提取视觉嵌入(然后用于下游任务)。
- 查询转换器(Q-Former):是此架构的关键。它由一个可训练的轻量级转换器组成,充当视觉模型和语言模型之间的中间层。它负责从视觉嵌入生成上下文化查询,以便语言模型能够有效地处理它们。
- LLM:一种冻结的预训练LLM,可处理精炼的视觉嵌入以生成文本描述或答案。
- 图像-文本对比损失(【引文2】):通过最大化成对的图像-文本表示的相似性,同时推开不相似的图像-文本对,来强制视觉和文本嵌入之间的对齐。
- 图像-文本匹配损失(【引文3】):一种二元分类损失,旨在通过预测文本描述是否与图像匹配(正,即目标=1)或不匹配(负,即目标=0)来使模型学习细粒度对齐。
- 基于图像的文本生成损失(【引文4】):是LLM中使用的交叉熵损失,用于预测序列中下一个标记的概率。Q-Former架构不允许图像嵌入和文本标记之间进行交互;因此,必须仅基于视觉信息生成文本,从而迫使模型提取相关的视觉特征。
- 该模型接收图像作为输入,然后使用冻结的视觉编码器将其转换为嵌入。
- 除了这些图像,模型还会接收它们的文本描述,并将其转换为嵌入。
- Q-Former使用图像文本对比损失进行训练,确保视觉嵌入与其对应的文本嵌入紧密对齐,并远离不匹配的文本描述。同时,图像文本匹配损失通过学习对给定文本是否正确描述图像进行分类,帮助模型开发细粒度表示。
- 预训练语言模型被集成到架构中,以根据先前学习的表示生成文本。
- 通过使用基于图像的文本生成损失,将重点从对齐转移到文本生成,从而提高模型的推理和文本生成能力。
在本节中,我们将利用BLIP-2的多模态功能构建一个时尚代理搜索代理,该代理可以接收输入的文本和/或图像并返回建议。对于代理的对话功能,我们将使用VertexAI中托管的Gemini 1.5 Pro;对于界面,我们将构建一个Streamlit应用实现。
- Docker-Compose与Postgres(数据库)和允许向量化搜索的PGVector扩展一起使用。
services: postgres: container_name: container-pg image: ankane/pgvector hostname: localhost ports: - "5432:5432" env_file: - ./env/postgres.env volumes: - postgres-data:/var/lib/postgresql/data restart: unless-stopped pgadmin: container_name: container-pgadmin image: dpage/pgadmin4 depends_on: - postgres ports: - "5050:80" env_file: - ./env/pgadmin.env restart: unless-stoppedvolumes: postgres-data:
- 1.
- 2.
- 3.
- 4.
- 5.
- 6.
- 7.
- 8.
- 9.
- 10.
- 11.
- 12.
- 13.
- 14.
- 15.
- 16.
- 17.
- 18.
- 19.
- 20.
- 21.
- 22.
- 23.
- 24.
- 25.
- 26.
一旦设置并运行Vector DB(docker-compose up -d),就该创建代理和工具来执行多模态搜索了。我们构建了两个代理来解决此场景应用:一个用于了解用户的请求,另一个用于提供建议:
- 分类器:负责接收来自客户的输入消息并提取用户正在寻找的衣服类别,例如T恤、裤子、鞋子、运动衫或衬衫。它还将返回客户想要的商品数量,以便我们可以从Vector DB中检索准确的数量。
from langchain_core.output_parsers import PydanticOutputParserfrom langchain_core.prompts import PromptTemplatefrom langchain_google_vertexai import ChatVertexAIfrom pydantic import BaseModel, Fieldclass ClassifierOutput(BaseModel): """ 模型输出的数据结构。 """ category: list = Field( description="A list of clothes category to search for ('t-shirt', 'pants', 'shoes', 'jersey', 'shirt')." ) number_of_items: int = Field(description="The number of items we should retrieve.")class Classifier: """ 用于输入文本分类的分类器类。 """ def __init__(self, model: ChatVertexAI) -> None: """ 通过创建链来初始化 Chain 类。 参数: model (ChatVertexAI): 大型语言模型 (LLM)。 """ super().__init__() parser = PydanticOutputParser(pydantic_object=ClassifierOutput) text_prompt = """ You are a fashion assistant expert on understanding what a customer needs and on extracting the category or categories of clothes a customer wants from the given text. Text: {text} Instructions: 1. Read carefully the text. 2. Extract the category or categories of clothes the customer is looking for, it can be: - t-shirt if the custimer is looking for a t-shirt. - pants if the customer is looking for pants. - jacket if the customer is looking for a jacket. - shoes if the customer is looking for shoes. - jersey if the customer is looking for a jersey. - shirt if the customer is looking for a shirt. 3. If the customer is looking for multiple items of the same category, return the number of items we should retrieve. If not specfied but the user asked for more than 1, return 2. 4. If the customer is looking for multiple category, the number of items should be 1. 5. Return a valid JSON with the categories found, the key must be 'category' and the value must be a list with the categories found and 'number_of_items' with the number of items we should retrieve. Provide the output as a valid JSON object without any additional formatting, such as backticks or extra text. Ensure the JSON is correctly structured according to the schema provided below. {format_instructions} Answer: """ prompt = PromptTemplate.from_template( text_prompt, partial_variables={"format_instructions": parser.get_format_instructions()} ) self.chain = prompt | model | parser def classify(self, text: str) -> ClassifierOutput: """ 根据文本上下文从模型获取类别。 参数: text (str): 用户消息。 返回值: ClassifierOutput:模型的答案。 """ try: return self.chain.invoke({"text": text}) except Exception as e: raise RuntimeError(f"Error invoking the chain: {e}")
- 1.
- 2.
- 3.
- 4.
- 5.
- 6.
- 7.
- 8.
- 9.
- 10.
- 11.
- 12.
- 13.
- 14.
- 15.
- 16.
- 17.
- 18.
- 19.
- 20.
- 21.
- 22.
- 23.
- 24.
- 25.
- 26.
- 27.
- 28.
- 29.
- 30.
- 31.
- 32.
- 33.
- 34.
- 35.
- 36.
- 37.
- 38.
- 39.
- 40.
- 41.
- 42.
- 43.
- 44.
- 45.
- 46.
- 47.
- 48.
- 49.
- 50.
- 51.
- 52.
- 53.
- 54.
- 55.
- 56.
- 57.
- 58.
- 59.
- 60.
- 61.
- 62.
- 63.
- 64.
- 65.
- 66.
- 67.
- 68.
- 69.
- 70.
- 71.
- 助手:负责使用从Vector DB中检索到的个性化建议进行回答。在这种情况下,我们还利用Gemini的多模态功能来分析检索到的图像并给出更好的答案。
from langchain_core.output_parsers import PydanticOutputParserfrom langchain_core.prompts import PromptTemplatefrom langchain_google_vertexai import ChatVertexAIfrom pydantic import BaseModel, Fieldclass AssistantOutput(BaseModel): """ 模型输出的数据结构。 """ answer: str = Field(description="A string with the fashion advice for the customer.")class Assistant: """ 提供时尚建议的代理类。 """ def __init__(self, model: ChatVertexAI) -> None: """ 通过创建链来初始化链类。 参数: model (ChatVertexAI): LLM模型. """ super().__init__() parser = PydanticOutputParser(pydantic_object=AssistantOutput) text_prompt = """ You work for a fashion store and you are a fashion assistant expert on understanding what a customer needs. Based on the items that are available in the store and the customer message below, provide a fashion advice for the customer. Number of items: {number_of_items} Images of items: {items} Customer message: {customer_message} Instructions: 1. Check carefully the images provided. 2. Read carefully the customer needs. 3. Provide a fashion advice for the customer based on the items and customer message. 4. Return a valid JSON with the advice, the key must be 'answer' and the value must be a string with your advice. Provide the output as a valid JSON object without any additional formatting, such as backticks or extra text. Ensure the JSON is correctly structured according to the schema provided below. {format_instructions} Answer: """ prompt = PromptTemplate.from_template( text_prompt, partial_variables={"format_instructions": parser.get_format_instructions()} ) self.chain = prompt | model | parser def get_advice(self, text: str, items: list, number_of_items: int) -> AssistantOutput: """ 根据文本和项上下文从模型中获取建议。 参数: text (str): 用户消息。 items (list): 为客户找到的项。 number_of_items (int): 要检索的项数。 Returns: AssistantOutput: 模型的答案。 """ try: return self.chain.invoke({"customer_message": text, "items": items, "number_of_items": number_of_items}) except Exception as e: raise RuntimeError(f"Error invoking the chain: {e}")
- 1.
- 2.
- 3.
- 4.
- 5.
- 6.
- 7.
- 8.
- 9.
- 10.
- 11.
- 12.
- 13.
- 14.
- 15.
- 16.
- 17.
- 18.
- 19.
- 20.
- 21.
- 22.
- 23.
- 24.
- 25.
- 26.
- 27.
- 28.
- 29.
- 30.
- 31.
- 32.
- 33.
- 34.
- 35.
- 36.
- 37.
- 38.
- 39.
- 40.
- 41.
- 42.
- 43.
- 44.
- 45.
- 46.
- 47.
- 48.
- 49.
- 50.
- 51.
- 52.
- 53.
- 54.
- 55.
- 56.
- 57.
- 58.
- 59.
- 60.
- 61.
- 62.
- 63.
- 64.
- 65.
- 66.
- 67.
- 68.
- 69.
from typing import Optionalimport numpy as npimport torchimport torch.nn.functional as Ffrom PIL import Imagefrom PIL.JpegImagePlugin import JpegImageFilefrom transformers import AutoProcessor, Blip2TextModelWithProjection, Blip2VisionModelWithProjectionPROCESSOR = AutoProcessor.from_pretrained("Salesforce/blip2-itm-vit-g")TEXT_MODEL = Blip2TextModelWithProjection.from_pretrained("Salesforce/blip2-itm-vit-g", torch_dtype=torch.float32).to( "cpu")IMAGE_MODEL = Blip2VisionModelWithProjection.from_pretrained( "Salesforce/blip2-itm-vit-g", torch_dtype=torch.float32).to("cpu")def generate_embeddings(text: Optional[str] = None, image: Optional[JpegImageFile] = None) -> np.ndarray: """ 使用Blip2模型从文本或图像中生成嵌入。 参数: text (Optional[str]): 客户输入文本 image (Optional[Image]): 客户输入图像 返回值: np.ndarray: 嵌入向量 """ if text: inputs = PROCESSOR(text=text, return_tensors="pt").to("cpu") outputs = TEXT_MODEL(**inputs) embedding = F.normalize(outputs.text_embeds, p=2, dim=1)[:, 0, :].detach().numpy().flatten() else: inputs = PROCESSOR(images=image, return_tensors="pt").to("cpu", torch.float16) outputs = IMAGE_MODEL(**inputs) embedding = F.normalize(outputs.image_embeds, p=2, dim=1).mean(dim=1).detach().numpy().flatten() return embedding
- 1.
- 2.
- 3.
- 4.
- 5.
- 6.
- 7.
- 8.
- 9.
- 10.
- 11.
- 12.
- 13.
- 14.
- 15.
- 16.
- 17.
- 18.
- 19.
- 20.
- 21.
- 22.
- 23.
- 24.
- 25.
- 26.
- 27.
- 28.
- 29.
- 30.
- 31.
- 32.
- 33.
- 34.
- 35.
- 36.
import globimport osfrom dotenv import load_dotenvfrom langchain_huggingface.embeddings import HuggingFaceEmbeddingsfrom langchain_postgres.vectorstores import PGVectorfrom PIL import Imagefrom blip2 import generate_embeddingsload_dotenv("env/connection.env")CONNECTION_STRING = PGVector.connection_string_from_db_params( driver=os.getenv("DRIVER"), host=os.getenv("HOST"), port=os.getenv("PORT"), database=os.getenv("DATABASE"), user=os.getenv("USERNAME"), password=os.getenv("PASSWORD"),)vector_db = PGVector( embeddings=HuggingFaceEmbeddings(model_name="nomic-ai/modernbert-embed-base"), # 这对我们的情况来说并不重要 collection_name="fashion", connection=CONNECTION_STRING, use_jsonb=True,)if __name__ == "__main__": # 生成图像嵌入 # 以文本形式保存图像的路径 # 在元数据中保存类别 texts = [] embeddings = [] metadatas = [] for category in glob.glob("images/*"): cat = category.split("/")[-1] for img in glob.glob(f"{category}/*"): texts.append(img) embeddings.append(generate_embeddings(image=Image.open(img)).tolist()) metadatas.append({"category": cat}) vector_db.add_embeddings(texts, embeddings, metadatas)
- 1.
- 2.
- 3.
- 4.
- 5.
- 6.
- 7.
- 8.
- 9.
- 10.
- 11.
- 12.
- 13.
- 14.
- 15.
- 16.
- 17.
- 18.
- 19.
- 20.
- 21.
- 22.
- 23.
- 24.
- 25.
- 26.
- 27.
- 28.
- 29.
- 30.
- 31.
- 32.
- 33.
- 34.
- 35.
- 36.
- 37.
- 38.
- 39.
- 40.
- 41.
- 42.
- 43.
- 44.
- 45.
- 分类代理可以识别顾客正在寻找哪些类别的衣服以及他们想要多少件。
- 如果客户上传文件,该文件将被转换为嵌入,我们将根据客户想要的衣服类别和单位数量在向量数据库中寻找类似的项目。
- 然后,检索到的项目和客户的输入信息被发送给代理代理,以产生与检索到的图像一起呈现的推荐信息。
- 如果客户没有上传文件,流程是相同的,但我们不是生成用于检索的图像嵌入,而是创建文本嵌入。
import osimport streamlit as stfrom dotenv import load_dotenvfrom langchain_google_vertexai import ChatVertexAIfrom langchain_huggingface.embeddings import HuggingFaceEmbeddingsfrom langchain_postgres.vectorstores import PGVectorfrom PIL import Imageimport utilsfrom assistant import Assistantfrom blip2 import generate_embeddingsfrom classifier import Classifierload_dotenv("env/connection.env")load_dotenv("env/llm.env")CONNECTION_STRING = PGVector.connection_string_from_db_params( driver=os.getenv("DRIVER"), host=os.getenv("HOST"), port=os.getenv("PORT"), database=os.getenv("DATABASE"), user=os.getenv("USERNAME"), password=os.getenv("PASSWORD"),)vector_db = PGVector( embeddings=HuggingFaceEmbeddings(model_name="nomic-ai/modernbert-embed-base"), #这对我们的情况来说并不重要 collection_name="fashion", connection=CONNECTION_STRING, use_jsonb=True,)model = ChatVertexAI(model_name=os.getenv("MODEL_NAME"), project=os.getenv("PROJECT_ID"), temperarture=0.0)classifier = Classifier(model)assistant = Assistant(model)st.title("Welcome to ZAAI's Fashion Assistant")user_input = st.text_input("Hi, I'm ZAAI's Fashion Assistant. How can I help you today?")uploaded_file = st.file_uploader("Upload an image", type=["jpg", "jpeg", "png"])if st.button("Submit"): #了解用户的要求 classification = classifier.classify(user_input) if uploaded_file: image = Image.open(uploaded_file) image.save("input_image.jpg") embedding = generate_embeddings(image=image) else: # 在用户不上传图像时创建文本嵌入 embedding = generate_embeddings(text=user_input) # 创建要检索的项目和路径的列表 retrieved_items = [] retrieved_items_path = [] for item in classification.category: clothes = vector_db.similarity_search_by_vector( embedding, k=classification.number_of_items, filter={"category": {"$in": [item]}} ) for clothe in clothes: retrieved_items.append({"bytesBase64Encoded": utils.encode_image_to_base64(clothe.page_content)}) retrieved_items_path.append(clothe.page_content) #得到助理的建议 assistant_output = assistant.get_advice(user_input, retrieved_items, len(retrieved_items)) st.write(assistant_output.answer) cols = st.columns(len(retrieved_items)+1) for col, retrieved_item in zip(cols, ["input_image.jpg"]+retrieved_items_path): col.image(retrieved_item) user_input = st.text_input("")else: st.warning("Please provide text.")
- 1.
- 2.
- 3.
- 4.
- 5.
- 6.
- 7.
- 8.
- 9.
- 10.
- 11.
- 12.
- 13.
- 14.
- 15.
- 16.
- 17.
- 18.
- 19.
- 20.
- 21.
- 22.
- 23.
- 24.
- 25.
- 26.
- 27.
- 28.
- 29.
- 30.
- 31.
- 32.
- 33.
- 34.
- 35.
- 36.
- 37.
- 38.
- 39.
- 40.
- 41.
- 42.
- 43.
- 44.
- 45.
- 46.
- 47.
- 48.
- 49.
- 50.
- 51.
- 52.
- 53.
- 54.
- 55.
- 56.
- 57.
- 58.
- 59.
- 60.
- 61.
- 62.
- 63.
- 64.
- 65.
- 66.
- 67.
- 68.
- 69.
- 70.
- 71.
- 72.
- 73.
- 74.
- 75.
- 76.
- 77.
- 78.
- 79.
- 80.
- 81.
- 82.
总之,借助BLIP-2、Gemini和PG Vector等工具,多模态搜索和检索的未来已经实现,未来的搜索引擎将与我们今天使用的搜索引擎大不相同。
【1】Junnan Li、Dongxu Li、Silvio Savarese、Steven Hoi,2023年。BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models(BLIP-2:使用冻结图像编码器和大型语言模型进行引导语言图像预训练),arXiv:2301.12597。
【2】Prannay Khosla、Piotr Teterwak、Chen Wang、Aaron Sarna、Yonglong Tian、Phillip Isola、Aaron Maschinot、Ce Liu、Dilip Krishnan,2020年。Supervised Contrastive Learning(监督对比学习),arXiv:2004.11362。
【3】Junnan Li、Ramprasaath R. Selvaraju、Akhilesh Deepak Gotmare、Shafiq Joty、Caiming Xiong、Steven Hoi,2021年。Align before Fuse: Vision and Language Representation Learning with Momentum Distillation(融合前对齐:使用动量蒸馏进行视觉和语言表征学习),arXiv:2107.07651。
【4】李东,南阳,王文辉,魏福如,刘晓东,王宇,高剑锋,周明,Hsiao-Wen Hon。2019。Unified Language Model Pre-training for Natural Language Understanding and Generation(自然语言理解和生成的统一语言模型预训练),arXiv:1905.03197。
原文标题:Multimodal Search Engine Agents Powered by BLIP-2 and Gemini,作者:Luís Roque,Rafael Guedes |