您好,登錄后才能下訂單哦!
Python中怎么利用Faiss庫實(shí)現(xiàn)向量近鄰搜索,相信很多沒有經(jīng)驗(yàn)的人對此束手無策,為此本文總結(jié)了問題出現(xiàn)的原因和解決方法,通過這篇文章希望你能解決這個問題。
1、讀取預(yù)訓(xùn)練好的Embedding數(shù)據(jù)
import pandas as pd
import numpy as np
df = pd.read_csv("./datas/movielens_sparkals_item_embedding.csv")
# 提取要使用的電影ID列表,注意要轉(zhuǎn)換成int64
ids = df["id"].values.astype(np.int64)
# 記錄ID列表的大小
ids_size = ids.shape[0]
# 讀取內(nèi)容embedding數(shù)據(jù),轉(zhuǎn)換成二維array
import json
import numpy as np
datas = []
for x in df["features"]:
datas.append(json.loads(x))
# 變成二維array
datas = np.array(datas).astype(np.float32)
# 記錄數(shù)據(jù)維度
dimension = datas.shape[1]
2、使用faiss建立索引
import faiss
index = faiss.IndexFlatL2(dimension)
index2 = faiss.IndexIDMap(index)
index2.add_with_ids(datas, ids)
3、實(shí)現(xiàn)近鄰搜索
# 讀取user embedding數(shù)據(jù)
df_user = pd.read_csv("./datas/user_embedding.csv")
df_user.head()
# 挑選一條user的embedding,轉(zhuǎn)換成1行N列的二維array
user_embedding = np.array(json.loads(df_user[df_user["id"] == 10]["features"].iloc[0]))
user_embedding = np.expand_dims(user_embedding, axis=0).astype(np.float32)
user_embedding
# 實(shí)現(xiàn)搜索,這里的I就是近鄰ID列表
tok = 30
D, I = index.search(user_embedding, topk) # actual search
4、拼接得到內(nèi)容列表
# 把搜索出來的ID變成Series
target_ids = pd.Series(I[0], name="MovieID")
# 讀取電影數(shù)據(jù)
df_movie = pd.read_csv("./datas/ml-1m/movies.dat",
sep="::", header=None, engine="python",
names = "MovieID::Title::Genres".split("::"))
# 實(shí)現(xiàn)內(nèi)容JOIN
df_result = pd.merge(target_ids, df_movie)
看完上述內(nèi)容,你們掌握Python中怎么利用Faiss庫實(shí)現(xiàn)向量近鄰搜索的方法了嗎?如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容,歡迎關(guān)注億速云行業(yè)資訊頻道,感謝各位的閱讀!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。