久久中文字幕亚洲|97人人喊人人爽|日本成人精品在线|国产精品精品|自拍偷拍内射人妻|婷婷五月天综合爱|四季AV网站在线|欧美成人免费一区二|色五月青娱乐在线|亚洲AvAv国产

400-608-2558 029-86698003

新聞資訊

從行業(yè)動態(tài)到技術(shù)實踐,洞察趨勢所向
美林?jǐn)?shù)據(jù)技術(shù)專家團隊 | 集團系統(tǒng)數(shù)據(jù)檢索中相關(guān)內(nèi)容推薦的應(yīng)用
發(fā)布時間:2021-08-15 瀏覽數(shù):28240次

某集團公司通過近幾年的信息化建設(shè),已經(jīng)基本完成了信息化的全業(yè)務(wù)覆蓋,初步實現(xiàn)了數(shù)據(jù)的集中存儲,數(shù)據(jù)存儲總量40T,數(shù)據(jù)條數(shù)增長量1494萬/月,數(shù)據(jù)存儲增長1T/月,其中有30%的數(shù)據(jù)是以文件的形式存儲。
文件作為業(yè)務(wù)活動的過程記錄和結(jié)果沉淀,對于業(yè)務(wù)流程貫通、業(yè)務(wù)知識沉淀,具有非常重要的意義。該集團公司的數(shù)據(jù)雖然已經(jīng)實現(xiàn)集中存儲,但是數(shù)據(jù)仍然按業(yè)務(wù)條線、按系統(tǒng)方式存儲、管理、利用,且文件數(shù)據(jù)具有非結(jié)構(gòu)化的特點,因此對于文件數(shù)據(jù)的利用效率很低。具體體現(xiàn)在:
01、集中管理后的價值充分展現(xiàn),業(yè)務(wù)流轉(zhuǎn)過程中跨業(yè)務(wù)的數(shù)據(jù)獲取難。
02、缺乏對現(xiàn)有非結(jié)構(gòu)化文件數(shù)據(jù)的管理和檢索,導(dǎo)致了“人找數(shù)據(jù)難”的局面。
03、雖然已經(jīng)有了海量的文件數(shù)據(jù),但這些數(shù)據(jù)并未形成知識加以沉淀。


數(shù)據(jù)分析


面對目前存在的問題,通過公司領(lǐng)導(dǎo)層的協(xié)調(diào)推動,梳理了各業(yè)務(wù)部門的具體業(yè)務(wù)數(shù)據(jù)和業(yè)務(wù)需求,設(shè)計了非結(jié)構(gòu)化文檔一體化管理平臺,在平臺實現(xiàn)過程中,通過自然語言處理、機器學(xué)習(xí)、人工智能等技術(shù),對用戶獲取文件數(shù)據(jù)的檢索、瀏覽過程進行分析,向用戶主動推送相關(guān)內(nèi)容,將“人找數(shù)據(jù)”轉(zhuǎn)化為“數(shù)據(jù)找人”。

一、業(yè)務(wù)需求和問題定義
1 相關(guān)搜索
當(dāng)用戶在搜索框中輸入檢索內(nèi)容時,在右側(cè)推薦與檢索內(nèi)容相關(guān)的關(guān)鍵詞,并在推薦查詢欄給出相關(guān)的查詢結(jié)果。

相關(guān)搜索

2 相關(guān)文檔
當(dāng)用戶瀏覽文檔時,根據(jù)當(dāng)前文檔內(nèi)容,在右側(cè)推薦內(nèi)容相關(guān)的文檔。

相關(guān)文檔


三、搜索引擎與推薦系統(tǒng)
從信息獲取的角度來看,搜索和推薦是用戶獲取信息的兩種主要手段。
搜索是用戶主動獲取信息的行為,用戶根據(jù)將自己的訴求用詞語、短語、句子的形式表達出來,輸入到搜索引擎中獲取檢索結(jié)果,用戶通過瀏覽和點擊檢索結(jié)果來判斷訴求是否得到滿足。可以看出,在應(yīng)用搜索時,用戶的需求是比較明確的。
推薦是用戶被動接收信息的行為,推薦系統(tǒng)根據(jù)收集的用戶行為特征,結(jié)合歷史積累的數(shù)據(jù),采用某種算法得到用戶可能感興趣的信息,并發(fā)送給用戶。因此,推薦對應(yīng)的是用戶模糊而不明確的需求。
目前主流的搜索引擎仍然是以文字構(gòu)成查詢詞query,因為文字是描述需求最簡潔、最直接的方式,搜索引擎抓取和索引的絕大部分內(nèi)容也是以文字方式組織的,在大多數(shù)搜索查詢中,用戶都是使用較短的query,一個query一般不會超過5個元素,通過搜索查詢很難描述用戶復(fù)雜的、潛在需求。
例如“公司最近下發(fā)的、與我日常工作相關(guān)的文件有哪些?”,“我正在瀏覽的文件相關(guān)的文件中,有哪些大家比較關(guān)注?”
幾乎沒有用戶愿意輸入這么多字來找結(jié)果,同時搜索引擎對語義的理解目前還無法做到足夠深入。因此,這類復(fù)雜的、潛在的需求無法通過搜索引擎得到滿意的查詢結(jié)果。所以在滿足這些需求的時候,通過推薦系統(tǒng)設(shè)置的功能(如:相關(guān)推薦、猜你喜歡、瀏覽過該信息的人還在關(guān)注),加上與用戶的交互(篩選、排序、點擊),不斷積累和挖掘用戶偏好,可以將這些難以用文字表達的需求良好的滿足起來。
在搜索引擎中加入推薦系統(tǒng),有多種方式,簡單的做法可以基于查詢query和相關(guān)query,結(jié)合歷史的query和文檔的關(guān)聯(lián)數(shù)據(jù),使用基于規(guī)則和基于內(nèi)容相結(jié)合的方法進行推薦,這種方法就可以滿足一般的需求。

三、常用的推薦方法及算法
1 基于機器學(xué)習(xí)的方法

采用特征工程,提取和衍生出推薦信息(物)的各類特征,同時也提取和衍生出推薦對象(人)的各類特征,應(yīng)用機器學(xué)習(xí)算法,訓(xùn)練出推薦模型。
比如要推薦書籍,對書籍本身可以按照類型分(文藝、科學(xué)、科幻、小說……),按照長短分(短篇、中篇、長篇……),按照文字圖片比分(圖為主、文字為主……)等等;而用戶按照性別、年齡、所在城市等屬性劃分。
這種方法的優(yōu)點是方案簡單穩(wěn)定,缺點是每一個新用戶/物品出現(xiàn)的時候都要對其進行貼標(biāo)簽(tagging),然后對于新的屬性無能為力,需要人為干預(yù)改進。
2 基于內(nèi)容相似的方法
基于內(nèi)容相似的推薦,是根據(jù)用戶過去關(guān)注的內(nèi)容(content),為用戶推薦和他過去關(guān)注的內(nèi)容相似的內(nèi)容。例如,一個推薦書籍的系統(tǒng)可以依據(jù)某個用戶之前喜歡很多的計算機相關(guān)的書籍而為他推薦《機器學(xué)習(xí)導(dǎo)論》。
基于內(nèi)容相似的推薦一般包括以下三步:
(1)Content Representation
為每個content抽取出一些特征來表示此content。
(2)Profile Learning
利用一個用戶過去關(guān)注(及取消關(guān)注)的content的特征數(shù)據(jù),來學(xué)習(xí)出此用戶的偏好特征(profile)。
(3)Recommendation Generation
通過比較上一步得到的用戶profile與候選content的特征,為此用戶推薦一組相關(guān)性最大的content。
3 基于協(xié)同過濾的方法
根據(jù)用戶對目標(biāo)信息的喜好程度,找到和目標(biāo)用戶相似的用戶,然后將待推薦的信息打分,打分的權(quán)重根據(jù)與目標(biāo)用戶愛好類似的用戶的相關(guān)度給出,常見的做法是將用戶和信息之間的interaction做成一個矩陣,然后利用矩陣分解(SVD, LatentFactor)得出用戶的特征矩陣和信息的特征矩陣。
協(xié)同過濾現(xiàn)在是推薦系統(tǒng)比較主流的方法,Yahoo、豆瓣等網(wǎng)站就是采用這種方法。由于是基于用戶的推薦,所以對于熱門的信息,推薦效果往往比基于內(nèi)容相似的方法好很多,然而如果用戶不足,或者信息很冷門,效果就不太好,也就是說對新加入或小眾的信息和用戶不能很好的處理。
四、技術(shù)實現(xiàn)
考慮到本系統(tǒng)應(yīng)用于集團企業(yè)內(nèi)部,使用的用戶數(shù)有限,不適宜采用基于用戶相似的協(xié)同過濾。因此在技術(shù)實現(xiàn)上,以基于內(nèi)容相似的推薦方法為主要框架,結(jié)合bert語義表達、文本相似算法、余弦夾角算法,實現(xiàn)相關(guān)搜索詞、相關(guān)文檔推薦等功能。
1 相關(guān)搜索詞推薦
整體框架是構(gòu)建相關(guān)搜索詞模型,計算歷史搜索詞之間的相關(guān)性,并將搜索詞與最相關(guān)的N個詞存入ES的相關(guān)詞索引中,當(dāng)用戶發(fā)起檢索時,從相關(guān)詞索引中找到對應(yīng)的相關(guān)詞展示出來。

相關(guān)搜索詞推薦


(1)相關(guān)搜索詞的生成
相關(guān)搜索詞模型每日定時運行,計算當(dāng)天新產(chǎn)生的搜索詞,并更新最近M條搜索詞的相關(guān)詞,計算結(jié)果保存在相關(guān)詞索引中。

相關(guān)搜索詞的生成


(2)相關(guān)搜索詞的實時展現(xiàn)
當(dāng)用戶發(fā)起搜索query時,從相關(guān)詞索引中得到與query最相似的詞query*,將query*的相關(guān)詞返回展現(xiàn)在頁面上。

相關(guān)搜索詞的實時展現(xiàn)


(3)詞典維護
項目需要維護停用詞典、自定義詞典,用以優(yōu)化相關(guān)詞推薦的效果。
停用詞典可以過濾掉推薦結(jié)果中需要屏蔽的詞。
自定義詞典示例:將“大數(shù)據(jù)建模”放入自定義詞典中,當(dāng)用戶檢索“如何進行大數(shù)據(jù)建?!睍r,會將大數(shù)據(jù)建模這個自定義的關(guān)鍵詞增加到推薦結(jié)果中。
2 相關(guān)搜索結(jié)果推薦
將用戶檢索詞的相關(guān)搜索詞放入文檔索引中進行檢索,從檢索結(jié)果排除掉當(dāng)前頁面展示的內(nèi)容后,展現(xiàn)在相關(guān)搜索結(jié)果中。

相關(guān)搜索結(jié)果推薦


3 相關(guān)文檔推薦
對于每一篇文檔,通過文檔向量模型生成文檔對應(yīng)的向量,并將向量作為附加內(nèi)容與文檔一一起存到搜索引擎中,定期計算文檔之間的相似度,將最相似的N個文檔作為相關(guān)文檔存到搜索引擎中,當(dāng)用戶瀏覽特定文檔時,將該文檔的相關(guān)文檔列表展示出來。

相關(guān)文檔推薦


(1)文檔向量生成
每次新增文檔時,調(diào)用文檔向量模型,獲取每篇文檔的向量,將文檔及文檔向量保存在搜引擎中。

文檔向量生成


(2)相關(guān)文檔計算
每天定時當(dāng)天新增的每一篇文檔執(zhí)行如下操作:
a.在搜索引擎中搜索該文檔title,獲取前N條得分最高的搜索結(jié)果
b.將該文檔和搜索得到的N個文檔放入相關(guān)文檔模型中,計算語義相似度和字面相似度,并進行加權(quán)得到最終相似度矩陣,將前十個最相關(guān)的文檔保存到搜索引擎中。

相關(guān)文檔計算


(3)同義詞典
項目需要維護領(lǐng)域同義詞典,該詞典內(nèi)的詞在進行相似度計算時起到權(quán)重加大的作用,詞典的結(jié)構(gòu)為[["x1","x2"],"x3",["x4","x5"]...],如果元素為列表,表示列表內(nèi)的元素是同義詞。

五、總結(jié)???
隨著集團級企業(yè)的數(shù)據(jù)沉淀越來越多,高效、可靠的數(shù)據(jù)檢索可以大幅度提升數(shù)據(jù)的利用效率?;谝陨霞夹g(shù)方案,在構(gòu)建非結(jié)構(gòu)化文檔一體化管理平臺的基礎(chǔ)上,實現(xiàn)了用戶檢索時的智能搜索和主動推薦,為公司各級用戶提供業(yè)務(wù)化、融合化、智能化、主動化、個性化的非結(jié)構(gòu)化數(shù)據(jù)信息資源入口,提高了非結(jié)構(gòu)化數(shù)據(jù)管理和應(yīng)用效率,同時提升了業(yè)務(wù)人員在獲取非結(jié)構(gòu)化文件數(shù)據(jù)時的體驗,更好的發(fā)揮數(shù)據(jù)價值。
美林?jǐn)?shù)據(jù)多年來已經(jīng)為高端制造、能源、金融、教育、政務(wù)等多個行業(yè)的上千家大型企業(yè)提供數(shù)據(jù)治理、數(shù)據(jù)分析與挖掘等數(shù)字化技術(shù)服務(wù),持續(xù)幫助企業(yè)發(fā)現(xiàn)數(shù)據(jù)價值。在數(shù)字經(jīng)濟爆發(fā)性增長的當(dāng)下,美林?jǐn)?shù)據(jù)將繼續(xù)發(fā)揮技術(shù)優(yōu)勢與產(chǎn)品優(yōu)勢,加快大數(shù)據(jù)、人工智能與實體產(chǎn)業(yè)的深度融合,進一步推動數(shù)據(jù)產(chǎn)業(yè)發(fā)展,助力企業(yè)實現(xiàn)數(shù)字化轉(zhuǎn)型。

站點地圖
在線咨詢 在線咨詢
在線咨詢
電話聯(lián)系 電話聯(lián)系
電話聯(lián)系
服務(wù)熱線
400-608-2558
029-86698003
需求速聯(lián) 需求速聯(lián)
需求速聯(lián)
返回頂部 返回頂部
返回頂部