<strong id="mztah"></strong>

<strong id="mztah"><sub id="mztah"><strong id="mztah"></strong></sub></strong>

<nobr id="mztah"></nobr>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時(shí)！

請點(diǎn)擊重新獲取二維碼

盲反饋檢索系統(tǒng)實(shí)驗(yàn)記錄一

發(fā)布時(shí)間：2020-07-15 10:43:11 來源：網(wǎng)絡(luò) 閱讀：670 作者：jokance 欄目：web開發(fā)

在進(jìn)行實(shí)驗(yàn)之前，先了解相關(guān)反饋和盲反饋的一些概念：

相關(guān)反饋是基于用戶的，由用戶標(biāo)出初次查詢結(jié)果相關(guān)還是不相關(guān)，再經(jīng)過Rocchio算法或其他算法使檢索結(jié)果更能滿足用戶需求；

盲反饋也稱偽反饋，是由計(jì)算機(jī)自動處理檢索結(jié)果，不需要用戶的參與也可以得到比較滿意的檢索效果。這種方法假定用戶初始檢索結(jié)果的前k篇文檔是相關(guān)的，再由系統(tǒng)抽選出這k篇文檔的特征詞，然后把這些特征詞和初始查詢詞再放入搜索框中進(jìn)行二次檢索，這種行為我們稱之為“擴(kuò)展查詢詞”。通過擴(kuò)展查詢詞可以提高檢索系統(tǒng)的性能。

本項(xiàng)目就是基于盲反饋理論以及結(jié)合相應(yīng)算法編寫一個(gè)檢索系統(tǒng)，并通過一系列的評價(jià)指標(biāo)來測試此系統(tǒng)的性能。本系統(tǒng)是經(jīng)過小組成員結(jié)合相關(guān)理論后而確定實(shí)施的，本文從項(xiàng)目最初代碼的編寫，直到一個(gè)檢索系統(tǒng)的成功運(yùn)行，以及涉及到的信息檢索的理論，筆者都會一一講解。

編程環(huán)境的準(zhǔn)備：PHP+MySQL+Apache（項(xiàng)目初期沒有使用MySQL，隨著后期數(shù)據(jù)集的增大，可以考慮）

額外知識：HTML+CSS+JS+Ajax（主要用于前臺的顯示）

語料庫：本實(shí)驗(yàn)使用搜狗實(shí)驗(yàn)室提供的語料庫http://www.sogou.com/labs/dl/c.html

在測試時(shí)筆者使用的是mini版的10篇IT新聞（文件目錄名問C000010）

在代碼編寫過程中，筆者先使用過程化的方法，然后再把各個(gè)功能封裝到Tool.class.php的工具類中，便于以后代碼重用。

首先，建立自己的詞表。

筆者是這樣考慮的，假如有三篇文檔，文檔內(nèi)容為：

（html html)

（java html java)

（python java）

先對這三遍文檔去重，

（html）

（java html）

（python java）

然后合并這三篇文檔：

（html java html python java）

然后再對其去重，并且按字母升序排列：

（html java python）

這樣就可以得到我們自己的詞典了。

那為什么我們不直接把最初的三篇文檔先合并再去重，這樣不就可以省去對三篇文檔分別去重這一步了嗎？事實(shí)上我們也是這樣做的，上面是為了便于我們理解我們的文檔頻率df是怎么計(jì)算出來的，由紅色字體部分我們可以知道，有多少個(gè)重復(fù)的詞，這個(gè)詞的的文檔頻率就是多少。比如html的df為2，java的為2，python為1.

在中文分詞系統(tǒng)中，我們采用的是分詞工具SCWS，使用PHP調(diào)用他提供的方法get_tops可以得到分詞的情況，在內(nèi)部他已經(jīng)幫我們對每篇文檔去了重，并且計(jì)算出了每個(gè)詞的出現(xiàn)的次數(shù)times。

我們先來了解一下初始配置文件init.inc.php

<?php
define('TEXT_PATH','D:\AppServ\www\BlindFeedback\SogouC.mini.20061127\SogouC.mini\Sample\C000010');
define('ROOT_PATH',dirname(__FILE__));
require_once 'func.inc.php';
require_once 'Tool.class.php';
?>

此文件定義了兩個(gè)常量，TEXT_PATH是保存搜狗實(shí)驗(yàn)室的10篇IT新聞的硬路徑，ROOT_PATH是系統(tǒng)存儲位置的硬路徑；然后是require引入的兩個(gè)文件，func.inc.php用來存放使用到的函數(shù),以后會講到；Tool.class.php存放系統(tǒng)主要的功能，隨著功能的增多，可能會再創(chuàng)建一個(gè)類。以后需要用到的配置都存放到這個(gè)文件中。

在Tool.class.php文件中我們定義了一個(gè)靜態(tài)方法，用來獲得并存儲詞表：

class Tool{
        //獲取并存儲詞表
        static public function dic($seg){
            $dic=array();   //詞表
            for($i=0;$i<count($seg);$i++){
                for($j=0;$j<count($seg[$i]);$j++){
                    array_push($dic,$seg[$i][$j]['word']);
                }
            }
                                                                                                                                                                                                                                                                                                                                                                                                                    
            $dic=array_unique($dic);
            sort($dic);
            $dic=implode(',',$dic);
                                                                                                                                                                                                                                                                                                                                                                                                                    
            //把詞表存儲起來
            $fp=fopen('dic.txt','w');
            if(!$fp) exit('詞典打開失?。?);
            if(!fwrite($fp,$dic)) exit('詞典寫入失??！');
            fclose($fp);
        }
?>

這個(gè)方法需要傳遞一個(gè)參數(shù)，這個(gè)參數(shù)是由Tool.class.php里定義的一個(gè)分詞方法segment得來的，稍后會講到。變量$seg是一個(gè)三維數(shù)組，$seg[i][j][]表示第i篇文檔的第j個(gè)詞。通過兩個(gè)for循環(huán)，把該詞壓入數(shù)組$dic中（array_push方法可以壓入具有相同值的元素），然后array_unique對$dic去重，再按中文拼音字母升序排列，一個(gè)數(shù)組形式的詞表產(chǎn)生了。為了把該詞表存入文件名為dic的txt文件中，需要使用imploded方法把數(shù)組通過“，”連接成字符串，然后在使用文件方法fopen把詞表存入dic.txt.

上面提到的segment分詞方法代碼如下：

//scws分詞
static function segment($str){
                                                                                                                                                                                                                    
    if(!$scws=scws_new()) exit('創(chuàng)建SCWS對象失敗！');      //創(chuàng)建SCWS
    $scws->set_charset('gbk');   //設(shè)置字符集
    if(!$scws->set_dict('C:\Program Files\scws\dict.xdb')) exit('詞典路徑設(shè)置失敗！');
    $scws->set_multi(1);
    $scws->set_ignore(true); //忽略標(biāo)點(diǎn)
                                                                                                                                                                                                                    
    if(is_string($str)){
        $scws->send_text($str);
        $top=$scws->get_tops(800);
    }else if(is_array($str)){
        for($i=0;$i<count($str);$i++){
            $scws->send_text($str[$i]['con']);
            $top[]=$scws->get_tops(800);
        }
    }
    return $top;
                                                                                                                                                                                                                    
}

該方法需要傳第一個(gè)參數(shù)該參數(shù)可以說字符串，也可以是包含內(nèi)容的數(shù)組?？梢允褂孟旅娼榻B的fileStr方法獲取10篇IT新聞的內(nèi)容并把它們存入數(shù)組中。segment方法內(nèi)部都是調(diào)用SCWS提供的分詞方法，如需詳細(xì)了解可以到SCWS官網(wǎng)查看文檔（該項(xiàng)目開源）。筆者只介紹get_tops方法，該方法返回的是最終的分詞結(jié)果：

盲反饋檢索系統(tǒng)實(shí)驗(yàn)記錄一

盲反饋檢索系統(tǒng)實(shí)驗(yàn)記錄一

由于詞的數(shù)量太多，以后實(shí)驗(yàn)效果截圖只截取前面和最后的部分?？梢钥吹絞et_tops的返回結(jié)果是一個(gè)三維數(shù)組[word]表示所截取的詞，[times]表示詞頻,[weight]表示權(quán)重（不是我們所了解的tf*idf），[attr]表示詞性。get_tops方法已經(jīng)為我們除去了大部分無意義的詞。與get_tops相對應(yīng)的是get_result,它返回的是所有分好的詞，包括停用詞、標(biāo)點(diǎn)符號等。

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
PHP錯(cuò)誤處理函數(shù)怎么辦
下一篇新聞：
用python連續(xù)輸入幾個(gè)數(shù)值的方法

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機(jī)網(wǎng)站二維碼

<kbd id="plpie"></kbd>