溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Extracting, transforming和selecting features的使用方法是什么

發(fā)布時間:2022-01-14 15:46:24 來源:億速云 閱讀:139 作者:iii 欄目:大數(shù)據

本文小編為大家詳細介紹“Extracting, transforming和selecting features的使用方法是什么”,內容詳細,步驟清晰,細節(jié)處理妥當,希望這篇“Extracting, transforming和selecting features的使用方法是什么”文章能幫助大家解決疑惑,下面跟著小編的思路慢慢深入,一起來學習新知識吧。

Table of Contents

  • Feature Extractors 特征提取

    • TF-IDF

    • Word2Vec

    • CountVectorizer

  • Feature Transformers 特征變換

    • Tokenizer 分詞器

    • StopWordsRemover 停用字清除

    • nn-gram

    • Binarizer 二元化方法

    • PCA 主成成分分析

    • PolynomialExpansion 多項式擴展

    • Discrete Cosine Transform (DCT-離散余弦變換) 

    • StringIndexer 字符串-索引變換

    • IndexToString 索引-字符串變換

    • OneHotEncoder 獨熱編碼

    • VectorIndexer 向量類型索引化

    • Interaction 

    • Normalizer 范數(shù)p-norm規(guī)范化

    • StandardScaler  標準化  基于特征矩陣的列,將屬性值轉換至服從正態(tài)分布

    • MinMaxScaler  最大-最小歸一化[0,1]

    • MaxAbsScaler 絕對值歸一化[-1,1]

    • Bucketizer  分箱器

    • ElementwiseProduct Hadamard乘積

    • SQLTransformer SQL變換

    • VectorAssembler 特征向量合并

    • QuantileDiscretizer 分位數(shù)離散化

    • Imputer

  • Feature Selectors  特征選擇

    • VectorSlicer 向量選擇

    • RFormula R模型公式

    • ChiSqSelector 卡方特征選擇

  • Locality Sensitive Hashing  局部哈希敏感

    • Bucketed Random Projection for Euclidean Distance   歐式距離分桶隨機投影

    • MinHash for Jaccard Distance 杰卡德距離

    • Feature Transformation   特征轉換

    • Approximate Similarity Join   近似相似聯(lián)接

    • Approximate Nearest Neighbor Search   近似最近鄰搜索

    • LSH Operations

    • LSH Algorithms

Feature Extractors

TF-IDF

詞頻-逆向文件頻率(TF-IDF)是一種特征向量化方法,廣泛用于文本挖掘中,以反映詞語對語料庫中文檔的重要性。 用tt表示詞語,用dd表示文檔,用DD表示語料庫。 詞語頻率TF(t,d)TF(t,d)是詞語tt在文檔dd中出現(xiàn)的次數(shù),而文檔頻率DF(t,D)DF(t,D)是包含詞語的文檔數(shù)量 tt。 如果我們僅使用詞語頻率來衡量重要性,則很容易過分強調那些經常出現(xiàn)但幾乎沒有有關文檔信息的詞語,e.g. “a”, “the”, and “of”。 如果一個詞語在整個語料庫中經常出現(xiàn),則表示該詞語不包含有關特定文檔的重要信息。 反向文檔頻率是一個詞語提供多少信息的數(shù)字度量:

IDF(t,D)=log|D|+1DF(t,D)+1,

D 是語料庫中文檔的總數(shù)。由于使用了log函數(shù),如果某個詞語出現(xiàn)在所有文檔中,則其IDF值將變?yōu)?。加1是為了避免分母為0的情況。TF-IDF 度量值表示如下:

TFIDF(t,d,D)=TF(t,d)?IDF(t,D).

 在 MLlib ,TF-IDF被分成兩部分:TF 和 IDF,這樣會更靈活。

Extracting, transforming和selecting features的使用方法是什么

TF: HashingTF和CountVectorizer都可以用來生成詞語頻率向量。.
HashingTF是一個轉換器,它接受詞條并將這些術語集轉換為固定長度的特征向量。在文本處理中,一個詞袋模型。HashingTF utilizes the hashing trick.原始特征使用hash 函數(shù)映射成為索引。這里hash函數(shù)是MurmurHash 3。然后根據映射的索引計算詞頻。這種方法避免了需要計算一個全局 term-to-index 地圖,在映射大量語料庫時需要花費更長的時間。但是存在的哈希沖突,即哈希后,不同的原始特征可能會是同一個詞。為了減少碰撞的機會,我們可以增加特征維度,i.e., 提高hash表的桶數(shù)。由于使用了簡單的模將哈希函數(shù)轉換為列索引,建議使用2的冪作為特征維,否則,要素將不會均勻地映射到列。默認的特征維度是218=262,144218=262,144??蛇x的binary toggle parameter控制項頻率計數(shù)。設置為true時,所有非零頻率計數(shù)都設置為1。這對于模擬二進制計數(shù)而非整數(shù)計數(shù)的離散概率模型特別有用。

將文本文檔轉換為詞語計數(shù)的向量。 有關更多詳細信息,請參考 CountVectorizer。.

IDF: IDF是一個Estimator,在一個數(shù)據集上應用它的fit()方法,產生一個IDFModel。 該IDFModel 接收特征向量(由HashingTF產生),然后計算每一個詞在文檔中出現(xiàn)的頻次。IDF會減少那些在語料庫中出現(xiàn)頻率較高的詞的權重。 

Note: spark.ml沒有提供文本分割工具。 We refer users to the Stanford NLP Group and scalanlp/chalk.

讀到這里,這篇“Extracting, transforming和selecting features的使用方法是什么”文章已經介紹完畢,想要掌握這篇文章的知識點還需要大家自己動手實踐使用過才能領會,如果想了解更多相關內容的文章,歡迎關注億速云行業(yè)資訊頻道。

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內容(圖片、視頻和文字)以原創(chuàng)、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI