Extracting, transforming和selecting features的使用方法是什么

發(fā)布時間：2022-01-14 15:46:24 來源：億速云閱讀：139 作者：iii 欄目：大數(shù)據

本文小編為大家詳細介紹“Extracting, transforming和selecting features的使用方法是什么”，內容詳細，步驟清晰，細節(jié)處理妥當，希望這篇“Extracting, transforming和selecting features的使用方法是什么”文章能幫助大家解決疑惑，下面跟著小編的思路慢慢深入，一起來學習新知識吧。

Table of Contents

Feature Extractors 特征提取

TF-IDF
Word2Vec
CountVectorizer

Feature Transformers 特征變換

Tokenizer 分詞器
StopWordsRemover 停用字清除
nn-gram
Binarizer 二元化方法
PCA 主成成分分析
PolynomialExpansion 多項式擴展
Discrete Cosine Transform (DCT-離散余弦變換)
StringIndexer 字符串-索引變換
IndexToString 索引-字符串變換
OneHotEncoder 獨熱編碼
VectorIndexer 向量類型索引化
Interaction
Normalizer 范數(shù)p-norm規(guī)范化
StandardScaler 標準化基于特征矩陣的列，將屬性值轉換至服從正態(tài)分布
MinMaxScaler 最大-最小歸一化[0,1]
MaxAbsScaler 絕對值歸一化[-1,1]
Bucketizer 分箱器
ElementwiseProduct Hadamard乘積
SQLTransformer SQL變換
VectorAssembler 特征向量合并
QuantileDiscretizer 分位數(shù)離散化
Imputer

Feature Selectors 特征選擇

VectorSlicer 向量選擇
RFormula R模型公式
ChiSqSelector 卡方特征選擇

Locality Sensitive Hashing 局部哈希敏感

Bucketed Random Projection for Euclidean Distance 歐式距離分桶隨機投影
MinHash for Jaccard Distance 杰卡德距離
Feature Transformation 特征轉換
Approximate Similarity Join 近似相似聯(lián)接
Approximate Nearest Neighbor Search 近似最近鄰搜索
LSH Operations
LSH Algorithms

Feature Extractors

TF-IDF

詞頻－逆向文件頻率（TF-IDF）是一種特征向量化方法，廣泛用于文本挖掘中，以反映詞語對語料庫中文檔的重要性。用tt表示詞語，用dd表示文檔，用DD表示語料庫。詞語頻率TF(t,d)TF(t,d)是詞語tt在文檔dd中出現(xiàn)的次數(shù)，而文檔頻率DF(t,D)DF(t,D)是包含詞語的文檔數(shù)量 tt。如果我們僅使用詞語頻率來衡量重要性，則很容易過分強調那些經常出現(xiàn)但幾乎沒有有關文檔信息的詞語，e.g. “a”, “the”, and “of”。如果一個詞語在整個語料庫中經常出現(xiàn)，則表示該詞語不包含有關特定文檔的重要信息。反向文檔頻率是一個詞語提供多少信息的數(shù)字度量：

IDF(t,D)=log|D|+1DF(t,D)+1,

D 是語料庫中文檔的總數(shù)。由于使用了log函數(shù)，如果某個詞語出現(xiàn)在所有文檔中，則其IDF值將變?yōu)?。加1是為了避免分母為0的情況。TF-IDF 度量值表示如下：

TFIDF(t,d,D)=TF(t,d)?IDF(t,D).

在 MLlib ，TF-IDF被分成兩部分：TF 和 IDF，這樣會更靈活。

Extracting, transforming和selecting features的使用方法是什么

TF: HashingTF和CountVectorizer都可以用來生成詞語頻率向量。.
HashingTF是一個轉換器，它接受詞條并將這些術語集轉換為固定長度的特征向量。在文本處理中，一個詞袋模型。HashingTF utilizes the hashing trick.原始特征使用hash 函數(shù)映射成為索引。這里hash函數(shù)是MurmurHash 3。然后根據映射的索引計算詞頻。這種方法避免了需要計算一個全局 term-to-index 地圖，在映射大量語料庫時需要花費更長的時間。但是存在的哈希沖突，即哈希后，不同的原始特征可能會是同一個詞。為了減少碰撞的機會，我們可以增加特征維度，i.e., 提高hash表的桶數(shù)。由于使用了簡單的模將哈希函數(shù)轉換為列索引，建議使用2的冪作為特征維，否則，要素將不會均勻地映射到列。默認的特征維度是218=262,144218=262,144?？蛇x的binary toggle parameter控制項頻率計數(shù)。設置為true時，所有非零頻率計數(shù)都設置為1。這對于模擬二進制計數(shù)而非整數(shù)計數(shù)的離散概率模型特別有用。

將文本文檔轉換為詞語計數(shù)的向量。有關更多詳細信息，請參考 CountVectorizer。.

IDF: IDF是一個Estimator，在一個數(shù)據集上應用它的fit（）方法，產生一個IDFModel。該IDFModel 接收特征向量（由HashingTF產生），然后計算每一個詞在文檔中出現(xiàn)的頻次。IDF會減少那些在語料庫中出現(xiàn)頻率較高的詞的權重。

Note: spark.ml沒有提供文本分割工具。 We refer users to the Stanford NLP Group and scalanlp/chalk.

讀到這里，這篇“Extracting, transforming和selecting features的使用方法是什么”文章已經介紹完畢，想要掌握這篇文章的知識點還需要大家自己動手實踐使用過才能領會，如果想了解更多相關內容的文章，歡迎關注億速云行業(yè)資訊頻道。

向AI問一下細節(jié)

Extracting, transforming和selecting features的使用方法是什么

Feature Extractors

TF-IDF

猜你喜歡

最新資訊

相關推薦

相關標簽