數(shù)據(jù)科學家進行機器學習的問題有哪些

發(fā)布時間：2021-12-27 13:44:56 來源：億速云閱讀：107 作者：iii 欄目：大數(shù)據(jù)

本篇內(nèi)容介紹了“數(shù)據(jù)科學家進行機器學習的問題有哪些”的有關知識，在實際案例的操作過程中，不少人都會遇到這樣的困境，接下來就讓小編帶領大家學習一下如何處理這些情況吧！希望大家仔細閱讀，能夠?qū)W有所成！

介紹

機器學習是近來最受歡迎的技能之一。我們組織了各種技能測試，以便數(shù)據(jù)科學家可以檢查自己的這些關鍵技能。這些測試包括機器學習，深度學習，時間序列問題和概率。

總分

以下是分布得分，它們將幫助你評估自己的成績。

數(shù)據(jù)科學家進行機器學習的問題有哪些

超過210人參加了技能測試，獲得的最高分是36。以下是有關分數(shù)的一些統(tǒng)計數(shù)據(jù)。

平均得分：19.36

中位數(shù)得分：21

模式得分：27

問題與解決方案

問題背景

特征F1代表大學學生的等級，可以取特定值：A，B，C，D，E和F。

1）在以下情況下，以下哪一項是正確的？

A）特征F1是定類變量的示例。 B）特征F1是定序變量的示例。 C）它不屬于上述任何類別。 D）這兩個都是

解決方案：（B）

定序變量是在其類別中具有某些順序的變量。例如，應將A級視為比B級更高的等級。

2）以下哪個是確定性算法的示例？

A）PCA

B）K-Means

C）以上都不是

解決方案：（A）

確定性算法是在不同的運行中，其輸出不會改變的算法。如果我們再次運行，PCA會給出相同的結果，但K-Means不會。

3) [對或錯]兩個變量之間的皮爾遜相關性為零，但它們的值仍然可以彼此相關。

A）對

B）錯

解決方案：（A）

Y = X2。請注意，它們不僅相關，而且一個變量是另一個變量的函數(shù)，并且它們之間的皮爾遜相關性為零。

4）對于梯度下降（GD）和隨機梯度下降（SGD），以下哪個陳述是正確的？

在GD和SGD中，你以迭代方式更新一組參數(shù)以最小化誤差函數(shù)。
在SGD中，你必須遍歷訓練集中的所有樣本，才能在每次迭代中一次更新參數(shù)。
在GD中，你可以使用整個數(shù)據(jù)或訓練數(shù)據(jù)的子集在每次迭代中更新參數(shù)。

A）僅1

B）只有2

C）只有3

D）1和2

E）2和3

F）1,2和3

解決方案：（A）

在每次迭代的SGD中，通常選擇包含隨機數(shù)據(jù)樣本的批次，但對于GD，每次迭代均包含所有訓練觀測值。

5）下列哪個超參數(shù)增加時，可能會導致隨機森林過度擬合數(shù)據(jù)？

樹數(shù)
樹深
學習率

A）僅1

B）只有2

C）只有3

D）1和2

E）2和3

F）1, 2和3

解決方案：（B）

通常，如果我們增加樹的深度，將導致過度擬合。學習率不是隨機森林中的超參數(shù)。樹的數(shù)量增加將導致擬合不足。

6）想象一下，你正在使用“ Analytics Vidhya”，并且你想開發(fā)一種機器學習算法，該算法可以預測文章的觀看次數(shù)。

你的分析基于諸如作者姓名，同一位作者過去在Analytics Vidhya上撰寫的文章數(shù)之類的特征以及其他一些特征。在這種情況下，你會選擇以下哪個評估指標？

均方誤差
準確性
F1分數(shù)

A）僅1

B）只有2

C）只有3

D）1和3

E）2和3

F）1和2

解決方案：（A）

可以認為文章的觀看次數(shù)是屬于回歸問題的連續(xù)目標變量。因此，均方誤差將被用作評估指標。

7）下面給出了三個圖像（1,2,3）。以下哪個選項對這些圖像正確？

A) 數(shù)據(jù)科學家進行機器學習的問題有哪些

B) 數(shù)據(jù)科學家進行機器學習的問題有哪些

C) 數(shù)據(jù)科學家進行機器學習的問題有哪些

A）1是tanh，2是ReLU，3是SIGMOID激活函數(shù)。

B）1是SIGMOID，2是ReLU，3是tanh激活函數(shù)。

C）1是ReLU，2是tanh，3是SIGMOID激活函數(shù)。

D）1是tanh，2是SIGMOID，3是ReLU激活函數(shù)。

解決方案：（D）

SIGMOID函數(shù)的范圍是[0,1]。

tanh函數(shù)的范圍是[-1,1]。

RELU函數(shù)的范圍是[0，infinity]。

因此，選項D是正確的答案。

8）以下是訓練文件中目標變量的8個實際值。

[0,0,0,1,1,1,1,1]

目標變量的熵是多少？

A) -(5/8 log(5/8) + 3/8 log(3/8))

B) 5/8 log(5/8) + 3/8 log(3/8)

C) 3/8 log(5/8) + 5/8 log(3/8)

D) 5/8 log(3/8) – 3/8 log(5/8)

解決方案：（A）

熵的公式是數(shù)據(jù)科學家進行機器學習的問題有哪些

所以答案是A。

9）假設你正在使用分類特征，但尚未查看測試數(shù)據(jù)中分類變量的分布。你要在分類特征上應用獨熱編碼（OHE）。如果將OHE應用于訓練數(shù)據(jù)集的分類變量，可能會面臨哪些挑戰(zhàn)？

A）分類變量的所有類別都不在測試數(shù)據(jù)集中。

B）與測試數(shù)據(jù)集相比，類別中的頻率分布在訓練集中有所不同。

C）訓練集和測試集始終具有相同的分布。

D）A和B

E）這些都不是

解決方案：（D）

兩者都是正確的，OHE將無法對測試集中存在但不在訓練集中的類別進行編碼，因此這可能是應用OHE時的主要挑戰(zhàn)之一。如果在訓練和測試中的頻率分布不相同，則選項B中的挑戰(zhàn)也確實存在，你在應用OHE時需要更加小心。

10）Skip gram模型是Word2vec算法中用于詞嵌入的最佳模型之一。下列哪個模型描述了Skip gram模型？

數(shù)據(jù)科學家進行機器學習的問題有哪些

A）A

B）B

C）A和B

D）這些都不是

解決方案：（B）

Word2vec算法中使用了兩個模型（model1和model2）。model1代表CBOW模型，而Model2代表Skip gram模型。

11）假設你正在神經(jīng)網(wǎng)絡的隱藏層中使用激活函數(shù)X。對于任何給定的輸入，在特定的神經(jīng)元處，你得到的輸出為“ -0.0001”。X可以代表以下哪個激活函數(shù)？

A) ReLU

B) tanh

C) SIGMOID

D）這些都不是

解決方案：（B）

該函數(shù)為tanh，因為此函數(shù)的輸出范圍在（-1，-1）之間。

12）對數(shù)損失評估指標可以具有負值。

A）真 B）假

解決方案：（B）

對數(shù)損失不能為負值。

13）關于“Type1”和“Type2”錯誤，以下哪個陳述是正確的？

Type1被稱為誤報，Type2被稱為漏報。
Type1被稱為漏報，Type2被稱為誤報。
當我們拒絕原假設為空的假設時，就會發(fā)生Type1錯誤。

A）僅1

B）只有2

C）只有3

D）1和2

E）1和3

F）2和3

解決方案：（E）

在統(tǒng)計假設檢驗中，I型錯誤是對真實無效假設（“誤報”）的錯誤拒絕，而II型錯誤則是錯誤地保留了虛假假設（“漏報”）。

14）以下哪項是對基于NLP的項目中的文本進行預處理的重要步驟之一？

詞干提取
刪除停頓詞
對象標準化

A）1和2

B）1和3

C）2和3

D）1,2和3

解決方案：（D）

詞干提取是從單詞中去除后綴（“ ing”，“ ly”，“ es”，“ s”等）的基于規(guī)則的基本過程。

停頓詞是那些與數(shù)據(jù)上下文無關的詞，例如is / am / are。

對象標準化也是預處理文本的好方法之一。

15）假設你要將高維數(shù)據(jù)投影到低維。此處使用的兩種最著名的降維算法是PCA和t-SNE。假設你分別對數(shù)據(jù)“ X”應用了這兩種算法，并且獲得了數(shù)據(jù)集“ X_projected_PCA”，“ X_projected_tSNE”。

對于“ X_projected_PCA”和“ X_projected_tSNE”，以下哪種說法正確？

A）X_projected_PCA將在最近鄰空間中進行解釋。

B）X_projected_tSNE將在最近鄰空間中進行解釋。

C）兩者都將在最近鄰空間中進行解釋。

D）他們都不會在最近鄰空間進行解釋。

解決方案：（B）

t-SNE算法考慮最近鄰點以減少數(shù)據(jù)的維數(shù)。因此，在使用t-SNE之后，我們可以認為縮小的維數(shù)也將在最近鄰空間中得到解釋。但是對于PCA則不是這樣。

問題：16-17

下面給出的是兩個特征的三個散點圖。

數(shù)據(jù)科學家進行機器學習的問題有哪些

16）在上圖中，以下哪個是多重共線特征的示例？

A）圖片1中的函數(shù)

B）圖片2中的函數(shù)

C）圖片3中的函數(shù)

D）圖片1和2中的函數(shù)

E）圖片2和3中的函數(shù)

F）圖片3和1中的函數(shù)

解決方案：（D）

在圖像1中，特征具有高正相關性，而在圖像2中，特征之間具有高負相關性，因此在兩個圖像中，特征對都是多重共線特征的示例。

17）在上一個問題中，假設你已確定多重共線特征。你接下來要執(zhí)行以下哪個操作？

刪除兩個共線變量。
刪除兩個共線變量中的一個變量。
刪除相關變量可能會導致信息丟失。為了保留這些變量，我們可以使用懲罰回歸模型，例如嶺回歸或套索回歸。

A）僅1

B）僅2

C）僅3

D）1或3

E）2或3

解決方案：（E）

你不能同時刪除這兩個特征，因為在刪除這兩個特征之后，你將丟失所有信息，因此你應該刪除僅一個特征，或者可以使用L1和L2等正則化算法。

18）將不重要的特征添加到線性回歸模型中可能會導致___。

R平方增加
R平方減少

A）只有1正確

B）只有2正確

C）1或2

D）這些都不是

解決方案：（A）

在特征空間中添加特征后，無論該特征是重要特征還是不重要特征，R平方始終會增加。

19）假設給定三個變量X，Y和Z。（X，Y），（Y，Z）和（X，Z）的皮爾遜相關系數(shù)分別為C1，C2和C3。

現(xiàn)在，你在X的所有值中加了2（即新值變?yōu)閄 + 2），從Y的所有值中減去了2（即新值是Y-2），Z保持不變。（X，Y），（Y，Z）和（X，Z）的新系數(shù)分別由D1，D2和D3給出。D1，D2和D3的值與C1，C2和C3有什么關系？

A）D1 = C1，D2 < C2，D3 > C3

B）D1 = C1，D2 > C2，D3 > C3

C）D1 = C1，D2 > C2，D3 < C3

D）D1 = C1，D2 < C2，D3 < C3

E）D1 = C1，D2 = C2，D3 = C3

F）無法確定

解決方案：（E）

如果你在特征中添加或減去一個值，則特征之間的相關性不會改變。

20）想象一下，你正在解決類別高度不平衡的分類問題。在訓練數(shù)據(jù)中，大多數(shù)類別有99％的時間被觀察到。

對測試數(shù)據(jù)進行預測后，你的模型具有99％的準確性。在這種情況下，以下哪一項是正確的？

對于類別不平衡問題，準確性度量不是一個好主意。
精度度量是解決類別不平衡問題的一個好主意。
準確性和召回率指標對于解決類別不平衡問題很有用。
精度和召回率指標不適用于類別不平衡問題。

A）1和3

B）1和4

C）2和3

D）2和4

解決方案：（A）

參考本文中的問題4。

https://www.analyticsvidhya.com/blog/2016/09/40-interview-questions-asked-at-startups-in-machine-learning-data-science/

21）在集成學習中，你匯總了弱學習模型的預測，因此與單個模型的預測相比，這些模型的集成將提供更好的預測。

對于集成模型中使用的弱學習模型，以下哪個陳述是正確的？

他們通常不會過擬合。
他們有很高的偏差，所以不能解決復雜的學習問題
他們通常過擬合。

A）1和2

B）1和3

C）2和3

D）僅1

E）只有2

F）以上都不是

解決方案：（A）

弱學習模型會確定問題的特定部分。因此，他們通常不會過擬合，這意味著學習能力弱的學習模型具有較低的方差和較高的偏差。

22）對于 K-fold 交叉驗證，以下哪個選項是正確的？

K的增加將導致交叉驗證結果所需的時間更長。
與較低的K值相比，較高的K值將導致交叉驗證結果的置信度較高。
如果K = N，則稱為“留一法(交叉驗證法）”，其中N是觀察數(shù)。

A）1和2

B）2和3

C）1和3

D）1,2和3

解決方案：（D）

k值越大，意味著對高估真實預期誤差的偏差就越?。ㄒ驗橛柧毐稊?shù)將更接近于總數(shù)據(jù)集），而運行時間則更長（隨著你越來越接近極限情況：留一法交叉驗證）。選擇k時，我們還需要考慮k倍精度之間的方差。

問題上下文23-24

交叉驗證是機器學習中超參數(shù)調(diào)整的重要步驟。假設你正在通過使用5折交叉驗證從基于樹的模型的10個不同深度值（值大于2）中選擇GBM來調(diào)整GBM的超參數(shù)“max_depth”。一個算法（在最大深度為2的模型上）4折的訓練時間是10秒，剩下1折的預測時間是2秒。注意：公式中忽略硬件依賴性。

23）對于具有10個不同“max_depth”值的5折交叉驗證的總體執(zhí)行時間，以下哪個選項是正確的？

A）少于100秒

B）100 – 300秒

C）300 – 600秒

D）大于或等于600秒

E）以上都不是

F）無法估算

解決方案：（D）

5折交叉驗證中深度“2”的每次迭代將花費10秒進行訓練，而測試則需要2秒。

因此，5折將花費12 * 5 = 60秒。由于我們正在搜索10個深度值，因此該算法將花費60 * 10 = 600秒。

但是，在深度大于2的情況下訓練和測試模型所花費的時間將比深度為“2”花費更多的時間，因此總體計時將大于600秒。

24）在上一個問題中，如果你訓練相同的算法來調(diào)整2個超參數(shù)，比如“最大深度”和“學習率”。

你想針對最大深度（從給定的10個深度值）和學習率（從給定的5個不同的學習率）中選擇正確的值。在這種情況下，以下哪項將代表總時間？

A）1000-1500秒

B）1500-3000秒

C）大于或等于3000秒

D）這些都不是

解決方案：（D）

與問題23相同。

25）下面給出了針對機器學習算法M1的訓練誤差TE和驗證誤差VE的方案。你要基于TE和VE選擇一個超參數(shù)（H）。

你將根據(jù)上表選擇哪個H值？

解決方案：（D）

根據(jù)表格，選擇D是最好的

26）你將在PCA中做什么以得到與SVD相同的預測？

A）將數(shù)據(jù)轉(zhuǎn)換為均值零

B）將數(shù)據(jù)轉(zhuǎn)換為中位數(shù)零

C）不可能

D）這些都不是

解決方案：（A）

當數(shù)據(jù)的平均值為零時，向量PCA的預測將與SVD相同，否則，在獲取SVD之前必須先將數(shù)據(jù)居中。

問題27-28

假設有一個黑盒算法，該算法使用具有多個觀測值（t1，t2，t3，……..tn）和一個新觀測值（q1）的訓練數(shù)據(jù)。黑盒輸出q1的最近鄰（例如ti）及其對應的類別標簽ci。

你還可以認為該黑盒算法與1-NN（1-最近鄰）相同。

27）可以僅基于此黑盒算法來構造k-NN分類算法。

注意：與k相比，n（訓練觀測值的數(shù)量）非常大。

A）真

B）假

解決方案：（A）

第一步，你在黑盒算法中傳遞了一個觀察值（q1），因此該算法將返回最近鄰的觀察值及其類標簽。

在第二步中，你將其從訓練數(shù)據(jù)中選出最接近的觀測值，然后再次輸入觀測值（q1）。黑盒算法將再次返回最近鄰觀測值及其類標簽。

你需要重復此過程k次

28）我們不想使用1-NN黑盒，而是要使用j-NN（j> 1）算法作為黑盒。對于使用j-NN查找k-NN，以下哪個選項是正確的？

J必須是k的適當因子
J > k
不可能

A）1

B）2

C）3

解決方案：（A）

與問題27相同

29）假設你得到7個散點圖1-7（從左到右），并且你想比較每個散點圖變量之間的皮爾遜相關系數(shù)。

以下哪項是正確的順序？

數(shù)據(jù)科學家進行機器學習的問題有哪些

1 < 2 < 3 <4
1 > 2 > 3 > 4
7 < 6 < 5 <4
7 > 6 > 5 > 4

A）1和3

B）2和3

C）1和4

D）2和4

解決方案：（B）

從圖像1到4的相關性正在降低（絕對值）。但是從圖像4到7，相關性在增加，但其相關性值是負數(shù)（例如0，-0.3，-0.7，-0.99）。

30）你可以使用不同的指標（例如準確性，對數(shù)損失，F(xiàn)分數(shù)）來評估二進制分類問題的性能。假設你正在使用對數(shù)損失函數(shù)作為評估指標。對于將對數(shù)損失解釋為評估指標，以下哪個選項是正確的？

如果分類器對錯誤分類有信心，那么對數(shù)損失會對其進行嚴厲懲罰。
對于特定的觀察結果，分類器為正確的類別分配了很小的概率，那么對數(shù)損失的相應貢獻將非常大。
對數(shù)損失越低，模型越好。

A）1和3

B）2和3

C）1和2

D）1,2和3

解決方案：（D）

問題31-32

以下是數(shù)據(jù)集中給出的五個樣本。

數(shù)據(jù)科學家進行機器學習的問題有哪些

注意：圖像中各點之間的視覺距離代表實際距離。

31）以下哪項是3-NN（3個最近鄰）的留一法交叉驗證準確性？

A）0

D）0.4

C）0.8

D）1

解決方案：（C）

在“留一法”交叉驗證中，我們將選擇（n-1）個用于訓練的觀察值和1個驗證觀察值。將每個點視為交叉驗證點，然后找到該點最近的3個點。

因此，如果你對所有的點重復這個過程，你將得到正確的分類，所有正類在上圖中給出，但負類將被錯誤分類。因此你將得到80%的準確率。

32）以下K值中，哪一個具有最小的留一法交叉驗證精度？

A）1NN

B）3NN

C）4NN

D）都有相同的留一法錯誤

解決方案：（A）

每個點在1-NN中將始終被錯誤分類，這意味著你將獲得0％的精度。

33）假設你獲得了以下數(shù)據(jù)，并且你想應用邏輯回歸模型將其分類為兩個給定的類。

數(shù)據(jù)科學家進行機器學習的問題有哪些

你正在使用具有L1正則化的邏輯回歸。

數(shù)據(jù)科學家進行機器學習的問題有哪些

其中C是正則化參數(shù)，w1和w2是x1和x2的系數(shù)。

當你將C的值從零增加到非常大的值時，以下哪個選項是正確的？

A）首先w2變?yōu)榱悖缓體1變?yōu)榱?/p>

B）首先w1變?yōu)榱?，然后w2變?yōu)榱?/p>

C）兩者同時變?yōu)榱?/p>

D）即使C值很大，兩者也不能為零

解決方案：（B）

通過查看圖像，我們發(fā)現(xiàn)即使僅使用x2，我們也可以有效地執(zhí)行分類。因此，首先，w1將變?yōu)?。隨著正則化參數(shù)的增加，w2將越來越接近于0。

34）假設我們有一個數(shù)據(jù)集，該數(shù)據(jù)集可以在深度為6的決策樹的幫助下以100％的精度進行訓練。現(xiàn)在考慮下面這些點，并根據(jù)這些點選擇選項。

注意：所有其他超級參數(shù)相同，其他因素不受影響。

1. 深度4將具有高偏差和低方差

2. 深度4將具有低偏差和低方差

A）僅1

B）只有2

C）1和2

D）以上都不是

解決方案：（A）

如果此類數(shù)據(jù)適合深度為4的決策樹，則可能會導致數(shù)據(jù)擬合不足。因此，在擬合不足的情況下，將具有較高的偏差和較低的方差。

35）以下哪些選項可用于獲取k-Means算法的全局最小值？

1. 嘗試運行用于不同質(zhì)心初始化的算法

2. 調(diào)整迭代次數(shù)

3. 找出最佳集群數(shù)

A）2和3

B）1和3

C）1和2

D）以上

解決方案：（D）

可以調(diào)整所有選項以找到全局最小值。

36）假設你正在開發(fā)一個項目，該項目是二進制分類問題。你在訓練數(shù)據(jù)集上訓練了模型，并在驗證數(shù)據(jù)集上獲得了以下混淆矩陣。

數(shù)據(jù)科學家進行機器學習的問題有哪些

根據(jù)上述混淆矩陣，選擇以下哪個選項可以為你提供正確的預測？

1. 準確度約為0.91

2. 錯誤分類率約為0.91

3. 誤報率約為0.95

4. 真陽率為?0.95

A）1和3

B）2和4

C）1和4

D）2和3

解決方案：（C）

準確性（正確分類）是（50 + 100）/ 165，幾乎等于0.91。

真陽率是你正確預測陽性分類的次數(shù)，因此真陽率將為100/105 = 0.95，也稱為“敏感度”或“召回率”

37）對于以下哪個超參數(shù)，決策樹算法的值越高越好？

1. 用于拆分的樣本數(shù)

2. 樹的深度

3. 葉子節(jié)點樣本數(shù)

A）1和2

B）2和3

C）1和3

D）1、2和3

E）不能判斷

解決方案：（E）

對于所有三個選項A，B和C，沒有必要增加參數(shù)的值來提高性能。例如，如果我們具有非常高的樹深度值，則生成的樹可能會使數(shù)據(jù)過擬合，并且不能很好地泛化使用。另一方面，如果我們的值很低，則樹可能不足以容納數(shù)據(jù)。因此，我們不能肯定地說“越高越好”。

問題38-39

想象一下，你有一個28 * 28的圖像，并且在其上運行了3 * 3的卷積神經(jīng)網(wǎng)絡，輸入深度為3，輸出深度為8。

注意：“步幅”為1，并且你使用的是相同的填充。

38）使用給定參數(shù)時，輸出特征圖的尺寸是多少？

A）寬度28，高度28和深度8

B）寬度13，高度13和深度8

C）寬度28，高度13和深度8

D）寬度13，高度28和深度8

解決方案：（A）

計算輸出大小的公式是

輸出尺寸=（N – F）/ S + 1

其中，N是輸入大小，F(xiàn)是過濾器大小，S是跨度。

39）使用以下參數(shù)時，輸出特征圖的尺寸是多少？

A）寬度28，高度28和深度8

B）寬度13，高度13和深度8

C）寬度28，高度13和深度8

D）寬度13，高度28和深度8

解決方案：（B）

同上題。

40）假設，我們正在繪制SVM算法中不同C值（懲罰參數(shù)）的可視化圖。由于某些原因，我們忘記了用可視化標記C值。在這種情況下，對于徑向基函數(shù)核，以下哪個選項最能說明以下圖像的C值？

（從左到右為1,2,3，所以C值對于image1為C1，對于image2為C2，對于image3為C3）。

數(shù)據(jù)科學家進行機器學習的問題有哪些

A）C1 = C2 = C3

B）C1 > C2 > C3

C）C1 < C2 < C3

D）這些都不是

解決方案：（C）

誤差項的懲罰參數(shù)C。它還控制平滑決策邊界和正確分類訓練點之間的權衡。對于較大的C值，將選擇邊距較小的超平面進行優(yōu)化。

“數(shù)據(jù)科學家進行機器學習的問題有哪些”的內(nèi)容就介紹到這里了，感謝大家的閱讀。如果想了解更多行業(yè)相關的知識可以關注億速云網(wǎng)站，小編將為大家輸出更多高質(zhì)量的實用文章！

向AI問一下細節(jié)

數(shù)據(jù)科學家進行機器學習的問題有哪些

介紹

總分

問題與解決方案

問題背景

特征F1代表大學學生的等級，可以取特定值：A，B，C，D，E和F。

1）在以下情況下，以下哪一項是正確的？

2）以下哪個是確定性算法的示例？

3) [對或錯]兩個變量之間的皮爾遜相關性為零，但它們的值仍然可以彼此相關。

4）對于梯度下降（GD）和隨機梯度下降（SGD），以下哪個陳述是正確的？

5）下列哪個超參數(shù)增加時，可能會導致隨機森林過度擬合數(shù)據(jù)？

6）想象一下，你正在使用“ Analytics Vidhya”，并且你想開發(fā)一種機器學習算法，該算法可以預測文章的觀看次數(shù)。

7）下面給出了三個圖像（1,2,3）。以下哪個選項對這些圖像正確？

8）以下是訓練文件中目標變量的8個實際值。

[0,0,0,1,1,1,1,1]

目標變量的熵是多少？

9）假設你正在使用分類特征，但尚未查看測試數(shù)據(jù)中分類變量的分布。你要在分類特征上應用獨熱編碼（OHE）。如果將OHE應用于訓練數(shù)據(jù)集的分類變量，可能會面臨哪些挑戰(zhàn)？

10）Skip gram模型是Word2vec算法中用于詞嵌入的最佳模型之一。下列哪個模型描述了Skip gram模型？

11）假設你正在神經(jīng)網(wǎng)絡的隱藏層中使用激活函數(shù)X。對于任何給定的輸入，在特定的神經(jīng)元處，你得到的輸出為“ -0.0001”。X可以代表以下哪個激活函數(shù)？

12） 對數(shù)損失評估指標可以具有負值。

13）關于“Type1”和“Type2”錯誤，以下哪個陳述是正確的？

14）以下哪項是對基于NLP的項目中的文本進行預處理的重要步驟之一？

15）假設你要將高維數(shù)據(jù)投影到低維。此處使用的兩種最著名的降維算法是PCA和t-SNE。假設你分別對數(shù)據(jù)“ X”應用了這兩種算法，并且獲得了數(shù)據(jù)集“ X_projected_PCA”，“ X_projected_tSNE”。

對于“ X_projected_PCA”和“ X_projected_tSNE”，以下哪種說法正確？

問題：16-17

16）在上圖中，以下哪個是多重共線特征的示例？

17）在上一個問題中，假設你已確定多重共線特征。你接下來要執(zhí)行以下哪個操作？

18）將不重要的特征添加到線性回歸模型中可能會導致___。

19）假設給定三個變量X，Y和Z。（X，Y），（Y，Z）和（X，Z）的皮爾遜相關系數(shù)分別為C1，C2和C3。

20）想象一下，你正在解決類別高度不平衡的分類問題。在訓練數(shù)據(jù)中，大多數(shù)類別有99％的時間被觀察到。

21）在集成學習中，你匯總了弱學習模型的預測，因此與單個模型的預測相比，這些模型的集成將提供更好的預測。

22）對于 K-fold 交叉驗證，以下哪個選項是正確的？

問題上下文23-24

23）對于具有10個不同“max_depth”值的5折交叉驗證的總體執(zhí)行時間，以下哪個選項是正確的？

24）在上一個問題中，如果你訓練相同的算法來調(diào)整2個超參數(shù)，比如“最大深度”和“學習率”。

25）下面給出了針對機器學習算法M1的訓練誤差TE和驗證誤差VE的方案。你要基于TE和VE選擇一個超參數(shù)（H）。

26）你將在PCA中做什么以得到與SVD相同的預測？

問題27-28

假設有一個黑盒算法，該算法使用具有多個觀測值（t1，t2，t3，……..tn）和一個新觀測值（q1）的訓練數(shù)據(jù)。黑盒輸出q1的最近鄰（例如ti）及其對應的類別標簽ci。

你還可以認為該黑盒算法與1-NN（1-最近鄰）相同。

27）可以僅基于此黑盒算法來構造k-NN分類算法。

28）我們不想使用1-NN黑盒，而是要使用j-NN（j> 1）算法作為黑盒。對于使用j-NN查找k-NN，以下哪個選項是正確的？

29）假設你得到7個散點圖1-7（從左到右），并且你想比較每個散點圖變量之間的皮爾遜相關系數(shù)。

問題31-32

31）以下哪項是3-NN（3個最近鄰）的留一法交叉驗證準確性？

32）以下K值中，哪一個具有最小的留一法交叉驗證精度？

33）假設你獲得了以下數(shù)據(jù)，并且你想應用邏輯回歸模型將其分類為兩個給定的類。

34）假設我們有一個數(shù)據(jù)集，該數(shù)據(jù)集可以在深度為6的決策樹的幫助下以100％的精度進行訓練。現(xiàn)在考慮下面這些點，并根據(jù)這些點選擇選項。

注意：所有其他超級參數(shù)相同，其他因素不受影響。

1. 深度4將具有高偏差和低方差

2. 深度4將具有低偏差和低方差

35）以下哪些選項可用于獲取k-Means算法的全局最小值？

1. 嘗試運行用于不同質(zhì)心初始化的算法

2. 調(diào)整迭代次數(shù)

3. 找出最佳集群數(shù)

36）假設你正在開發(fā)一個項目，該項目是二進制分類問題。你在訓練數(shù)據(jù)集上訓練了模型，并在驗證數(shù)據(jù)集上獲得了以下混淆矩陣。

根據(jù)上述混淆矩陣，選擇以下哪個選項可以為你提供正確的預測？

1. 準確度約為0.91

2. 錯誤分類率約為0.91

3. 誤報率約為0.95

4. 真陽率為?0.95

37）對于以下哪個超參數(shù)，決策樹算法的值越高越好？

1. 用于拆分的樣本數(shù)

2. 樹的深度

3. 葉子節(jié)點樣本數(shù)

問題38-39

38）使用給定參數(shù)時，輸出特征圖的尺寸是多少？

39）使用以下參數(shù)時，輸出特征圖的尺寸是多少？

40）假設，我們正在繪制SVM算法中不同C值（懲罰參數(shù)）的可視化圖。由于某些原因，我們忘記了用可視化標記C值。在這種情況下，對于徑向基函數(shù)核，以下哪個選項最能說明以下圖像的C值？

猜你喜歡

最新資訊

相關推薦

相關標簽

特征F1代表大學學生的等級，可以取特定值：A，B，C，D，E和F。

1）在以下情況下，以下哪一項是正確的？

3) [對或錯]兩個變量之間的皮爾遜相關性為零，但它們的值仍然可以彼此相關。

4）對于梯度下降（GD）和隨機梯度下降（SGD），以下哪個陳述是正確的？

5）下列哪個超參數(shù)增加時，可能會導致隨機森林過度擬合數(shù)據(jù)？

6）想象一下，你正在使用“ Analytics Vidhya”，并且你想開發(fā)一種機器學習算法，該算法可以預測文章的觀看次數(shù)。

7）下面給出了三個圖像（1,2,3）。以下哪個選項對這些圖像正確？

8）以下是訓練文件中目標變量的8個實際值。

目標變量的熵是多少？

9）假設你正在使用分類特征，但尚未查看測試數(shù)據(jù)中分類變量的分布。你要在分類特征上應用獨熱編碼（OHE）。如果將OHE應用于訓練數(shù)據(jù)集的分類變量，可能會面臨哪些挑戰(zhàn)？

10）Skip gram模型是Word2vec算法中用于詞嵌入的最佳模型之一。下列哪個模型描述了Skip gram模型？

11）假設你正在神經(jīng)網(wǎng)絡的隱藏層中使用激活函數(shù)X。對于任何給定的輸入，在特定的神經(jīng)元處，你得到的輸出為“ -0.0001”。X可以代表以下哪個激活函數(shù)？

12）對數(shù)損失評估指標可以具有負值。

13）關于“Type1”和“Type2”錯誤，以下哪個陳述是正確的？

15）假設你要將高維數(shù)據(jù)投影到低維。此處使用的兩種最著名的降維算法是PCA和t-SNE。假設你分別對數(shù)據(jù)“ X”應用了這兩種算法，并且獲得了數(shù)據(jù)集“ X_projected_PCA”，“ X_projected_tSNE”。

對于“ X_projected_PCA”和“ X_projected_tSNE”，以下哪種說法正確？

16）在上圖中，以下哪個是多重共線特征的示例？

17）在上一個問題中，假設你已確定多重共線特征。你接下來要執(zhí)行以下哪個操作？

18）將不重要的特征添加到線性回歸模型中可能會導致___。

19）假設給定三個變量X，Y和Z。（X，Y），（Y，Z）和（X，Z）的皮爾遜相關系數(shù)分別為C1，C2和C3。

20）想象一下，你正在解決類別高度不平衡的分類問題。在訓練數(shù)據(jù)中，大多數(shù)類別有99％的時間被觀察到。

21）在集成學習中，你匯總了弱學習模型的預測，因此與單個模型的預測相比，這些模型的集成將提供更好的預測。

22）對于 K-fold 交叉驗證，以下哪個選項是正確的？

23）對于具有10個不同“max_depth”值的5折交叉驗證的總體執(zhí)行時間，以下哪個選項是正確的？

24）在上一個問題中，如果你訓練相同的算法來調(diào)整2個超參數(shù)，比如“最大深度”和“學習率”。

25）下面給出了針對機器學習算法M1的訓練誤差TE和驗證誤差VE的方案。你要基于TE和VE選擇一個超參數(shù)（H）。

26）你將在PCA中做什么以得到與SVD相同的預測？

假設有一個黑盒算法，該算法使用具有多個觀測值（t1，t2，t3，……..tn）和一個新觀測值（q1）的訓練數(shù)據(jù)。黑盒輸出q1的最近鄰（例如ti）及其對應的類別標簽ci。

27）可以僅基于此黑盒算法來構造k-NN分類算法。

28）我們不想使用1-NN黑盒，而是要使用j-NN（j> 1）算法作為黑盒。對于使用j-NN查找k-NN，以下哪個選項是正確的？

29）假設你得到7個散點圖1-7（從左到右），并且你想比較每個散點圖變量之間的皮爾遜相關系數(shù)。

31）以下哪項是3-NN（3個最近鄰）的留一法交叉驗證準確性？

32）以下K值中，哪一個具有最小的留一法交叉驗證精度？

33）假設你獲得了以下數(shù)據(jù)，并且你想應用邏輯回歸模型將其分類為兩個給定的類。

34）假設我們有一個數(shù)據(jù)集，該數(shù)據(jù)集可以在深度為6的決策樹的幫助下以100％的精度進行訓練。現(xiàn)在考慮下面這些點，并根據(jù)這些點選擇選項。

注意：所有其他超級參數(shù)相同，其他因素不受影響。

36）假設你正在開發(fā)一個項目，該項目是二進制分類問題。你在訓練數(shù)據(jù)集上訓練了模型，并在驗證數(shù)據(jù)集上獲得了以下混淆矩陣。

根據(jù)上述混淆矩陣，選擇以下哪個選項可以為你提供正確的預測？

37）對于以下哪個超參數(shù)，決策樹算法的值越高越好？

38）使用給定參數(shù)時，輸出特征圖的尺寸是多少？

39）使用以下參數(shù)時，輸出特征圖的尺寸是多少？

40）假設，我們正在繪制SVM算法中不同C值（懲罰參數(shù)）的可視化圖。由于某些原因，我們忘記了用可視化標記C值。在這種情況下，對于徑向基函數(shù)核，以下哪個選項最能說明以下圖像的C值？