您好,登錄后才能下訂單哦!
這篇文章主要介紹Pytorch dataloader時(shí)報(bào)錯(cuò)每個(gè)tensor維度不一樣怎么辦,文中介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們一定要看完!
使用pytorch的dataloader報(bào)錯(cuò):
RuntimeError: stack expects each tensor to be equal size, but got [2] at entry 0 and [1] at entry 1
報(bào)錯(cuò)定位:位于定義dataset的代碼中
def __getitem__(self, index): ... return y #此處報(bào)錯(cuò)
報(bào)錯(cuò)內(nèi)容
File "D:\python\lib\site-packages\torch\utils\data\_utils\collate.py", line 55, in default_collate
return torch.stack(batch, 0, out=out)
RuntimeError: stack expects each tensor to be equal size, but got [2] at entry 0 and [1] at entry 1
把前一行的報(bào)錯(cuò)帶上能夠更清楚地明白問(wèn)題在哪里.
從報(bào)錯(cuò)可以看到,是在代碼中執(zhí)行torch.stack時(shí)發(fā)生了報(bào)錯(cuò).因此必須要明白在哪里執(zhí)行了stack操作.
通過(guò)調(diào)試可以發(fā)現(xiàn),在通過(guò)loader加載一個(gè)batch數(shù)據(jù)的時(shí)候,是通過(guò)每一次給一個(gè)隨機(jī)的index取出相應(yīng)的向量.那么最終要形成一個(gè)batch的數(shù)據(jù)就必須要進(jìn)行拼接操作,而torch.stack就是進(jìn)行這里所說(shuō)的拼接.
再來(lái)看看具體報(bào)的什么錯(cuò): 說(shuō)是stack的向量維度不同. 這說(shuō)明在每次給出一個(gè)隨機(jī)的index,返回的y向量的維度應(yīng)該是相同的,而我們這里是不同的.
這樣解決方法也就明確了:使返回的向量y的維度固定下來(lái).
為什么我會(huì)出現(xiàn)這樣的一個(gè)問(wèn)題,是因?yàn)槲业奶卣飨蛄恐写嬖趍ulti-hot特征.而為了節(jié)省空間,我是用一個(gè)列表存儲(chǔ)這個(gè)特征的.示例如下:
feature=[[1,3,5], [0,2], [1,2,5,8]]
這就導(dǎo)致了我每次返回的向量的維度是不同的.因此可以采用向量補(bǔ)全的方法,把不同長(zhǎng)度的向量補(bǔ)全成等長(zhǎng)的.
# 把所有向量的長(zhǎng)度都補(bǔ)為6 multi = np.pad(multi, (0, 6-multi.shape[0]), 'constant', constant_values=(0, -1))
在構(gòu)建dataset重寫的__getitem__方法中要返回相同長(zhǎng)度的tensor.
可以使用向量補(bǔ)全的方法來(lái)解決這個(gè)問(wèn)題.
補(bǔ)充:pytorch學(xué)習(xí)筆記:torch.utils.data下的TensorDataset和DataLoader的使用
對(duì)給定的tensor數(shù)據(jù)(樣本和標(biāo)簽),將它們包裝成dataset。注意,如果是numpy的array,或者Pandas的DataFrame需要先轉(zhuǎn)換成Tensor。
''' data_tensor (Tensor) - 樣本數(shù)據(jù) target_tensor (Tensor) - 樣本目標(biāo)(標(biāo)簽) ''' dataset=torch.utils.data.TensorDataset(data_tensor, target_tensor)
我們先定義一下樣本數(shù)據(jù)和標(biāo)簽數(shù)據(jù),一共有1000個(gè)樣本
import torch import numpy as np num_inputs = 2 num_examples = 1000 true_w = [2, -3.4] true_b = 4.2 features = torch.tensor(np.random.normal(0, 1, (num_examples, num_inputs)), dtype=torch.float) labels = true_w[0] * features[:, 0] + \ true_w[1] * features[:, 1] + true_b labels += torch.tensor(np.random.normal(0, 0.01, size=labels.size()), dtype=torch.float) print(features.shape) print(labels.shape) ''' 輸出:torch.Size([1000, 2]) torch.Size([1000]) '''
然后我們使用TensorDataset來(lái)生成數(shù)據(jù)集
import torch.utils.data as Data # 將訓(xùn)練數(shù)據(jù)的特征和標(biāo)簽組合 dataset = Data.TensorDataset(features, labels)
數(shù)據(jù)加載器,組合數(shù)據(jù)集和采樣器,并在數(shù)據(jù)集上提供單進(jìn)程或多進(jìn)程迭代器。它可以對(duì)我們上面所說(shuō)的數(shù)據(jù)集Dataset作進(jìn)一步的設(shè)置。
dataset (Dataset) – 加載數(shù)據(jù)的數(shù)據(jù)集。
batch_size (int, optional) – 每個(gè)batch加載多少個(gè)樣本(默認(rèn): 1)。
shuffle (bool, optional) – 設(shè)置為True時(shí)會(huì)在每個(gè)epoch重新打亂數(shù)據(jù)(默認(rèn): False).
sampler (Sampler, optional) – 定義從數(shù)據(jù)集中提取樣本的策略。如果指定,則shuffle必須設(shè)置成False。
num_workers (int, optional) – 用多少個(gè)子進(jìn)程加載數(shù)據(jù)。0表示數(shù)據(jù)將在主進(jìn)程中加載(默認(rèn): 0)
pin_memory:內(nèi)存寄存,默認(rèn)為False。在數(shù)據(jù)返回前,是否將數(shù)據(jù)復(fù)制到CUDA內(nèi)存中。
drop_last (bool, optional) – 如果數(shù)據(jù)集大小不能被batch size整除,則設(shè)置為True后可刪除最后一個(gè)不完整的batch。如果設(shè)為False并且數(shù)據(jù)集的大小不能被batch size整除,則最后一個(gè)batch將更小。(默認(rèn): False)
timeout:是用來(lái)設(shè)置數(shù)據(jù)讀取的超時(shí)時(shí)間的,如果超過(guò)這個(gè)時(shí)間還沒(méi)讀取到數(shù)據(jù)的話就會(huì)報(bào)錯(cuò)。 所以,數(shù)值必須大于等于0。
data_iter=torch.utils.data.DataLoader(dataset, batch_size=1, shuffle=False, sampler=None, batch_sampler=None, num_workers=0, collate_fn=None, pin_memory=False, drop_last=False, timeout=0, worker_init_fn=None, multiprocessing_context=None)
上面對(duì)一些重要常用的參數(shù)做了說(shuō)明,其中有一個(gè)參數(shù)是sampler,下面我們對(duì)它有哪些具體取值再做一下說(shuō)明。只列出幾個(gè)常用的取值:
torch.utils.data.sampler.SequentialSampler(dataset)
樣本元素按順序采樣,始終以相同的順序。
torch.utils.data.sampler.RandomSampler(dataset)
樣本元素隨機(jī)采樣,沒(méi)有替換。
torch.utils.data.sampler.SubsetRandomSampler(indices)
樣本元素從指定的索引列表中隨機(jī)抽取,沒(méi)有替換。
下面就來(lái)看一個(gè)例子,該例子使用的dataset就是上面所生成的dataset
data_iter=Data.DataLoader(dataset, batch_size=10, shuffle=False, sampler=torch.utils.data.sampler.RandomSampler(dataset)) for X, y in data_iter: print(X,"\n", y) break ''' 輸出: tensor([[-1.6338, 0.8451], [ 0.7245, -0.7387], [ 0.4672, 0.2623], [-1.9082, 0.0980], [-0.3881, 0.5138], [-0.6983, -0.4712], [ 0.1400, 0.7489], [-0.7761, -0.4596], [-2.2700, -0.2532], [-1.2641, -2.8089]]) tensor([-1.9451, 8.1587, 4.2374, 0.0519, 1.6843, 4.3970, 1.9311, 4.1999,0.5253, 11.2277]) '''
以上是“Pytorch dataloader時(shí)報(bào)錯(cuò)每個(gè)tensor維度不一樣怎么辦”這篇文章的所有內(nèi)容,感謝各位的閱讀!希望分享的內(nèi)容對(duì)大家有幫助,更多相關(guān)知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。