o =¼Ÿebã@s<ddlZddlmZddlmmZGdd„dejƒZdS)éNcs*eZdZdZ‡fdd„Zddd„Z‡ZS)ÚMultiheadAttentionRelativez? Multihead attention with relative positional encoding c s$tt|ƒj||ddddddddS)NgTF)ÚdropoutÚbiasÚadd_bias_kvÚ add_zero_attnÚkdimÚvdim)ÚsuperrÚ__init__)ÚselfÚ embed_dimÚ num_heads©Ú __class__©ú_/home/opencvuniv/Work/Pranav/stereo-transformer/repo-new/stereo-transformer/module/attention.pyr s þz#MultiheadAttentionRelative.__init__Nc Cs®| ¡\}}} | |j} | |j| ksJdƒ‚t ||¡r5t ||¡r5t ||j|j¡jddd\}}} nbt ||¡r—|j}d}| }|j||…dd…f}|durW|||…}t |||¡}|durm|dushJ‚d}d} n*|j}| }d}|j|d…dd…f}|dur‰||d…}t |||¡jddd\}} |durÎt |d|¡ ||d¡}d}d| }|j||…dd…f}|j||…}t |||¡jddd\}}nd}d}t| ƒd}||}|durä||}| ¡ |||j| ¡}|durþ| ¡ d||j| ¡}| dur| ¡ d||j| ¡} |dur| ¡ |||j| ¡}|dur.| ¡ |||j| ¡}t d ||¡}|durOt d ||¡}t d||¡}|||}n|}t| ¡ƒ||j||gksaJ‚|durn|d}||7}|}tj|dd}t | ||j||¡| d ddd¡ ||j|| ¡¡}t| ¡ƒ||j|| gks¤J‚| ||j|| ¡ ddd d¡ ||| ¡}t ||jj|jj¡}|jd d|j}|jd d}|||fS)aÕ Multihead attention :param query: [W,HN,C] :param key: [W,HN,C] :param value: [W,HN,C] :param attn_mask: mask to invalidate attention, -inf is used for invalid attention, [W,W] :param pos_enc: [2W-1,C] :param pos_indexes: index to select relative encodings, flattened in transformer WW :return: output value vector, attention with softmax (for debugging) and raw attention (used for last layer) z(embed_dim must be divisible by num_headsééÿÿÿÿ)ÚdimrNégà¿zwnec,vnec->newvzwnec,wvec->newvzvnec,wvec->newv)NN.é)Úsizer ÚtorchÚequalÚFÚlinearÚin_proj_weightÚin_proj_biasÚchunkÚindex_selectÚviewÚfloatÚ contiguousÚeinsumÚlistÚsoftmaxÚbmmÚpermuteÚreshapeÚout_projÚweightrÚsum)rÚqueryÚkeyÚvalueÚ attn_maskÚpos_encÚpos_indexesÚwÚbszrÚhead_dimÚqÚkÚvÚ_bÚ_startÚ_endÚ_wZq_rZk_rÚscalingZ attn_featZ attn_feat_posZ attn_pos_featÚattnÚraw_attnZv_orrrÚforwardsŠ $ÿ ÿ"( z"MultiheadAttentionRelative.forward)NNN)Ú__name__Ú __module__Ú__qualname__Ú__doc__r r?Ú __classcell__rrrrr sr)rÚtorch.nnÚnnZtorch.nn.functionalÚ functionalrÚMultiheadAttentionrrrrrÚs