本文目錄一覽:
抖音爬蟲從0到1-第三彈:爬取抖音用戶詳細數據
相關文章:
抖音 x-gorgon 03 免費生成接口 抖音6.3.0版本
抖音爬蟲從0到1-第一彈:環境配置
抖音爬蟲從0到1-第二彈:獲取抖音用戶數據
前面介紹了分析了抖音請求header中的 X-gorgon的獲取方法 ,同時在分析 獲取抖音用戶數據的時候 ,我們發現爬取抖音用戶的數據需要使用用戶的user_id和sec_user_id,我們通過抓包工具獲取用戶的id以及sec_user_id,然後通過用戶的關注列表和follow列表獲取更多的用戶的user_id和sec_user_id,下面我將介紹一下如何根據user_id和sec_user_id來獲取抖音用戶的詳細數據。
首先在搭建好的環境中通過Fiddle抓取用戶數據包。
我們知道了請求的api以及請求頭裏面都包含了哪些信息,我們就可以通過手動構造對應的請求參數來爬取用戶的數據了。我已經在 前面的文章 獲取到了 1W+ 的用戶的 uid 以及 sec_user_id 的數據了,然後我們就可以通過這些數據來爬取用戶的詳細數據。
在文章 抖音爬蟲從0到1-第二彈:獲取抖音用戶數據 我們已經介紹了爬取抖音關注列表的api及其構造方法,其實獲取用戶詳細信息和獲取用戶的關注列表的api基本一致,主要都是需要我們自行填充用戶的user_id以及用戶的sec_user_id還有一大堆的時間戳信息,其他的信息都是不變的。下面我們構造獲取用戶詳細信息的api
上文我們已經分析了請求頭,請求頭的構造也比較方便,大部分內容都是固定的,需要我們填充的主要還是幾個時間戳以及對應的X-Gorgon,其中X-Gorgon的構造方法比較複雜,在文章「 抖音 x-gorgon 03 免費生成接口 抖音6.3.0版本 」中我已經提供了一個生成X-Gorgon的接口,但是要注意填入正確的Cookie和Token你才能獲得可用的X-Gorgon,否則你的Gorgon就是不可用的。下圖是請求頭裏面的主要信息:
下面我寫了一個構造請求頭的函數:
根據上面對響應數據的分析,其對應的響應數據是json格式的,而且數據特別多,分析了一下,我找了一些對我比較有用的數據:
以上就是爬取用戶信息的全部內容,碼字不易,還請點贊關注,有任何問題請留言.
抖音算法是什麼?
抖音的算法,其實是一個漏斗機制,跟今日頭條的去中心化的推薦算法原理基本一致。它分為三個步驟:
第一,冷啟動流量池曝光
假設每天在抖音上有100萬人上傳短視頻,抖音會隨機給每個短視頻分配一個平均曝光量的冷啟動流量池。比如,每個短視頻通過審核發出後,平均有1000次曝光
第二,數據挑選
抖音會從這100萬個短視頻的1000次曝光,分析點贊、關注、評論、轉發等各個維度的數據,從中再挑出各項指標超過10%的視頻,每條再平均分配10萬次曝光。然後再去看哪些是點贊、關注、轉發、評論是超過10%的,再滾進下一輪更大的流量池進行推薦。
第三,精品推薦池
通過一輪又一輪驗證,篩選出來點贊率、播放完成率、評論互動率等指標都極高的短視頻才有機會進入精品推薦池,用戶打開時,看到的那些動輒幾十上百萬點贊量的視頻就是這麼來的。
: “我們是聖騎士,不能讓復仇的情緒佔據我們的意識。”,
android抖音短鏈接轉長鏈接
如下:
先從抖音轉出短鏈接,再利用工具轉為長鏈接。抖音聊天消息發送過程就是:
第一步:調用cloud/token接口獲取im token
第二步:登錄im服務,登錄過程參考【7】的調用鏈
第三步:構建創建對話protobuf,創建對話
第四步:使用獲取到的對話信息,構建發送消息protobuf,發送消息
就可以直接生成出短域名連接了。
消息發送這塊主要是找到消息體的構建方法,本身不涉及複雜的算法,只有發送post中才會用到通用算法as/mas、x-gorgon、x-ss-stub等,
這些算法有時間,可以整理一下源碼(純c源碼),另外看到論壇上已經有朋友分享了用過hook 方式搭建webServer方式來調用app 內部api
抖音的算法2021-11-07
視頻上熱門的底層邏輯–抖音的算法
創作者和用戶直接連接,中間的抖音不予干涉,完全由算法決定,這種算法完全取決於你視頻的質量。
1 流量池算法 :500流量開始拼數據,好的進入下一個3000的流量池,在繼續拼數據好的再進入下一個10000的流量池。同樣的邏輯繼續進入十萬流量池,百萬流量池,千萬流量池,熱門流量池。
具體拼那些數據呢? 播放時長 + 完播率+轉粉率+評論率+轉粉率+先贊率 , 播放時長 起着最金額UI的那個的因素。如果播放都沒有完成,那其他的指標幾乎沒用。
2 標籤算法 :標籤存在與抖音賬號上的,你自己的各種維度抖音算後給你打標。你的視頻是那些標籤呢?來源於用戶的觀看, 它會自動根據算法推送給你同類標籤的人。
3 實時算法 :不同的時間地點環境下的視頻。
1 熱門算法 :當下的熱門事件分發給每個人,比如所西安的奔馳女時間,河南發洪水等等。不管你是什麼標籤,全網推送人人都能看到。
2 協同算法 :兩個標籤類似的賬號的互相影響的算法,比如所,A和B都是釣魚的大叔,A刷到一個東北大媽美食賬號,有了停留時長並關注,那抖音也會推薦給B。這是破除信息繭房最有效的辦法。
3 戰略算法 :這是平台不同的時期根據其戰略目標的算法。當平台需要增減用戶和停留時長時,就會自動給你推送流量。比如說2020年,平台扶持影視號,就會給影視號推送大量的流量,就成就了很多的影視大號。所以看清楚平台的近期戰略,就可以事半功倍。現在平台戰略是什麼?你想想?
1 按照目前的算法,不可能客戶,就是通過付費買來用戶的瀏覽,付費只能讓用戶刷到你的視頻,具體看多久,是否點贊,是否轉發關注,完全取決於你的內容和用戶標籤
2 付費算法的額前提是– 內容優質+人群精準
抖音的算法是怎麼樣的?
算法沒有公開。
首先抖音的算法沒有也不會公開,所以大家都不知道。
抖音其實就是一個算法平台,通過大數據智能AI識別大數據,分析每個視頻內容是什麼,通過點贊,停留,評論,轉發,轉粉等動作識別每個用戶的興趣標籤是什麼。然後分別給內容和用戶打上大量的標籤,精準給用戶匹配相關內容。
簡介:
抖音,是由位元組跳動孵化的一款音樂創意短視頻社交軟件。該軟件於2016年9月20日上線,是一個面向全年齡的短視頻社區平台。
2019年1月18日下午,中央電視台與抖音短視頻舉行新聞發佈會,正式宣布抖音將成為《2019年中央廣播電視總台春節聯歡晚會》的獨家社交媒體傳播平台。
會上公布了2019年央視春晚「幸福又一年」的新媒體行動,抖音將同央視春晚在短視頻宣發及社交互動等領域展開全方位深度合作,調動廣大年輕群體,面向全球華人,以參與代替評論,用參與引導關注,助力春晚傳播。
原創文章,作者:CJX6H,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/130084.html