ChrysaLisp is a 64-bit MIMD operating system designed for parallel and distributed computing. It's a self-hosting environment with a responsive GUI and a rich set of development tools, including a Lisp interpreter for scripting and development. The screenshots are impressive.

github.com/vygr/ChrysaLisp

#os #lisp

#lisp #os
in reply to obchoey

ของเราคิดว่า Linux gives a sense of authority จริง พอเริ่มจากการเป็นมือใหม่ ความรู้สึกก็ยังสดใหม่ (ยังไม่ถึง 7 วันเลย) เห็นความแตกต่างกับ OS อื่น รวมถึงชีวิตก่อนหน้านี้ค่อนข้างชัดเจน

แต่ก็เข้าใจว่าสำหรับคนทั่วไป sense of authority อาจไม่ใช่แรงจูงใจที่จะพาเข้าวงการได้ เพราะเขาอาจต้องการจบงานของตัวเองง่ายๆ เร็วๆ ก็เท่านั้น

ดังที่ทุกคนเข้าใจนั่นแหละ ว่าเวลาของคนเรามันมีจำกัด(มากๆ) แล้วก็ต้องเคลื่อนไหวไปตาม priority ของคุณค่าที่เราเลือกรับเข้ามากำหนดชีวิตตัวเอง

reshared this

ชีวิตที่สวยหรูของคนวัย 30: มีบ้าน มีรถ แต่งงาน มีลูก

ชีวิตที่สวยหรูของคนวัย 70: ไม่ต้องหิ้วตะกร้าขนมเดินตะลอนเร่ขายให้คนช่วยซื้อเพราะสงสาร

veer66 reshared this.

Der Klima- und Energiekomplex – TE-Wecker am 20. Juli 2025 tichyseinblick.de/podcast/te-w… Es gibt eine neue Priesterkaste, und ihr Gott heißt „Klima“. Ihm ist alles unterzuordnen. Während weltweit Kernenergie und fossile Energiequellen boomen, kappt die Bundesrepublik ihren Zugang zu günstiger und sicherer Energie freiwillig und klappt damit die Industrie ein. Der Wohlstand wird einer vermeintlichen Hypermoral geopfert. Am Ende sind wir alle ärmer, und die

My couple want to migrate from Spotify. So, I wrote a tool call spotigrate 👉 codeberg.org/foxmean/spotigrat… . I didn't write it from scratch but it is a fork form TidalLister 👉 github.com/brandonjp/tidal-pla… . However, I rewrite almost all on Spotify section to use simple request with API instead of web scrape with Beautiful Soup partly because Spotify only show 30 entities when you scrape by BS.

Spotigrate is by no mean perfect now. It's need API token and Spotify only let you request user created playlist.

จะมีคนหาว่าบ้าไหมนะ อะ ลงช่วงนี้ผมเล่น Cities Skyline (ตามไปดู live ล่าสุดในช่อง) แล้วเป็นการเล่นแบบไม่กู้เงิน ไม่มีของปลดล๊อคหมดแบบ sandbox ตอนนี้ทำเมืองจนมีรถรางละก็เลยมาคิดว่า สมมติถ้าจะเอารถราง "กลับมา" (เผื่อคนไม่รู้กัน กทม.เคยมีรถราง) ผมจะลงตรงไหนดีก็มีถนนราชดำเนินกลาง ที่คิดว่า ตั้ง 12 เลนรถ มันแบ่งเอามาทำให้มันได้มากกว่าแค่รถได้แน่ๆ ต่อให้สมมติโดนหั่นจาก LRT เป็น BRTรูปบนคือผมออกแบบเอง แต่ข้างล่างคือลองใช้เครื่องมี gen ภาพทั้งหลาย ออกมาไม่ตรงที่คิดไว้เป๊ะนะ แต่คิดว่าพอสื่อสารได้
This entry was edited (5 days ago)

How to Adapt Stone Crusher Plant for Indonesia’s Mountainous Regions


Indonesia’s volcanic archipelagos present a paradoxical opportunity for aggregate producers—abundant mineral wealth locked within some of the world’s most challenging topographies. The very geological forces that created Sumatra’s granite cliffs and Java’s andesite ridges also impose formidable barriers to conventional crushing operations. Traditional horizontal plant configurations falter where elevation gradients exceed 30 degrees and access roads resemble serpentine footpaths.

Yet these constraints breed innovation. Forward-thinking operators are reimagining stone crusher plant design through three critical lenses: terrain-responsive engineering, logistical pragmatism, and climate-smart automation. The solutions emerging from Indonesia’s highland quarries are rewriting global best practices for vertical mineral extraction. What follows is a blueprint for transforming mountainous obstacles into competitive advantages.

Terrain-Specific Engineering Modifications

Modular, Tiered Plant Layouts


Static crusher assemblies fail on slopes where foundation leveling becomes prohibitively expensive. Indonesian engineers now deploy cascading modular units—primary crushers perch on excavated ledges, feeding secondaries via inclined conveyors that follow natural contours. This "step farming" approach reduces earthworks by 60% compared to artificial platform construction. The Batu Hijau copper mine’s crushing circuit demonstrates this brilliantly, with its jaw crusher positioned 85 meters above the cone crusher, leveraging gravity for energy-efficient material transfer.

100tph limestone crushing plant for aggregate production in Tanzania

Slope-Adaptive Equipment Bases


Conventional crusher skids slide catastrophically on rain-slickened 25° inclines. Custom fabricated bases with hydraulic outriggers and geogrid-anchored stabilizers now maintain operational stability on gradients up to 35°. PT Gunung Mas Persada’s mobile impact crusher in West Papua utilizes a hybrid spiked-pad system that automatically adjusts leg extensions based on real-time inclinometer data—a technology borrowed from offshore drilling rigs.

Logistical Optimization for Remote Locations

Helicopter-Assisted Plant Deployment


Where switchback roads can’t be carved through protected forests, Indonesian operators pioneered partial airlifting of crusher components. A Metso LT120 jaw crusher was recently disassembled into nine helicopter-transportable modules (max 4.2 tons each) for installation at a 2,100m elevation quarry in Sulawesi. While costly ($220/mt airlifted vs $18/mt by road), this method enables access to premium basalt deposits otherwise unreachable.

crushing plant on-site

Hybrid Power Systems


Grid power unreliability in highlands necessitates creative energy solutions. A North Sumatra plant combines 500kVA diesel generators with lithium-ion battery banks charged during off-peak crushing cycles. The system cuts fuel consumption by 40% while maintaining throughput during monsoon-induced grid failures—a frequent occurrence above 1,500m elevation.

Climate-Resilient Operational Protocols

Monsoon-Proof Material Handling


Horizontal conveyor systems become slurry channels during Indonesia’s 3,000mm/year rainfall. Angled cleated belts with automated water jets now prevent material buildup, while electromagnetic separators installed under transfer points continuously remove ferrous contaminants washed from feed material—a critical upgrade when processing landslide debris.

AI-Driven Predictive Maintenance


Humidity and altitude accelerate wear on crusher components. Smart plants now employ vibration sensors and hyperspectral imaging to predict liner failures before they occur. A Central Java operation reduced unplanned downtime by 78% after implementing AI that cross-references real-time bearing temperature data with historical failure patterns specific to tropical highland conditions.

The Vertical Quarrying Paradigm


Indonesia’s mountainous crusher plants are proving that elevation need not equate to operational limitation. By embracing modularity, alternative logistics, and intelligent automation, operators extract value from vertical real estate that flatter terrains can’t match. The techniques refined in these highland quarries—particularly the gravity-assisted crushing circuits and aerial deployment strategies—are now being adopted in the Andes and Himalayas. What began as geographical compromise has become a blueprint for elevated efficiency.

The next frontier? Fully autonomous stone crusher in Indonesia pods suspended from cable crane systems, currently under prototype testing in East Kalimantan. When implemented, these aerial plants could make sheer cliff faces as workable as open-pit mines—without a single access road.

in reply to aimixgroup

I was amazed at how knowledgeable the team at this Pikesville construction injury law firm was. They walked me through every step and made sure I got the medical treatment and payout I deserved.Get compensation after jobsite accident
in reply to Fedora Project

Fedora Cinemoon or Budgie. I'm not sure yet. It will soon be a Lenovo x240 with Windows replaced.

I've been using it for a long time and am convinced of its stability. It has been running on a mini computer for 5 years without any problems. All upgrades have always worked. I'm very satisfied. And an inexperienced Windows user won't notice any difference in the basic functions. I'll just say: Uncle, there was an upgrade, but otherwise everything is the same as you're used to. 🤣

Cheers 🥂 ✌🏼

สรุปนิดหน่อยจาก Google Cloud Next Extended Bangkok 2025 @ KX


วันนี้กลับมางานในฝั่ง Google ครับ ผมน่าจะไปครั้งสุดท้ายตอนปี 2016 เห็นมันจัดใกล้แถว BTS วงเวียนใหญ่ ก็เลยลองมาฟังครับ หัวข้อที่จดๆในงาน มีตามนี้ครับ

Table of Contents


Spark the Next Big Thing: AI at Google Cloud Next '2025


Speaker Virot Chiraphadhanakul

ใน Session นี้ Speaker มา Recap จากงาน Google Cloud Next'25 (Las Vegas) โดยงานนี้สองมุม

📌 มุมของผู้บริหาร ไปเพื่อที่จะได้เห็นภาพว่าของที่กำลังจะลงทุน มันเอามาใช้งาน เพิ่มโอกาสทางธุรกิจยังไง มีเล่า Use Case โดยมี Blog สรุปว่าแต่ละองค์กรเค้าเอา AI ไป Adapt ยังไง

📌 และส่วนของ Tech ครับ

ปีนี้เน้นส่วน Agents เลย โดย Cloud ของ Google มีความพร้อม 4 ด้าน

📌 AI Hypercomputer - ส่วน Infra ที่มี Data Center + ออกแบบชิป TPU เอง

📌 Research & Models - อย่าง LLM มาจาก Research ของ Google - Attention is All You Need (ลองหาตามมีด้วย)

📌 Vertex AI เป็น Machine Learning Platform + AI Backend + Model อย่าง Gemini ด้วย

  • ตอนนี้ Gemini 2.5 จะได้คะแนนดีที่สุดใน Benchmark ในส่วนของ chatbot arena / Humanity’s Last Exam และของ LLM Performance on Thai O-NET Tests
  • Gemini 2.5 มีหลายรุ่นนะ
    - Pro ตัวใหญ่ Quality + Thinking Model + Reasoning
    - Flash ตัวเล็ก มี Thinking + Reasoning มาให้ด้วย และมี Cost ที่คุ้มกว่าเจ้าอื่นๆ (อิงจาก LLM Performance on Thai O-NET Tests + ภาพด้านล่าง



การเลือกใช้ Model ต้อง Balance Cost / Quality / Speed กันนะ (สามเหลี่ยม PM) โดยเจ้า Gemini 2.5
- เรากำหนดได้นะ Mode
- Thinking Budget เท่าไหร่ ?


  • นอกจากนี้แล้ว แม้ว่า AI มี Context Windows เยอะมาก อย่าง Gemini ได้ 1 ล้าน Token ทำได้
    - มันเก่งขึ้นจริง แต่ Cost จะเพิ่มขึ้นด้วย
    - แต่มีหลายเทคนิคมาช่วย เช่น การทำ RAG มาช่วย เอาที่เกี่ยวมาให้ AI คิด จะลด Cost ได้ชัดเจนเลย



  • LIVE API - โต้ตอบ
    - Use Case เช่น งานSupport มีเล่า Demo Shoptify พอ Model มันเป็น Multi-Model มันจะเห็นภาพScreen / เสียง ทำให้เข้าใจ Context มากขึ้น และพูดคุย เอาข้อมูลทั้งหมดมาแนะนำเราได้
    - ส่วนงาน Dev โดยจากเดิมการยิง API จะเป็นใช้ Web Socket นะ
  • นอกจากมีเปิดตัว Model ต่างครบทุกด้านทั้ง Text / ภาพ / เสียง / VDO
    - Translation ปรับปรุงการแปล.
    - Lyira - Text to Music
    - Veo3 - Generate Video+เสียง //ตอนนี้เห็นเต็ม TikTok
    - ตัว Embedding ที่ช่วยให้เข้าใจมากขึ้น มี Sematic Insight จะตีความคำว่าแมว / ภาพแมว / เสียงแมว / clipแมว มันทำ Vector มาอยู่ในระนาบเดียวกัน มองว่ามันเป็น แมว ได้แล้วนั่นเอง หรือ รููปแมว กับสุนัข และบ้าน จะแยกกลุ่มได้ชัดเจน อย่างสัดว์เลี้ยง กับ สิ่งก่อสร้าง



  • Use Case ของ Etsy เอา AI Model ด้าน Media มาช่วยแนะนำสินค้าเป็นอย่างไร
  • อีก Use Case เคสเอา Gemini ทำ Story Board และเอา VEO3 มาสร้าง Vdo เสียงพากย์ หรือจะสั่งจากเสียงใช้ Chirp 3 ลองทำได้จาก Google AI Studio (แต่ใช้เงินเยอะ แต่ถูกกว่ายกกองไปถ่ายจริงๆ)

ยังมีส่วนของ Platform

  • Vertex AI มีตัว Agent Development Kit มาช่วยเริ่มต้น Dev + Deploy
    - Model Garden เป็น Host Model Google / Open Source (Gemma / LLAMA / Deepseek) หรือ ใช้ Model ของค่ายอืน (เช่น Claude) แต่ Infra GCP อารมณ์แบบ Foundry ของอีกค่าย
    - Model Builder เราสร้าง Model ใช้เอง
    - Agent Builder ส่วนที่ช่วยให้ Dev สร้าง Agent ได้ง่าย
    💡 ทำ Agent to Agent ได้ง่ายผ่านตัว ADK มี Protocal กลาง
    💡 พวก MCP มันช่วยต่อ Tools API เสริมตัว ADK

📌 ส่วนของ Agent เป็นส่วนที่มาใหม่ในปีนี้เลย เน้นไปในส่วน End Users ใช้งานอย่างตัว

  • Google Agentspace - ให้ End User เอา Agent ไปใช้งาน โดยมี
    - Built-In Connector เชื่อมกับรับบต่างๆ
    - Google Expert Agent มาใช้ โดยเด่นๆ Deep Research Agent / Idea Generation Agent (สุมหัว weight idea + เอาแนวคิดทีผสมกันแล้วว่าดีมาให้)
    - Customer Built Agents ทำเองตาม Business Flow รวมถึงอนาคตจะมีตัว Market Place
  • AgentSpace Agent Designer เอาพนักงานทำ Agent ใช้เอง สร้างตาม Workflow ที่ต้องการได้ อีกชนกะ Copilot Studio ของอีกค่าย


นอกจากนี้ มีประเด็นให้เราทิ้งท้ายว่า เราเอา Agent มาทำอะไร หรือ ทำตาม Step ที่เราตั้งไว้ (Workflow) และต้องมี Human In the Loops ไหม


AI Agents


Speaker Aye Hninn Khine

- LLM มีวิวัฒนาการอย่างไร

- แล้ว AI Agent คือ อะไร

📌 Model ที่สิทธิเข้าไปจัดการของรอบข้าง (Environment) ได้รับรู้สภาพในตอนนั้น แล้วตัดสินใจ เช่น เราสั่ง pizza มองว่าได้ตัวร้าน pizza เป็น agent ทำของให้เรา ส่วนเป็นวิธีการไหน แล้วแต่ agent นะ เราอาจจะมี promptไปคุมอีกที
📌 ตัวที่ช่วยให้ Model จัดการของรอบข้าง (Environment) จะเรียกว่า Tools
📌 RAG ยังไม่เป็น Agent มันเอาข้อมูลใน KM มาตอบให้ชัดเจนขึ้น ลด Hallucination
📌 AI Agent มี Flow ตามนี้
INPUT --> LLM --> OUTPUT --> CALL TOOLS TAKE ACTION
ถ้าเราให้ AI ทำการบ้าน + ส่งการบ้าน อันนี้เป็น Agent มีทั้งส่วน LLM ทำการบ้าน และ มี Tools เอาผลที่ได้จาก LLM ส่งการบ้าน

📌 AI Agent Archtitiecture

  • Orchestration ตัวจัด memory / state ว่าจะทำอะไร แล้วต่อยังไง
  • Model - Foundation LLM Model ซึ่ง Run ที่ไหนก็ได้ อาจจะเป็น Cloud / Ollama เป็นต้น
  • Tools ระบบรอบข้างที่เกี่ยวข้องมองเป็นเครื่องมือให้ AI ใช้ เลือกให้เหมาะกับ Requirement ที่ได้ เช่น ราคาตลาด / ข้อมูลสภาพอากาศ เป็นต้น
  • Runtime - สั่งทำงาน

สำหรับการทำงานเพิ่มเติม Speaker แนะนำ Blog huyenchip.com/2025/01/07/agent… สั้นๆ
Ref: huyenchip.com/2025/01/07/agent…

  • Plannner - ตัว LLM Model คิดแผนมาว่าจะทำอะไร ้เช่น แตก Task ย่อย 1 2 3 4 .. / Function calling เป็นต้น
  • Evaluator - เอา plan บางอันไปลองก่อนเอา Feedback มาเก็บไว้ใช้ต่อ จะได้ไม่รอกัน
  • Executor สั่ง Tools ทำงาน

- Type of AI Agent

📌 ReAct Plan (Reasoning + Acting) วางแผล และเอา Output ที่ได้มาปรับ คิด เอา feedback มาปรับปรุง
📌 CodeAgent มาที่วางแผนมาเขียนเป็น Code ให้เลย
📌 SingleAgent - Agent ทำหน้าที่ 1 อย่าง
📌 Multi-Agent - Agent ทำงานเป็นทีม
เปรียบเทียบ ReAct / CodeAgent
- ตอนนี้มี AI Agent Framework อันไหนที่ใช้งานบ้าง

- Workshop / DEMO

📌 มี Demo ของ SmolAgents ให้เล่นกัน colab.research.google.com/driv…
📌 แต่ต้องมี Hugging face Token (Read/ Write) / Google Studio API ใช้ Gemini พวก App Password สำหรับส่งเมล์
📌 ของให้เล่น ดังนี้

  • เอา Agent เพียวมาถาม กับอีกตัวเอาของเดิมมาแหละ แต่เอาข้อมูลจาก DuckDuckGo (Search Engine) มาทำเป็น Grouding ช่วยตรวจความถูกต้องจองข้อมูล
  • Agent that analyzes images with a proprietory model using LiteLLM
  • Agent that solves your assignment, and submits it to your professor via an email อันนี้ดูใกล้กับงานที่ทำงาน มีขั้นตอนแบบ Agent มันเปลี่ยนบริบทแล้วใช้ได้ สรุป Requirement ลูกค้าแล้วเมล์มาหน่อย / หาวิธีแก้ Production Issue แล้วสรุปแนวทางแก้ไขมาใน mail
  • Data Analyst that analyzes cricket matches (IPL)

นอกจากนี้แล้วเราได้ยังสร้าง Agent ได้จาก Vertex AI

  • Google AI Studio ส่งสำหรับ Dev PoC
  • Vertex AI ทำ Backend สำหรับ Prod และตอนนี้มี Version แบบ Low Code ด้วย


From Zero to Interactive with Google ADK


Speaker Natavit Rojcharoenpreeda

📌 Google ADK เป็น Agent Development Kit Framework ของ Google ออกแบบมา Open Eco System optimize มาให้กับ Model ของ Google แต่ก็ใช้กับค่ายอื่นๆก็ได้นะ

- ADK Concept

📌 Agents

  • Base Agent ส่วนเตรียมไว้ให้ Extend ต่อ
  • LLM Based - Model เพียสๆ
  • Workflow Based - Business Logic + Model
    - Sequential Agent - ทำเป็นลำดับ
    - Parallel Agent - ทำพร้อมกัน
    - Loop Agent - ทำวนไป จนกว่าจะเข้า Condition หรือ max retry
  • Custom Logic - กำหนดวิธีคิดเอง

นอกจากนี้แล้ว เวลาเรา Agents มันทำงานร่วมกัน (Multi Agents) จะ Agent อีกตัวมองเป็นผู้จัดการมาค่อยจ่ายงาน (Root / Steering Agent) ก่อนส่งต่อให้ Agent ที่เหมาะสมตามที่ได้บอกใน AgentSkill / AgentCard (อารมณ์แบบ Resume/CV)

📌 Tools เป็นส่วนที่ให้ Agents จัดการ Enviromemnt ภายนอกได้ โดยมี

  • Built-In ของ Google เช่น Search / Mail
  • Third-Party Tools อย่าง Serper/ LangChain / CrewAI.
  • Function Tools ให้มันยิงมาหา Code หรือ API เรา
  • MCP Tools
  • OpenAPI Tools ถ้ามี Spec อย่างพวก Swagger / OpenAPI โยนไฟล์ yaml ให่มันไปบอกว่า เรามี Endpoint อะไรให้ใช้งาน

ส่วนของ Tools ต้องบอกความสามารถว่าทำอะไรได้ โดยการ Comment
import requests# define a function to get exchange ratedef get_fx_rate(base: str, target: str): """ Fetches the current exchange rate between two currencies. Args: base: The base currency (e.g., "SGD"). target: The target currency (e.g., "JPY"). Returns: The exchange rate information as a json response, or None if the rate could not be fetched. """ base_url = "https://hexarate.paikama.co/api/rates/latest" api_url = f"{base_url}/{base}?target={target}" response = requests.get(api_url) if response.status_code == 200: return response.json()
📌 Agent 2 Agent เป็นให้ตัว Agent มาทำงานร่วมกันได้ โดยมองภาพใหญ่ ส่วนตัว MCP ส่วนเสริมให้ Agent เข้าถึง Enviroment ได้มากขึ้น

- Workshop

📌 goo.gle/adk-foundation - ลองสร้าง Agent ขึ้นมา มันตอบได้ตาม Model เราถามคำถาม Classic ไป ฝั่งซ้ายมี Tools ช่วย Debug / Trace ว่าเราทำอะไร
ตัว UI Include มาให้ Framework
📌goo.gle/adk-using-tools จากอันแรก ถ้าเพิ่มความฉลาดต้องใส่ Tools เข้าไป

  • Tools Funtion Calling
  • Tools Google Search > Agents Google Search
    - ตอน Run จะ Error
    - ต้องปรับเป็น Agent อันนี้ Google กลัวว่าตัว Tools Search มันจะกลายเป็นตัวแบกของ Agent เลยให้แยก



  • Tools Third Party - langchain

📌goo.gle/adk-mcp-a2a - ลองเอา Agent มาทำร่วม MCP

  • fastmcp เป็น lib สร้าง mcp server
  • A2A จะมี metadata มองว่าเป็น resume ก็ได้ว่า Agent มีความสามารถอะไร เวลาคุยกันเราก็อ่าน Spec ตรงนี้นอกจาก ใน Framework นี้จะเป็นตัว Class AgentSkill / Class AgentCard //ลองมาถึงตรงนี้คล้าย Sematic Kernel


Google's ADK and the A2A Protocol: Introduction


Speaker Natdhanai Praneenatthavee

- เราทำ Agent ไปเพื่ออะไร ?

📌จากงาน Nvidia CES Speech + Ad Toy Data Rookie มีบอก Trend ว่า Agent ช่วยให้เราทำงานต่างๆได้ง่าย ช่วย Automate ได้ง่าย รวมถึงทำ One Person Business ได้ง่ายขึ้นด้วย จากเดิมจ้างคน เราใช้ Agent หรือ เอามาเสริมในจุดอื่นได้

📌แต่มีอีกมุมตัวการ Layoff คนบางส่วน ถ้า AI แทนได้ ดังนั้นเราต้องพัฒนา Skill ให้ได้

📌ตอนนี้จาก Research ของ Accenture พบว่า Agent มีบทบาทมากขึ้นในอนาคต

สำหรับที่ Speaker มองว่าเด่นๆ

  • Gemini cli
  • Jules - Coding Agent แบบ Copilot
  • Google Agent Development Kit

- Agent 2 Agent

สำหรับ A2A บางส่วนคล้ายกับ Session ก่อนหน้า เลยจะขอละไว้


📌A2A How It Work

  • Framework + CLI ทำ Agent มีมาตรฐานกลาง A2A Protocal ในการเชื่อมกับ Agent อื่นๆ และรองรับ MCP ด้วย
  • การทำงานแยกเป็น Client / Server (Remote) ทำกัน 4 มุม Capability Discovery / Task Management / Collaboration / Negolation
    - End User ส่วงคำขอ
    - Client รับคำขอจาก User และเป็นตัวแทนในการสื่อสาร
    - Server รับ Request จาก Client มาจัดการต่อ และส่งต่อให้ Agent ย่อยๆที่เกี่ยวข้อง

📌Computer Vision เป็นศาสตร์การเข้าใจภาพ มัน คือ อะไร เป็นของอะไร ซึ่งตัวนี้ เอามาเสริมเป็นความสามารถนึงของ Agent ได้ โดยกว่าจะได้เป็น Computer Vision ตอนนี้

  • Classic OpenCV
  • Neural Network
  • Deep Learning จากแนวคิด CNNs / Transformer
  • AI - LLM ที่เราสามารถเอา Base Model และเสริมด้วยเทคนิค Zero Shot / Few Shot เข้าได้ paper ของ Spekaer ที่ทำงานในส่วนนี่

- Workshop

  • Resource Google-Cloud-Next-2025
  • Required
    - Google AI Key (จาก Google AI Studio / VertexAI)
    - Gmail App Password
  • Workshop1:
    - Google Colab เอาไว้ลอง
    - Gemini-Flash + CV Example (Object Detection / OCR พื้นที่ที่ต้องการ + ภาษาไทย) มีตัวอย่าง Prompt พร้อม
  • Workshop2(Fix): เอาที่ลองจาก Workshop1 (Colab) มาแยกเป็น Agent ย่อยๆ dev code ที่เครื่องเรา
    - OCR - Extract Text
    - Send Mail
    และมีตัว root agent ค่อยประสานการทำงาน ผมฟังนึกถึงพวก node ใน n8n ที่เคยลองเลยมีลองคล้ายกัน และอย่างนี้ดีนะ ทำให้เห็นว่าใช้ UI อื่น แทน Default Chat ด้วยนะ


UI แยกMail มาจริงด้วย

Bi-directional Streaming with Gemini Live API


Speaker Kamolphan Liwprasert

- Bi-directional Streaming with Gemini Live API คือ อะไร ?

📌Recap เวลานี้ Gemini มีอะไรใช้ให้บ้าง

  • Gemini 2.5 Pro
  • Gemini 2.5 Flash
  • Gemini 2.0 Flash-lite

ตัว Gemini 2.5 Pro / flash จะมี Native audio output (text to speech) เสียงเป็นธรรมชาติคล้ายคนมากขึ้น ลองได้จาก ai.dev (Google AI Studio) ส่วน Stream

Bi-directional Streaming with Gemini Live API ย่อ Live API


📌Live API คือ อะไร ?

  • ความสามารถในการ Stream เสียงเรา ขาไป (text > speeach) และ กลับ (speeach to text)
  • ตอบแบบ Realtime เป็นธรรมชาติมาก
  • เราพูด Interrupt มันได้นะ มันจะพังเราและเอ๊ะๆ ตอบได้ระดับนึง
  • ใช้งานกับ Use-Case MultiModel ได้


มี demo เยอะ เหมือนกัน เช่น github.com/GoogleCloudPlatform… กดเปิดใน Google Colba ได้เลย


สำหรับในมุม Coding

  • เปลี่ยนจาก REST API (http) มาใช้ Web Socket เปิดช่องทางพิเศษให้ Server Client คุยกันบนทางพืเศษเลย
  • จาก https:// > wss:// (web socker secure)
  • สำหรับ ws กับ webrtc
  • มี doc ลองดูตาม google.github.io/adk-docs/stre…

- Workshop / DEMO

  • Repo: github.com/fonylew/language-bu… อาจจะต้องกำหนด Google Credential ก่อน Run
  • ดูใน Live นะเข้าใจมากกว่า มันคุยโต้ตอบ


Speaker มี Course มาแนะนำด้วยครับ kaggle.com/learn-guide/5-day-g…


Evolution of Gemma 3n for Deploying Local Models on Every Device


Speaker Witthawin Sripheanpol

- What is Gemma

  • gemini ทำโดย deepmind บ ที่ทำ alpha go
  • gemma เป็นเวอร์ชัน open source model ของ gemini
  • ตัว Gemma Design for local device เน้นเล็ก แต่ฉลาดอยู่
  • ตัว Gemma 3 มีปรับให้ Model ใหญ่ขึ้นมี parameter มากขึ้น
  • พอเป็น opensource มีเอาไปต่อยอดหลายแบบ เช่น medgemmea / shieldgemma เอาไปเป็น GuardRail เอากันตอบอะไรแปลก / dolphingemma (how dolphins communicate) //จะมี catgemma ไหมนะ เป็นต้น

- Evolution From Gemma > Gemma3 > Gemma3n

  • Gemma3 - multimodal และ ขนาดเล็ก
  • Gemma3n - เน้น Env ที่เล็กลงไปอีก อย่างพวก iot / mobile device

📌 Model Code อ่านยังไง ?

  • 3 - Verion
  • n - บอก nano สำหรับ modile
  • it - instruction tuning เก่ง chat
  • X - ขนาดของ Model บอกจำนวน RAM ที่ใช้
  • e - effective parameter ตอนออกแบบ Model เลยแบ่งว่าส่วนในใช้ GPU / CPU เรียกว่าลด Resource ได้เยอะเลย



ทำไมถึงต้องทำแบบนี้ เพราะ Mobile มีส่วนของ vRam น้อย เลยต้องแบ่งส่วนของ Model สำหรับ Process ใน ว่าส่วนในใช้ GPU / CPU เรียกว่าลด Resource ได้เยอะเลย งานไหนใช้เท่าไร่ดึง Resource เท่านั้น


📌 ความสามารถของ Gemma3n (Model 2B)

  • Supports 140 languages for text
  • Supports 35 languages for multimodal interactions.
  • Support Long-term conversation
  • เบื่องหลังความเก่งมีหลายอัลกอริทึมยัดเข้าไปใน Model
    - MobileNet เป็นอัลกอรึทึมเบื้องหลังที่ช่วยให้งานด้วยภาพไวขึ้น อย่าง เช่นใน Google Pixel ตอนนี้ MobileNet-V5-300
    - Universal Speech Model (USM) - จัดการด้านเสียง ทำให้เข้าใจมากขึ้น
    เลยเป็น multimodal

📌 Benefit Gemma3n

  • Optimize for on device เหมือนงาน Video / Image
  • Privacy First
  • Multi Modal Understanding
  • Dynamic Resource usage - มันใช้ resource น้อย ถ้า scale คุม cost ได้ แบ่งงานลง CPU ได้ Cost จะถูกลง กว่าซื้อการ์ดจอ

- How to use Gemma3n



- Deploy Gemma3n On Local Device

  • ลองใช้ผ่านตัว ONNX Framework แต่ Client จะดึงข้อมูลนานๆหน่อย Model หลาย GB
    Ref: huggingface.co/onnx-community/…

Resource: Slide / Code

Reference


#GoogleCloud #ITSeminar2025

สรุปนิดหน่อยจาก Google Cloud Next Extended Bangkok 2025 @ KX

วันนี้กลับมางานในฝั่ง Google ครับ ผมน่าจะไปครั้งสุดท้ายตอนปี 2016 เห็นมันจัดใกล้แถว BTS วงเวียนใหญ่ ก็เลยลองมาฟังครับ หัวข้อที่จดๆในงาน มีตามนี้ครับ Spark the Next Big Thing: AI at Google Cloud Next '2025 AI Agents From Zero to Interactive with Google ADK Google's ADK and the A2A Protocol: Introduction Bi-directional Streaming with Gemini Live API Evolution of Gemma 3n for Deploying Local Models on Every…

naiwaen.debuggingsoft.com/2025…


สรุปนิดหน่อยจาก Google Cloud Next Extended Bangkok 2025 @ KX


วันนี้กลับมางานในฝั่ง Google ครับ ผมน่าจะไปครั้งสุดท้ายตอนปี 2016 เห็นมันจัดใกล้แถว BTS วงเวียนใหญ่ ก็เลยลองมาฟังครับ หัวข้อที่จดๆในงาน มีตามนี้ครับ

Table of Contents


Spark the Next Big Thing: AI at Google Cloud Next '2025


Speaker Virot Chiraphadhanakul

ใน Session นี้ Speaker มา Recap จากงาน Google Cloud Next'25 (Las Vegas) โดยงานนี้สองมุม

📌 มุมของผู้บริหาร ไปเพื่อที่จะได้เห็นภาพว่าของที่กำลังจะลงทุน มันเอามาใช้งาน เพิ่มโอกาสทางธุรกิจยังไง มีเล่า Use Case โดยมี Blog สรุปว่าแต่ละองค์กรเค้าเอา AI ไป Adapt ยังไง

📌 และส่วนของ Tech ครับ

ปีนี้เน้นส่วน Agents เลย โดย Cloud ของ Google มีความพร้อม 4 ด้าน

📌 AI Hypercomputer - ส่วน Infra ที่มี Data Center + ออกแบบชิป TPU เอง

📌 Research & Models - อย่าง LLM มาจาก Research ของ Google - Attention is All You Need (ลองหาตามมีด้วย)

📌 Vertex AI เป็น Machine Learning Platform + AI Backend + Model อย่าง Gemini ด้วย

  • ตอนนี้ Gemini 2.5 จะได้คะแนนดีที่สุดใน Benchmark ในส่วนของ chatbot arena / Humanity’s Last Exam และของ LLM Performance on Thai O-NET Tests
  • Gemini 2.5 มีหลายรุ่นนะ
    - Pro ตัวใหญ่ Quality + Thinking Model + Reasoning
    - Flash ตัวเล็ก มี Thinking + Reasoning มาให้ด้วย และมี Cost ที่คุ้มกว่าเจ้าอื่นๆ (อิงจาก LLM Performance on Thai O-NET Tests + ภาพด้านล่าง



การเลือกใช้ Model ต้อง Balance Cost / Quality / Speed กันนะ (สามเหลี่ยม PM) โดยเจ้า Gemini 2.5
- เรากำหนดได้นะ Mode
- Thinking Budget เท่าไหร่ ?


  • นอกจากนี้แล้ว แม้ว่า AI มี Context Windows เยอะมาก อย่าง Gemini ได้ 1 ล้าน Token ทำได้
    - มันเก่งขึ้นจริง แต่ Cost จะเพิ่มขึ้นด้วย
    - แต่มีหลายเทคนิคมาช่วย เช่น การทำ RAG มาช่วย เอาที่เกี่ยวมาให้ AI คิด จะลด Cost ได้ชัดเจนเลย



  • LIVE API - โต้ตอบ
    - Use Case เช่น งานSupport มีเล่า Demo Shoptify พอ Model มันเป็น Multi-Model มันจะเห็นภาพScreen / เสียง ทำให้เข้าใจ Context มากขึ้น และพูดคุย เอาข้อมูลทั้งหมดมาแนะนำเราได้
    - ส่วนงาน Dev โดยจากเดิมการยิง API จะเป็นใช้ Web Socket นะ
  • นอกจากมีเปิดตัว Model ต่างครบทุกด้านทั้ง Text / ภาพ / เสียง / VDO
    - Translation ปรับปรุงการแปล.
    - Lyira - Text to Music
    - Veo3 - Generate Video+เสียง //ตอนนี้เห็นเต็ม TikTok
    - ตัว Embedding ที่ช่วยให้เข้าใจมากขึ้น มี Sematic Insight จะตีความคำว่าแมว / ภาพแมว / เสียงแมว / clipแมว มันทำ Vector มาอยู่ในระนาบเดียวกัน มองว่ามันเป็น แมว ได้แล้วนั่นเอง หรือ รููปแมว กับสุนัข และบ้าน จะแยกกลุ่มได้ชัดเจน อย่างสัดว์เลี้ยง กับ สิ่งก่อสร้าง



  • Use Case ของ Etsy เอา AI Model ด้าน Media มาช่วยแนะนำสินค้าเป็นอย่างไร
  • อีก Use Case เคสเอา Gemini ทำ Story Board และเอา VEO3 มาสร้าง Vdo เสียงพากย์ หรือจะสั่งจากเสียงใช้ Chirp 3 ลองทำได้จาก Google AI Studio (แต่ใช้เงินเยอะ แต่ถูกกว่ายกกองไปถ่ายจริงๆ)

ยังมีส่วนของ Platform

  • Vertex AI มีตัว Agent Development Kit มาช่วยเริ่มต้น Dev + Deploy
    - Model Garden เป็น Host Model Google / Open Source (Gemma / LLAMA / Deepseek) หรือ ใช้ Model ของค่ายอืน (เช่น Claude) แต่ Infra GCP อารมณ์แบบ Foundry ของอีกค่าย
    - Model Builder เราสร้าง Model ใช้เอง
    - Agent Builder ส่วนที่ช่วยให้ Dev สร้าง Agent ได้ง่าย
    💡 ทำ Agent to Agent ได้ง่ายผ่านตัว ADK มี Protocal กลาง
    💡 พวก MCP มันช่วยต่อ Tools API เสริมตัว ADK

📌 ส่วนของ Agent เป็นส่วนที่มาใหม่ในปีนี้เลย เน้นไปในส่วน End Users ใช้งานอย่างตัว

  • Google Agentspace - ให้ End User เอา Agent ไปใช้งาน โดยมี
    - Built-In Connector เชื่อมกับรับบต่างๆ
    - Google Expert Agent มาใช้ โดยเด่นๆ Deep Research Agent / Idea Generation Agent (สุมหัว weight idea + เอาแนวคิดทีผสมกันแล้วว่าดีมาให้)
    - Customer Built Agents ทำเองตาม Business Flow รวมถึงอนาคตจะมีตัว Market Place
  • AgentSpace Agent Designer เอาพนักงานทำ Agent ใช้เอง สร้างตาม Workflow ที่ต้องการได้ อีกชนกะ Copilot Studio ของอีกค่าย


นอกจากนี้ มีประเด็นให้เราทิ้งท้ายว่า เราเอา Agent มาทำอะไร หรือ ทำตาม Step ที่เราตั้งไว้ (Workflow) และต้องมี Human In the Loops ไหม


AI Agents


Speaker Aye Hninn Khine

- LLM มีวิวัฒนาการอย่างไร

- แล้ว AI Agent คือ อะไร

📌 Model ที่สิทธิเข้าไปจัดการของรอบข้าง (Environment) ได้รับรู้สภาพในตอนนั้น แล้วตัดสินใจ เช่น เราสั่ง pizza มองว่าได้ตัวร้าน pizza เป็น agent ทำของให้เรา ส่วนเป็นวิธีการไหน แล้วแต่ agent นะ เราอาจจะมี promptไปคุมอีกที
📌 ตัวที่ช่วยให้ Model จัดการของรอบข้าง (Environment) จะเรียกว่า Tools
📌 RAG ยังไม่เป็น Agent มันเอาข้อมูลใน KM มาตอบให้ชัดเจนขึ้น ลด Hallucination
📌 AI Agent มี Flow ตามนี้
INPUT --> LLM --> OUTPUT --> CALL TOOLS TAKE ACTION
ถ้าเราให้ AI ทำการบ้าน + ส่งการบ้าน อันนี้เป็น Agent มีทั้งส่วน LLM ทำการบ้าน และ มี Tools เอาผลที่ได้จาก LLM ส่งการบ้าน

📌 AI Agent Archtitiecture

  • Orchestration ตัวจัด memory / state ว่าจะทำอะไร แล้วต่อยังไง
  • Model - Foundation LLM Model ซึ่ง Run ที่ไหนก็ได้ อาจจะเป็น Cloud / Ollama เป็นต้น
  • Tools ระบบรอบข้างที่เกี่ยวข้องมองเป็นเครื่องมือให้ AI ใช้ เลือกให้เหมาะกับ Requirement ที่ได้ เช่น ราคาตลาด / ข้อมูลสภาพอากาศ เป็นต้น
  • Runtime - สั่งทำงาน

สำหรับการทำงานเพิ่มเติม Speaker แนะนำ Blog huyenchip.com/2025/01/07/agent… สั้นๆ
Ref: huyenchip.com/2025/01/07/agent…

  • Plannner - ตัว LLM Model คิดแผนมาว่าจะทำอะไร ้เช่น แตก Task ย่อย 1 2 3 4 .. / Function calling เป็นต้น
  • Evaluator - เอา plan บางอันไปลองก่อนเอา Feedback มาเก็บไว้ใช้ต่อ จะได้ไม่รอกัน
  • Executor สั่ง Tools ทำงาน

- Type of AI Agent

📌 ReAct Plan (Reasoning + Acting) วางแผล และเอา Output ที่ได้มาปรับ คิด เอา feedback มาปรับปรุง
📌 CodeAgent มาที่วางแผนมาเขียนเป็น Code ให้เลย
📌 SingleAgent - Agent ทำหน้าที่ 1 อย่าง
📌 Multi-Agent - Agent ทำงานเป็นทีม
เปรียบเทียบ ReAct / CodeAgent
- ตอนนี้มี AI Agent Framework อันไหนที่ใช้งานบ้าง

- Workshop / DEMO

📌 มี Demo ของ SmolAgents ให้เล่นกัน colab.research.google.com/driv…
📌 แต่ต้องมี Hugging face Token (Read/ Write) / Google Studio API ใช้ Gemini พวก App Password สำหรับส่งเมล์
📌 ของให้เล่น ดังนี้

  • เอา Agent เพียวมาถาม กับอีกตัวเอาของเดิมมาแหละ แต่เอาข้อมูลจาก DuckDuckGo (Search Engine) มาทำเป็น Grouding ช่วยตรวจความถูกต้องจองข้อมูล
  • Agent that analyzes images with a proprietory model using LiteLLM
  • Agent that solves your assignment, and submits it to your professor via an email อันนี้ดูใกล้กับงานที่ทำงาน มีขั้นตอนแบบ Agent มันเปลี่ยนบริบทแล้วใช้ได้ สรุป Requirement ลูกค้าแล้วเมล์มาหน่อย / หาวิธีแก้ Production Issue แล้วสรุปแนวทางแก้ไขมาใน mail
  • Data Analyst that analyzes cricket matches (IPL)

นอกจากนี้แล้วเราได้ยังสร้าง Agent ได้จาก Vertex AI

  • Google AI Studio ส่งสำหรับ Dev PoC
  • Vertex AI ทำ Backend สำหรับ Prod และตอนนี้มี Version แบบ Low Code ด้วย


From Zero to Interactive with Google ADK


Speaker Natavit Rojcharoenpreeda

📌 Google ADK เป็น Agent Development Kit Framework ของ Google ออกแบบมา Open Eco System optimize มาให้กับ Model ของ Google แต่ก็ใช้กับค่ายอื่นๆก็ได้นะ

- ADK Concept

📌 Agents

  • Base Agent ส่วนเตรียมไว้ให้ Extend ต่อ
  • LLM Based - Model เพียสๆ
  • Workflow Based - Business Logic + Model
    - Sequential Agent - ทำเป็นลำดับ
    - Parallel Agent - ทำพร้อมกัน
    - Loop Agent - ทำวนไป จนกว่าจะเข้า Condition หรือ max retry
  • Custom Logic - กำหนดวิธีคิดเอง

นอกจากนี้แล้ว เวลาเรา Agents มันทำงานร่วมกัน (Multi Agents) จะ Agent อีกตัวมองเป็นผู้จัดการมาค่อยจ่ายงาน (Root / Steering Agent) ก่อนส่งต่อให้ Agent ที่เหมาะสมตามที่ได้บอกใน AgentSkill / AgentCard (อารมณ์แบบ Resume/CV)

📌 Tools เป็นส่วนที่ให้ Agents จัดการ Enviromemnt ภายนอกได้ โดยมี

  • Built-In ของ Google เช่น Search / Mail
  • Third-Party Tools อย่าง Serper/ LangChain / CrewAI.
  • Function Tools ให้มันยิงมาหา Code หรือ API เรา
  • MCP Tools
  • OpenAPI Tools ถ้ามี Spec อย่างพวก Swagger / OpenAPI โยนไฟล์ yaml ให่มันไปบอกว่า เรามี Endpoint อะไรให้ใช้งาน

ส่วนของ Tools ต้องบอกความสามารถว่าทำอะไรได้ โดยการ Comment
import requests# define a function to get exchange ratedef get_fx_rate(base: str, target: str): """ Fetches the current exchange rate between two currencies. Args: base: The base currency (e.g., "SGD"). target: The target currency (e.g., "JPY"). Returns: The exchange rate information as a json response, or None if the rate could not be fetched. """ base_url = "https://hexarate.paikama.co/api/rates/latest" api_url = f"{base_url}/{base}?target={target}" response = requests.get(api_url) if response.status_code == 200: return response.json()
📌 Agent 2 Agent เป็นให้ตัว Agent มาทำงานร่วมกันได้ โดยมองภาพใหญ่ ส่วนตัว MCP ส่วนเสริมให้ Agent เข้าถึง Enviroment ได้มากขึ้น

- Workshop

📌 goo.gle/adk-foundation - ลองสร้าง Agent ขึ้นมา มันตอบได้ตาม Model เราถามคำถาม Classic ไป ฝั่งซ้ายมี Tools ช่วย Debug / Trace ว่าเราทำอะไร
ตัว UI Include มาให้ Framework
📌goo.gle/adk-using-tools จากอันแรก ถ้าเพิ่มความฉลาดต้องใส่ Tools เข้าไป

  • Tools Funtion Calling
  • Tools Google Search > Agents Google Search
    - ตอน Run จะ Error
    - ต้องปรับเป็น Agent อันนี้ Google กลัวว่าตัว Tools Search มันจะกลายเป็นตัวแบกของ Agent เลยให้แยก



  • Tools Third Party - langchain

📌goo.gle/adk-mcp-a2a - ลองเอา Agent มาทำร่วม MCP

  • fastmcp เป็น lib สร้าง mcp server
  • A2A จะมี metadata มองว่าเป็น resume ก็ได้ว่า Agent มีความสามารถอะไร เวลาคุยกันเราก็อ่าน Spec ตรงนี้นอกจาก ใน Framework นี้จะเป็นตัว Class AgentSkill / Class AgentCard //ลองมาถึงตรงนี้คล้าย Sematic Kernel


Google's ADK and the A2A Protocol: Introduction


Speaker Natdhanai Praneenatthavee

- เราทำ Agent ไปเพื่ออะไร ?

📌จากงาน Nvidia CES Speech + Ad Toy Data Rookie มีบอก Trend ว่า Agent ช่วยให้เราทำงานต่างๆได้ง่าย ช่วย Automate ได้ง่าย รวมถึงทำ One Person Business ได้ง่ายขึ้นด้วย จากเดิมจ้างคน เราใช้ Agent หรือ เอามาเสริมในจุดอื่นได้

📌แต่มีอีกมุมตัวการ Layoff คนบางส่วน ถ้า AI แทนได้ ดังนั้นเราต้องพัฒนา Skill ให้ได้

📌ตอนนี้จาก Research ของ Accenture พบว่า Agent มีบทบาทมากขึ้นในอนาคต

สำหรับที่ Speaker มองว่าเด่นๆ

  • Gemini cli
  • Jules - Coding Agent แบบ Copilot
  • Google Agent Development Kit

- Agent 2 Agent

สำหรับ A2A บางส่วนคล้ายกับ Session ก่อนหน้า เลยจะขอละไว้


📌A2A How It Work

  • Framework + CLI ทำ Agent มีมาตรฐานกลาง A2A Protocal ในการเชื่อมกับ Agent อื่นๆ และรองรับ MCP ด้วย
  • การทำงานแยกเป็น Client / Server (Remote) ทำกัน 4 มุม Capability Discovery / Task Management / Collaboration / Negolation
    - End User ส่วงคำขอ
    - Client รับคำขอจาก User และเป็นตัวแทนในการสื่อสาร
    - Server รับ Request จาก Client มาจัดการต่อ และส่งต่อให้ Agent ย่อยๆที่เกี่ยวข้อง

📌Computer Vision เป็นศาสตร์การเข้าใจภาพ มัน คือ อะไร เป็นของอะไร ซึ่งตัวนี้ เอามาเสริมเป็นความสามารถนึงของ Agent ได้ โดยกว่าจะได้เป็น Computer Vision ตอนนี้

  • Classic OpenCV
  • Neural Network
  • Deep Learning จากแนวคิด CNNs / Transformer
  • AI - LLM ที่เราสามารถเอา Base Model และเสริมด้วยเทคนิค Zero Shot / Few Shot เข้าได้ paper ของ Spekaer ที่ทำงานในส่วนนี่

- Workshop

  • Resource Google-Cloud-Next-2025
  • Required
    - Google AI Key (จาก Google AI Studio / VertexAI)
    - Gmail App Password
  • Workshop1:
    - Google Colab เอาไว้ลอง
    - Gemini-Flash + CV Example (Object Detection / OCR พื้นที่ที่ต้องการ + ภาษาไทย) มีตัวอย่าง Prompt พร้อม
  • Workshop2(Fix): เอาที่ลองจาก Workshop1 (Colab) มาแยกเป็น Agent ย่อยๆ dev code ที่เครื่องเรา
    - OCR - Extract Text
    - Send Mail
    และมีตัว root agent ค่อยประสานการทำงาน ผมฟังนึกถึงพวก node ใน n8n ที่เคยลองเลยมีลองคล้ายกัน และอย่างนี้ดีนะ ทำให้เห็นว่าใช้ UI อื่น แทน Default Chat ด้วยนะ


UI แยกMail มาจริงด้วย

Bi-directional Streaming with Gemini Live API


Speaker Kamolphan Liwprasert

- Bi-directional Streaming with Gemini Live API คือ อะไร ?

📌Recap เวลานี้ Gemini มีอะไรใช้ให้บ้าง

  • Gemini 2.5 Pro
  • Gemini 2.5 Flash
  • Gemini 2.0 Flash-lite

ตัว Gemini 2.5 Pro / flash จะมี Native audio output (text to speech) เสียงเป็นธรรมชาติคล้ายคนมากขึ้น ลองได้จาก ai.dev (Google AI Studio) ส่วน Stream

Bi-directional Streaming with Gemini Live API ย่อ Live API


📌Live API คือ อะไร ?

  • ความสามารถในการ Stream เสียงเรา ขาไป (text > speeach) และ กลับ (speeach to text)
  • ตอบแบบ Realtime เป็นธรรมชาติมาก
  • เราพูด Interrupt มันได้นะ มันจะพังเราและเอ๊ะๆ ตอบได้ระดับนึง
  • ใช้งานกับ Use-Case MultiModel ได้


มี demo เยอะ เหมือนกัน เช่น github.com/GoogleCloudPlatform… กดเปิดใน Google Colba ได้เลย


สำหรับในมุม Coding

  • เปลี่ยนจาก REST API (http) มาใช้ Web Socket เปิดช่องทางพิเศษให้ Server Client คุยกันบนทางพืเศษเลย
  • จาก https:// > wss:// (web socker secure)
  • สำหรับ ws กับ webrtc
  • มี doc ลองดูตาม google.github.io/adk-docs/stre…

- Workshop / DEMO

  • Repo: github.com/fonylew/language-bu… อาจจะต้องกำหนด Google Credential ก่อน Run
  • ดูใน Live นะเข้าใจมากกว่า มันคุยโต้ตอบ


Speaker มี Course มาแนะนำด้วยครับ kaggle.com/learn-guide/5-day-g…


Evolution of Gemma 3n for Deploying Local Models on Every Device


Speaker Witthawin Sripheanpol

- What is Gemma

  • gemini ทำโดย deepmind บ ที่ทำ alpha go
  • gemma เป็นเวอร์ชัน open source model ของ gemini
  • ตัว Gemma Design for local device เน้นเล็ก แต่ฉลาดอยู่
  • ตัว Gemma 3 มีปรับให้ Model ใหญ่ขึ้นมี parameter มากขึ้น
  • พอเป็น opensource มีเอาไปต่อยอดหลายแบบ เช่น medgemmea / shieldgemma เอาไปเป็น GuardRail เอากันตอบอะไรแปลก / dolphingemma (how dolphins communicate) //จะมี catgemma ไหมนะ เป็นต้น

- Evolution From Gemma > Gemma3 > Gemma3n

  • Gemma3 - multimodal และ ขนาดเล็ก
  • Gemma3n - เน้น Env ที่เล็กลงไปอีก อย่างพวก iot / mobile device

📌 Model Code อ่านยังไง ?

  • 3 - Verion
  • n - บอก nano สำหรับ modile
  • it - instruction tuning เก่ง chat
  • X - ขนาดของ Model บอกจำนวน RAM ที่ใช้
  • e - effective parameter ตอนออกแบบ Model เลยแบ่งว่าส่วนในใช้ GPU / CPU เรียกว่าลด Resource ได้เยอะเลย



ทำไมถึงต้องทำแบบนี้ เพราะ Mobile มีส่วนของ vRam น้อย เลยต้องแบ่งส่วนของ Model สำหรับ Process ใน ว่าส่วนในใช้ GPU / CPU เรียกว่าลด Resource ได้เยอะเลย งานไหนใช้เท่าไร่ดึง Resource เท่านั้น


📌 ความสามารถของ Gemma3n (Model 2B)

  • Supports 140 languages for text
  • Supports 35 languages for multimodal interactions.
  • Support Long-term conversation
  • เบื่องหลังความเก่งมีหลายอัลกอริทึมยัดเข้าไปใน Model
    - MobileNet เป็นอัลกอรึทึมเบื้องหลังที่ช่วยให้งานด้วยภาพไวขึ้น อย่าง เช่นใน Google Pixel ตอนนี้ MobileNet-V5-300
    - Universal Speech Model (USM) - จัดการด้านเสียง ทำให้เข้าใจมากขึ้น
    เลยเป็น multimodal

📌 Benefit Gemma3n

  • Optimize for on device เหมือนงาน Video / Image
  • Privacy First
  • Multi Modal Understanding
  • Dynamic Resource usage - มันใช้ resource น้อย ถ้า scale คุม cost ได้ แบ่งงานลง CPU ได้ Cost จะถูกลง กว่าซื้อการ์ดจอ

- How to use Gemma3n



- Deploy Gemma3n On Local Device

  • ลองใช้ผ่านตัว ONNX Framework แต่ Client จะดึงข้อมูลนานๆหน่อย Model หลาย GB
    Ref: huggingface.co/onnx-community/…

Resource: Slide / Code

Reference


#GoogleCloud #ITSeminar2025


พระที่ควรจะนับถือคือเพื่อนผมเอง
ตอนบวช แม่ถูกหวยทุกงวด
ไม่ต้องใบ้เลขอะไร ซื้อมั่วๆยังไงก็ถูก
นับเป็นพลังกตัญญูแรงกล้า

เสียดายมันไม่เอาดีทางพระ
ไม่งั้นตอนนี้พระที่ดังลงข่าวอาจเป็นมันนี่แหละ

veer66 reshared this.

Medien: Was ist entscheidend für Patriot-Lieferungen an Ukraine? de.rt.com/international/251119… Die Zeit ist ein kritischer Faktor bei den Patriot-Lieferungen an die Ukraine, insbesondere angesichts des Ultimatums von Donald Trump, innerhalb von 50 Tagen Sanktionen gegen Russland zu verhängen, sagen westliche Beamte. Moskau verurteilt die Militärhilfe für Kiew. #news #press

ลูกๆพิชิตเส้นทางปั่นจักรยาน 50 กม. ที่ปากช่องได้สำเร็จ! 💪🚴‍♂️🚴‍♀️

เมื่อครั้งก่อนที่บางขุนเทียนต้องยอมแพ้ที่ 35 กม. แต่วันนี้พวกเขาได้พิสูจน์แล้วว่าความล้มเหลวคือบทเรียนที่ดีที่สุด เราได้นั่งคุยกันถึงสิ่งที่เวิร์คและไม่เวิร์ค ปรับแผนการเตรียมตัว และกลับมาลุยใหม่อย่างมั่นใจ

การพิชิตเส้นทางปากช่องไม่ใช่เรื่องง่าย แต่ลูกๆไม่ยอมแพ้ ฝ่าฟันจนถึงเส้นชัย ผมเห็นความมุ่งมั่น ความอดทน และความเข้มแข็งในตัวพวกเขา ช่างเป็นบทเรียนชีวิตที่มีค่ามากกว่าระยะทางการปั่นจักรยาน

ขอบคุณพี่ๆทีม Greenhorn และ ร้านจักรยาน Bok Bok Bike ที่คอยดูแลและให้กำลังใจตลอดเส้นทาง ทำให้ทริปนี้ปลอดภัยและสนุกสนาน เป็นประสบการณ์ที่ลูกๆจะจดจำไปอีกนาน 🙏

veer66 reshared this.